Diana Teknologia
Euskera | English

Proyecto Xerka Alert

Un recolector y distribuidor personal de las novedades relevantes en la información textual residente en Redes Digitales de Información

Objetivos

En este proyecto queremos construir un sistema completo de recolección y diseminación de información personalizable además por el propio usuario, donde el usuario sea capaz de representar él mismo su propio  espacio de interés que normalmente será un espacio complejo y multitemático, donde los agentes de exploración y categorización se doten de mecanismos de regulación de la calidad de las respuestas mediante algoritmos capaces de descubrir nuevos términos y de incorporar esos descubrimientos a la red de procesamiento del lenguaje natural y categorización automática.

--- Objetivos científicos

1.- Tecnologías para el PLN en un sistema de RI controlado por el usuario

Nuestra apuesta consiste en combinar métodos de Procesamiento de Lenguaje Natural, técnicas de estadística bayesiana y métodos innovadores de almacenamiento y búsqueda de información,  para conseguir una aplicación con capacidades de adaptación dinámica a las necesidades específicas de los usuarios para la categorización de colecciones de documentos basada en sus contenidos.

2.- Estudio de la problemática de la caracterización tipológica (taxonomía) de documentos en texto y creación de un prototipo

El estudio y experimentación sobre posibles soluciones a este problema resulta de gran interés, puesto que no ha sido resuelto ni en medios académicos ni empresariales.

3.- Avances en indexación multidimensional para la resolución del problema de búsqueda por contenido en documentos textuales

La investigación de métodos híbridos de indexación que combinan índices planos típicos en las bases de datos actuales con estructuras de indexación multidimensional sobre los que aplicar diferentes algoritmos de búsqueda basadas en medidas alternativas de similitud de documentos representa un objetivo cuyo alcance no sólo será de interés a colecciones de documentos textuales sino también en un contexto más ambicioso de gestión de documentos multimedia de diferente tipología.

--- Objetivos tecnológicos

Los objetivos tecnológicos de Xerka Alert son una derivación natural de los  objetivos conseguidos en SYGE, dado que la validez de nuestro proyecto antecesor está suficientemente contrastada (Neotec 2002-2003). Los objetivos específicos de SYGE se resumían en cuatro acciones de “contextualización” de la información textual en el marco de trabajo de los utilizadores y en el marco de decisión de las empresas (EXCOGE). Ahora vamos a ampliar el rango de aplicación del sistema a un escenario en el que el usuario va a poder describir por sí mismo su espacio temático y recibir solamente información de las variaciones o novedades producidas. Con el impulso de este nuevo proyecto los objetivos que perseguimos son los siguientes.

1.   Encadenar una serie de procesos para el descubrimiento y la realimentación automática del léxico en un sistema productivo de PLN

2.   Elaborar un sistema de tipificación de documentos y categorización avanzada

3.   Construir de una base de datos híbrida como soporte eficaz de cualquier procesador de búsquedas

4.   Construir un distribuidor automático de las novedades detectadas para cada usuario del sistema

El consorcio de desarrollo del proyecto - Entidades del consorcio

  • DIANA TEKNOLOGIA, S.L.: Lider del proyecto:  Investigación y desarrollo de tecnologías de Procesamiento del Lenguaje Natural (PLN) y de indexación.
  • SICUBO S.L.: Investigación y desarrollo de tecnologías de indexación multidimensionales y relacionales.
  • GAIA: Definición de necesidades, usuario de aplicación y testeo de las herramientas producidas.
  • FIDENET: Usuario de aplicación y testeo de las herramientas producidas.
  • GFI Norte: Consulting de aplicación y testeo de las herramientas producidas.
  • Universidad de Extremadura: Investigación y desarrollo de tecnología multidimensional y su aplicación a la resolución de problemas de PLN.

Novedades del producto

El proyecto que presentamos se enmarca en un área de interés estratégico para mantener la competitividad de la empresa como es la Gestión del Conocimiento. Sintetizar el significado de este término no resulta sencillo. De hecho, la búsqueda de literatura sobre el término “Gestión del Conocimiento” en un buscador usual proporciona más artículos y libros de los que una persona pueda leer en toda su vida, lo que indica que resulta difícil señalar los recursos más interesantes de dicha literatura.

Sin embargo, la aplicabilidad de las herramientas informáticas resulta limitada cuando se trata de gestionar la información y el conocimiento. Las implicaciones prácticas de estas limitaciones las notan los usuarios durante su trabajo diario y van desde dificultades para recuperar solamente los documentos relevantes de las colecciones y motores de búsqueda que devuelven cantidades abrumadoras de documentos obviamente irrelevantes.

Son precisamente las limitaciones apuntadas antes las que superamos con nuestro proyecto precursor SYGE. Sin embargo Xerka Alert supone un importante avance cualitativo en la búsqueda de herramientas ubicadas en el área de la gestión del conocimiento basadas en las tecnologías de la información.

  1. Un sistema de alertas con innovadoras capacidades de adaptación a los intereses del usuario. A diferencia de los sistemas de alerta al uso, en los que el usuario dispone de un estrecho margen (estático y predeterminado) para describir sus intereses, Xerka-Alert incorpora un motor de procesamiento de lenguaje natural que permitirá al usuario describir con un amplio margen de libertad sus propios espacios temáticos y construir dinámicamente el sistema terminológico que lo describe.
  2. La posibilidad de manejar documentos en cuatro idiomas diferentes confieren al sistema propiedades de valor estratégico para empresas y organizaciones en el marco de la gestión del conocimiento.
  3. Su capacidad para la tipificación de documentos. Proporcionar al usuario la capacidad de discernir la recuperación de documentos de diferente tipología y filtrar sus búsquedas de acuerdo a sus intereses, no sólo desde una perspectiva puramente semántica del contenido del documento, sino desde un enfoque tipológico, representa sin duda una novedad en el estrecho espectro de herramientas enfocadas en la categorización y gestión documental.
  4. La utilización de herramientas de indexación híbridas con la incorporación de diferentes métricas de similitud entre documentos textuales, además de constituir una apuesta novedosa en este tipo de sistemas, representará un importante avance en el desarrollo de sistemas genéricos de almacenamiento y recuperación de documentos basado en el contenido.

Inversión y duración del proyecto

El proyecto se desarrolla durante los años 2004 y 2005.

Inversión Total del proyecto: 1.059.000 €.

Apoyo: Este proyecto de I+D ha recibido ayudas del Ministerio de Industria Comercio y Turismo a través del programa Profit 2004-2005 así como de la Consejería de Industria del Gobierno Vasco a través de su programa Intek 2004.

Información sobre producto: XerKa-Alert>>

Condiciones | Información legal | © Diana Teknologia