Proyecto Xerka Alert Un recolector y distribuidor personal de las novedades relevantes en la información textual residente en Redes Digitales de InformaciónObjetivos En este proyecto queremos construir un sistema completo de recolección y diseminación de información personalizable además por el propio usuario, donde el usuario sea capaz de representar él mismo su propio espacio de interés que normalmente será un espacio complejo y multitemático, donde los agentes de exploración y categorización se doten de mecanismos de regulación de la calidad de las respuestas mediante algoritmos capaces de descubrir nuevos términos y de incorporar esos descubrimientos a la red de procesamiento del lenguaje natural y categorización automática. --- Objetivos científicos 1.- Tecnologías para el PLN en un sistema de RI controlado por el usuario Nuestra apuesta consiste en combinar métodos de Procesamiento de Lenguaje Natural, técnicas de estadística bayesiana y métodos innovadores de almacenamiento y búsqueda de información, para conseguir una aplicación con capacidades de adaptación dinámica a las necesidades específicas de los usuarios para la categorización de colecciones de documentos basada en sus contenidos. 2.- Estudio de la problemática de la caracterización tipológica (taxonomía) de documentos en texto y creación de un prototipo El estudio y experimentación sobre posibles soluciones a este problema resulta de gran interés, puesto que no ha sido resuelto ni en medios académicos ni empresariales. 3.- Avances en indexación multidimensional para la resolución del problema de búsqueda por contenido en documentos textuales La investigación de métodos híbridos de indexación que combinan índices planos típicos en las bases de datos actuales con estructuras de indexación multidimensional sobre los que aplicar diferentes algoritmos de búsqueda basadas en medidas alternativas de similitud de documentos representa un objetivo cuyo alcance no sólo será de interés a colecciones de documentos textuales sino también en un contexto más ambicioso de gestión de documentos multimedia de diferente tipología. --- Objetivos tecnológicos Los objetivos tecnológicos de Xerka Alert son una derivación natural de los objetivos conseguidos en SYGE, dado que la validez de nuestro proyecto antecesor está suficientemente contrastada (Neotec 2002-2003). Los objetivos específicos de SYGE se resumían en cuatro acciones de “contextualización” de la información textual en el marco de trabajo de los utilizadores y en el marco de decisión de las empresas (EXCOGE). Ahora vamos a ampliar el rango de aplicación del sistema a un escenario en el que el usuario va a poder describir por sí mismo su espacio temático y recibir solamente información de las variaciones o novedades producidas. Con el impulso de este nuevo proyecto los objetivos que perseguimos son los siguientes. 1. Encadenar una serie de procesos para el descubrimiento y la realimentación automática del léxico en un sistema productivo de PLN 2. Elaborar un sistema de tipificación de documentos y categorización avanzada 3. Construir de una base de datos híbrida como soporte eficaz de cualquier procesador de búsquedas 4. Construir un distribuidor automático de las novedades detectadas para cada usuario del sistema El consorcio de desarrollo del proyecto - Entidades del consorcio
Novedades del producto El proyecto que presentamos se enmarca en un área de interés estratégico para mantener la competitividad de la empresa como es la Gestión del Conocimiento. Sintetizar el significado de este término no resulta sencillo. De hecho, la búsqueda de literatura sobre el término “Gestión del Conocimiento” en un buscador usual proporciona más artículos y libros de los que una persona pueda leer en toda su vida, lo que indica que resulta difícil señalar los recursos más interesantes de dicha literatura. Sin embargo, la aplicabilidad de las herramientas informáticas resulta limitada cuando se trata de gestionar la información y el conocimiento. Las implicaciones prácticas de estas limitaciones las notan los usuarios durante su trabajo diario y van desde dificultades para recuperar solamente los documentos relevantes de las colecciones y motores de búsqueda que devuelven cantidades abrumadoras de documentos obviamente irrelevantes. Son precisamente las limitaciones apuntadas antes las que superamos con nuestro proyecto precursor SYGE. Sin embargo Xerka Alert supone un importante avance cualitativo en la búsqueda de herramientas ubicadas en el área de la gestión del conocimiento basadas en las tecnologías de la información.
Inversión y duración del proyecto El proyecto se desarrolla durante los años 2004 y 2005. Inversión Total del proyecto: 1.059.000 €. Apoyo: Este proyecto de I+D ha recibido ayudas del Ministerio de Industria Comercio y Turismo a través del programa Profit 2004-2005 así como de la Consejería de Industria del Gobierno Vasco a través de su programa Intek 2004. |