Proyectos

Título

Planteamiento y evaluación de representaciones y estrategias para la organización automática de información multilingüe

Resumen

En nuestros días, debido a los adelantos en medios de comunicación y de almacenamiento, existe más información disponible de la que somos capaces de leer, ya no digamos de analizar con el debido detalle para darle un uso específico. Tras la aparición de Internet, y gracias a sus enormes capacidades de comunicación y distribución de datos, millones de personas alrededor del mundo comparten diariamente cantidades increíbles de información. Aunado a esta situación, resalta el hecho de que dicha información es expresada en cada vez más idiomas.

Bajo este contexto, el problema se centra en como organizar, acceder y manipular esta enorme cantidad de información. Para ello, diferentes áreas de investigación dentro de las Ciencias Computacionales abordan este problema. Entre ellas podemos nombrar: la recuperación de información, la extracción de información, la búsqueda de respuestas, la generación de resúmenes, entre otras. Un problema común a enfrentar en todas estas áreas de investigación es el multilingüismo. Es decir, como organizar, acceder y manipular colecciones de documentos escritos en diferentes idiomas. Este nuevo reto incrementa la complejidad al provocar que los documentos en una colección no sean directamente comparables. De ahí que en años recientes diferentes grupos de investigación exploren distintos métodos para abordar este problema.

Intuitivamente una primera solución al problema del multilingüismo consiste en aplicar un proceso de traducción automático para después aplicar las técnicas tradicionales desarrolladas para situaciones monolingües. Sin embargo, a pesar de los enormes adelantos en el campo de la traducción automática aún no es posible contar con un traductor totalmente correcto. Los traductores actuales tienen diferentes rendimientos dependiendo del dominio, del estilo de redacción y de los idiomas involucrados. De ahí que se hayan propuesto nuevas ideas encaminadas a solucionar el tratamiento de información multilingüe. Ejemplos de estas ideas son el uso de recursos externos como tesauros multilingües y de atributos independientes de un proceso de traducción. En el primer caso, se ha intentado aprovechar la estructura del tesauro para encontrar la correspondencia entre términos de diferentes idiomas. Sin embargo, en esta situación es necesario recurrir a un proceso de resolución de la ambigüedad del sentido de las palabras –proceso en extremo difícil de resolver. Además, en este caso nos enfrentamos a la disponibilidad de los tesauros específicos, recursos costosos de construir y los cuales además de estar orientados al dominio en cuestión es necesario construirlos para los idiomas deseados. En el segundo caso, se ha intentado describir los documentos a partir de los referentes a los que hace mención. Por ejemplo, al utilizar los nombres de las personas o de los lugares (i.e. entidades nombradas). No obstante, el aporte de estas características para la organización temática de los documentos no es suficiente sobre todo en dominios generales.

Estos dos enfoques, que por la manera de extraer los atributos se pueden agrupar en dependientes e independientes de la traducción, se han explorado por líneas separadas. Donde para dominios generales el uso de atributos dependientes de la traducción ha alcanzado mejores resultados y para dominios específicos los atributos independientes de la traducción. El presente proyecto se distingue de trabajos anteriores en los siguientes puntos:

  • Se busca disminuir la dependencia a recursos externos, al considerar únicamente traductores automáticos, sin recurrir a tesauros o diccionarios multilingües, dada su difícil construcción para dominios específicos.
  • Se disminuirá el impacto de los errores de la traducción al combinar las capacidades de múltiples traductores automáticos.
  • Se extraerán directamente de la colección características independientes de la traducción ayudando a la caracterización del dominio en cuestión. Se pretende extraer el mayor número de atributos posibles para describir apropiadamente el contenido de los documentos.
  • A través del análisis de pertinencia de los atributos propuestos se definirán esquemas de pesado que permitan construir una representación adecuada para colecciones de documentos multilingües.
  • Se realizará la organización de información multilingüe mediante estrategias que combinen las fortalezas de los enfoques dependientes e independientes de la traducción, tanto al establecer esquemas de pesado de atributos como al combinar los resultados de diferentes algoritmos de clasificación.

Vigencia

2009

Financiamiento

Externo, Proyecto Conacyt 83459

Participantes y colaboradores

Dr. Manuel Montes y Gómez responsable
Dr. Luis Villaseñor-Pineda
Dr. Paolo Rosso colaborador externo Universidad Politécnica de Valencia, España.

Estudiantes asociados

M. en C. Claudia Denicia Carral Ing. Adelina Escobar Acevedo

Powered by PmWiki