Sección
Sección
Cerrar
Imprimir
buscador
english
área educativa

 

Búsqueda: del archivo a la red
Octubre de 2003

Recuperación de Información Multilingüe
JOSÉ CARLOS GONZÁLEZ
Director Gerente. Daedalus, S.A.

El propósito de la recuperación de información (RI en adelante) es facilitar mecanismos para localizar información en grandes colecciones de documentos en formato electrónico. Los usuarios finales de estos sistemas formulan consultas (búsquedas) que expresan qué contenidos desean localizar. Para ello es preciso que un sistema de RI procese previamente la colección de documentos a efectos de construir estructuras de acceso (índices) que permitan un funcionamiento interactivo en el proceso de búsqueda. Dependiendo de las características de la aplicación (tamaño de las colecciones, distribución previsibles de los accesos, red de acceso, restricciones hardware y software, etc.), los sistemas de RI responden a diseños arquitectónicamente diversos, que pueden involucrar niveles elevados de distribución o paralelismo.

Los buscadores en Internet son, obviamente, los sistemas de RI más populares.

Dentro de la RI, algunos ámbitos concitan actualmente el interés de los investigadores:

· Recuperación semántica: utilización de conceptos y no meras formas léxicas en los procesos de indexación y búsqueda.

· Recuperación de audio o vídeo: localización de archivos de audio o vídeo (música, fotografías, etc.) a partir de información de la información documental anexa.

· Sistemas de Autorrespuesta (o de respuesta a preguntas): Tratan de localizar, no un documento, sino el párrafo concreto que responde a una consulta realizada por un usuario.

· Recuperación de Información Multilingüe (en adelante, RIM): Los usuarios pueden usar una lengua cualquiera de un conjunto de ellas para expresar las consultas y desean recuperar los documentos relevantes para su consulta con independencia del lenguaje en que estén originalmente redactados y ordenados de acuerdo con su relevancia.

Centrándonos en la RIM, estos sistemas presentan el reto de añadir los problemas típicos de la traducción automática a los habituales de la RI. Los investigadores dividen sus soluciones al problema en tres enfoques:

· Traducción de la consulta a todas las lenguas disponibles, realizando múltiples búsquedas monolingües sobre cada una de las subcolecciones que agrupan a los documentos escritos en un mismo idioma, y combinando los resultados a continuación.

· Traducción de cada documento a todos los idiomas posibles, utilizando siempre la expresión original de la consulta en la lengua escogida por el usuario. Con ello, el problema se reduce al de la RI monolingüe.

· Traducción de la consulta a todas las lenguas involucradas, encadenándolas para lanzar una única consulta (multilingüe) sobre la totalidad de la colección (multilingüe)

El interés investigador e institucional en los sistemas para RIM se revela especialmente en la organización de foros de evaluación donde los investigadores ponen a prueba sus ideas junto a los sistemas desarrollados por sus colegas en un entorno internacional. Así han ido surgiendo iniciativas como TREC (Text REtrieval Conference) en EE.UU., CLEF (Cross Language Evaluation Forum) en Europa y NTCIR (NII-NACSIS Test Collection for IR Systems) en Asia.

La charla mostrará los trabajos realizados por DAEDALUS en colaboración con las Universidades Politécnica y Carlos III de Madrid, tanto en el marco del proyecto Europeo Omnipaper (Smart Access to European Newspapers), como en la campaña CLEF 2003.

Información complementaria

Iniciativas de Evaluación:

· CLEF (Cross Language European Forum, http://www.clef.campaign.org/)
· TREC (Text Retrieval Conference, http://research.nii.ac.jp/ntcir)
· NTCIR (NII-NACSIS Test Collection for IR Systems, http://research.nii.ac.jp/ntcir)

Proyectos:

· Omnipaper (http://www.omnipaper.org/): Acceso multilingüe y distribuido a servicios europeos de noticias.

Portales:

· Searchtools.com (http://www.searchtools.com/): Información sobre buscadores en general.
José Carlos González, José Luis Martínez y Julio Villena
DAEDALUS, S.A. (http://www.daedalus.es/)

buscar

del     al



Edad de Plata

 

buscar
        
Actualidad
Actividades
Árchivo y Biblioteca
Destacados
Exposiciones
Publicaciones
Área Educativa
Materiales Documentales
Boletín



quiénes somos        ·         aviso legal        ·         política de cookies        ·         política de privacidad        ·         mapa de la web        ·         guía de navegación        ·         alójese en la residencia de estudiantes           ·              english
© residencia de estudiantes, 2021. Todos los derechos reservados.        
Actualidad
Actividades
Árchivo y Biblioteca
Destacados
Exposiciones
Publicaciones
Área Educativa
Materiales Documentales
Boletín