XML y Búsquedas: Búsquedas por estructuras marcadas en XML y otros métodos complementarios
ALEJANDRO BIA
Subdirector de Investigación Informática. Biblioteca Virtual Miguel de Cervantes. Universidad de Alicante
INTRODUCCIÓN
La Biblioteca Virtual Miguel de Cervantes además de ofrecer un gran número de obras en formato digital, potencia su utilización mediante servicios tecnológicos que dotan de un valor añadido a estos contenidos. Así, contamos con una amplia gama de buscadores diferentes que se complementan entre sí, y también programas de concordancias y de acceso a diccionarios, que se basan en una tecnología similar a la de los buscadores.
Al buscador tradicional para información del catálogo se suman otros como el buscador por número de referencia o localizador de la obra, el buscador en contenidos de la obra, el buscador de páginas de navegación de la biblioteca (busca en páginas web de portales y secciones de nuestro sitio web), y el más reciente buscador avanzado basado en el marcado XML.
El buscador avanzado en textos XML permite la búsqueda de palabras dentro de las construcciones específicas de los textos: párrafos, versos, citas, e incluso intervenciones de un determinado personaje en piezas de teatro. Es posible delimitar fácilmente, por títulos o por nombres de autores, el conjunto de obras en las que localizar las palabras mediante la introducción de restricciones.
BÚSQUEDAS POR NÚMERO DE REGISTRO
Este buscador, permite acceder directamente a la ficha de una obra de la Biblioteca Virtual cuyo registro coincida con el número que ha introducido. A pesar de ser el más simple de los buscadores, provee un servicio útil al permitir localizar rápidamente una obra por su número de registro o localizador. Esto es de gran utilidad para los usuarios que leen o trabajan reiteradamente con la misma obra, de la cual recuerdan su localizador numérico.
BÚSQUEDAS EN INFORMACIÓN DEL CATÁLOGO
La arquitectura de datos de nuestro sistema de catalogación se basa en el formato MARC [1,2], aunque para algunos proyectos especiales como el portal que hemos diseñado para la Biblioteca de Palacio Real (Patrimonio Nacional) hemos usado formatos derivados del esquema de marcado de textos TEI [3]. Nos referimos al formato del TEI-header (cabezal con metadatos de los documentos TEI), aunque para manuscritos hemos usado una ampliación de este, llamada MASTER [4]. El proyecto MASTER trata de la gestión de metadatos para manuscritos antiguos y fue llevado a cabo por un grupo de universidades europeas, entre las que se cuenta la Universidad de Oxford.
La tendencia actual es abandonar el formato MARC en favor de otros formatos más modernos y adecuados para obras exclusivamente digitales, como es el caso de los formatos basados en la norma TEI o el Dublin Core [5].
Desde el punto de vista informático, los datos se almacenan y gestionan mediante un sistema de aplicación de bases de datos de construcción propia que usa una base de datos relacional. Este sistema aporta una interfaz que permite las operaciones tradicionales de alta, baja y modificación de registros entre otras.
Este sistema se usa para la gestión interna de los datos de catalogación. Para búsquedas y consultas externas a través de Internet, los datos de esta base se exportan a otra base de datos orientada a objetos (basada en el producto Object-Store), y las búsquedas se realizan mediante otro programa, desarrollado por nuestra área de informática, que construye una estructura TRIE en memoria del servidor, la cual se destaca por su rapidez y eficiencia en las búsquedas [6]. Este programa esta realizado en Java, al igual que la mayoría de nuestra programación de servidor. El buscador de información de catálogo permite hallar un título aunque se busque incompleto: p.ej. acepta "Quijote", "Don Quijote", "Ingenioso Hidalgo", es decir, subconjuntos del nombre completo. También ignora palabras poco significativas como artículos y preposiciones (Llamadas "stop-words" en la jerga informática). Permite búsquedas por título, autor, materia y época.
BÚSQUEDA AVANZADA EN LOS SUMARIOS DE LAS REVISTAS
La Biblioteca Virtual posee una hemeroteca cuyos fondos son prestigiosas revistas científicas y culturales de diversas áreas temáticas. Para centrar la búsqueda en los contenidos de estas revistas se ha construido este buscador especial.
BÚSQUEDA EN CONTENIDO USANDO TECNOLOGÍA TRADICIONAL
Este buscador, permite buscar palabras en el propio texto de cualquier obra de nuestra biblioteca utilizando una tecnología tradicional de buscador Web, basada en la construcción de índices de palabras por medio de un programa rastreador de la Web o "araña" (spider) cono se le suele llamar en la jerga informática.
Para este propósito, hemos usado un buscador gratuito y muy potente, como es el "ht://Dig" (léase HT-Dig), que funciona en el entorno Linux. Este programa no sólo muestra el contexto en el que aparece la palabra sino que además remite, mediante un enlace al documento, al lugar preciso de este donde aparece la palabra buscada.
También realiza una ordenación, según criterios de relevancia, de las páginas encontradas: los resultados son mostrados ordenados según un "ranking" que tiene en cuenta tanto la proximidad de las palabras como la cantidad de veces que aparecen en la obra.
BÚSQUEDA EN PÁGINAS DE NAVEGACIÓN DE LA BIBLIOTECA
Del mismo modo que a veces resulta interesante buscar palabras en el contenido de una obra, otras veces nos interesa hacer búsquedas en las páginas web de los portales y secciones de nuestra biblioteca, es decir, en todas las páginas que no son obras ni fichas del catálogo: las páginas que conforman la estructura navegable de nuestro sitio Web.
Existe también un formulario de búsqueda en contenidos y en páginas de navegación que permite hacer una búsqueda combinada, según las dos últimas opciones.
BÚSQUEDA EN CONTENIDO BASADA EN EL MARCADO XML
Los buscadores anteriores no permiten realizar búsquedas usando el marcado estructural, como por ejemplo buscar la palabra "Sevilla" sólo si aparece dentro del título de una obra de Tirso de Molina.
El nuevo buscador de contenidos, además de efectuar búsquedas en el texto de las obras, permite buscar palabras utilizando condiciones basadas en el marcado estructural XML-TEI [7]. Este buscador permite realizar búsquedas de texto muy potentes, indicando dentro de qué partes estructurales debe encontrarse la cadena buscada.
Está pensado para localizar palabras dentro de las obras marcadas mediante las etiquetas TEI, que son las utilizadas en el etiquetado de los documentos XML donde se realizará la búsqueda.
Con él podemos buscar libros donde un nombre, por ejemplo "Galdós", aparezca como autor, o como parte del título, o como parte del cuerpo de la obra, dando estas búsquedas resultados muy diferentes.
Por ejemplo, podremos buscar obras donde la palabra "Paloma" aparezca exclusivamente como personaje de una obra de teatro, o en párrafos de prosa, o en líneas de verso. Estas condiciones de búsqueda basadas en el marcado estructural permiten hacer búsquedas muy precisas y sofisticadas.
A este buscador se le han agregado, y se le están agregando, herramientas lingüísticas que dan mayor potencia y versatilidad a las búsquedas. Esto se ha realizado en el marco de un proyecto en cooperación con la Residencia de Estudiantes.
Entre las cosas que permite hacer destacamos:
· Permite buscar una palabra o secuencia de palabras dentro de un párrafo (etiqueta <p>), dentro de un verso (etiqueta <lg>) o dentro de una cita (etiqueta <q>).
· Permite buscar todos los parlamentos (en obras de teatro) de un personaje determinado (etiqueta <speaker> en XML-TEI).
· Permite buscar una palabra o secuencia de palabras en obras de teatro dentro de los parlamentos de un personaje en particular.
· Permite buscar una palabra en un determinado idioma. En XML-TEI, las palabras o frases que están en un idioma distinto al del texto de la obra se marcan con la etiqueta , que significa foráneo o extranjero.
· Permite buscar todas las palabras o frases que han sido marcadas con la etiqueta <foreign> para un determinado idioma.
Por otro lado, el buscador XML permite acotar las obras en las que se va a realizar la búsqueda. Dicha acotación a las obras se puede realizar por autor, por título o incluso por el título de una sección determinada. Si se rellena alguno de estos campos se buscará sólo en aquellas obras que cumplan estas restricciones.
Por último, nos permite determinar el número de resultados a mostrar por página de resultados. Por defecto muestra 10 resultados por página.
En la presentación analizaremos y explicaremos cada uno de los campos y las posibilidades que ofrece este tipo de búsqueda.
PROGRAMAS DE CONCORDANCIAS
Los programas de concordancias y de búsqueda en diccionarios, se basan en una tecnología similar a la de los buscadores. Son en realidad buscadores muy especializados.
Este servicio de concordancias de obras permite la búsqueda de concordancias en una obra concreta. Va dirigido a estudiantes de literatura e investigadores de letras y permite buscar las apariciones de palabras en contexto, lo que resulta útil a la hora de analizar el uso que un autor hace de ciertos términos dentro de una obra.
La búsqueda de concordancias, no analiza toda la obra, sino que deja algunas secciones de la misma sin analizar. Estas secciones son el título de la obra, el autor de la obra, las notas del editor y las del corrector. El resto de la obra es analizada a la hora de buscar concordancias de una palabra o expresión. Para ello, se deben establecer los valores adecuados en los distintos campos del formulario: búsqueda de texto, modo de la búsqueda, contexto de la búsqueda, e interpretación de los resultados obtenidos.
En una primera instancia, hemos utilizado el programa TactWeb para brindar este servicio de concordancias a los lectores de nuestra biblioteca. TactWeb utiliza ficheros de concordancias de TACT (Text Analysis Computing Tools) para presentarlos a través de la Web. Si bien se trata de excelentes programas que marcaron hitos en la aplicación de la informática en las humanidades, son programas que se basan en tecnología que tiene más de una década, y presentan fallos que no pueden ser reparados. Recientemente hemos construido otro programa de funcionalidad equivalente, pero de respuesta mucho más rápida. Además, los formatos de su salida son más modernos que los de TactWeb.
Estos programas de concordancias buscan las concordancias en una obra, pero no son capaces de buscar palabras en toda la biblioteca. Se trata de buscadores muy especializados que se limitan al tratamiento de obras individuales. En casos excepcionales, se han juntado varias obras para su uso en conjunto a los efectos de las concordancias, pero esto no es lo habitual.
DICCIONARIOS
Las búsquedas en diccionarios resultan ser una herramienta muy útil para los lectores de textos digitales. Seleccionando una palabra de una obra y mediante una combinación breve de teclas el lector puede saltar directamente del texto a un diccionario de su elección para ver la definición de la palabra. Estos diccionarios electrónicos se basan también en la tecnología de buscadores, siendo simplemente, al igual que las concordancias, aplicaciones especializadas de los mismos.
CONCLUSIÓN
Es en los buscadores, concordancias y diccionarios electrónicos donde se ponen de manifiesto las virtudes del texto en formato digital. La amplia variedad de buscadores aquí presentados se complementan perfectamente, brindando servicios muy variados en dominios diferentes.
REFERENCIAS
1. Estévez-Ballester, A.: Formato USMARC: versión 1. Servicio Central de Bibliotecas de la Universidad de Cádiz, Cádiz (1999)
2. Biblioteca Nacional de España: Formato IBERMARC para registros bibliográficos. Biblioteca Nacional, Madrid (1996)
3. Sperberg-McQueen, C.M., Burnard, L., eds.: Guidelines for Electronic Text Encoding and Interchange (Text Encoding Initiative P3), Revised Reprint, Oxford, May 1999. TEI P3 Text Encoding Initiative, Chicago - Oxford (1994)
4. Burnard, L., Robinson, P.: Vers un standard européen de description des manuscrits: le project Master. In André, J., Chabin, M.A., eds.: Les documents anciens. Volume 3 of Document numérique. Hermes Science Publications, Paris (1999) 151-169
5. Dublin core metadata initiative. http://purl.org/dc/index.htm (Last visited: April 2000)
6. Bia, A., Nieto, A.: Information Retrieval in Digital Libraries: e±cient catalog searches using tries. http://cervantesvirtual.com/research/articles/tries.pdf (2000)
7. DeRose, S.: XML and the TEI. In Mylonas, E., Renear, A., eds.: Text Encoding Initiative: Anniversary conference; 10th November 1997, Providence, RI. Volume 33(1) of Computers and the Humanities 1999; /2., Norwell, MA, USA, and Dordrecht, The Netherlands, Kluwer Academic Publishers Group (1999) 11-30
8. Bia, A., Muñoz, R.: Aplicación de Técnicas de Extracción de Información a Bibliotecas Digitales (Applying Information Extraction Techniques to DLs). In Ferro, M.V., ed.: Proceedings of the XVI Conference of the SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural). Volume 26., University of Vigo, Spain, SEPLN (2000) 207-214 (published in: Procesamiento del Lenguaje Natural, journal of the SEPLN).
| |||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||