Interface de recuperación para catálogos en línea con salidas ordenadas por probable relevancia

Archuby, Gustavo Gabriel; Cellini, Julián; González, Claudia Marcela; Pené, Mónica Gabriela

doi:10.1590/S0100-19652000000300001

Resúmenes

Se presenta el desarrollo de una interface de recuperación de información para catálogos en línea de acceso público (plataforma CDS/ISIS), basada en el concepto de similaridad para generar los resultados de una búsqueda ordenados por posible relevancia. Se expresan los fundamentos teóricos involucrados, para luego detallar la forma en que se efectuó su aplicación tecnológica, explícita a nivel de programación. Para finalizar se esbozan los problemas de implementación según el entorno.

Interfaces de recuperación de información; Ponderación de términos; Medida de similaridad; CDS/ISIS

Presents an information retrieval interface model for Public Access Catalogs (OPALs) on CDS/ISIS platform, based on the similarity principle. The proposal aims at ordering the results of vector queries according to their relevance. The underlying theoretical principle is described, as well as the implementation of the model.

Information retrieval interfaces; Term weighting; Similarity measure; CDS/ISIS

ARTIGOS

Interface de recuperación para catálogos en línea con salidas ordenadas por probable relevancia

Gustavo Gabriel Archuby

Licenciatura en Informática, Estudiante. Facultad de Informática, Universidad Nacional de La Plata.

E-mail: gustavoa@huma.fahce.unlp.edu.ar

Julián Cellini

Analista en Computación, expedido por la Facultad de Informática de la Universidad Nacional de La Plata. Promedio: 7,625.

E-mail: juliancellini@gmx.net

Claudia Marcela González

Bibliotecaria Documentalista, expedido por la Facultad de Humanidades y Ciencias de la Educación de la Universidad Nacional de La Plata, 1988.

E-mail: claudia@huma.fahce.unlp.edu.ar

Mónica Gabriela Pené

Bibliotecaria Documentalista, expedido por la Facultad de Humanidades y Ciencias de la Educación de la Universidad Nacional de La Plata, con fecha 20 de diciembre de 1996. Promedio: 9,67

E-mail: mpene@huma.fahce.unlp.edu.ar

Resumen

Se presenta el desarrollo de una interface de recuperación de información para catálogos en línea de acceso público (plataforma CDS/ISIS), basada en el concepto de similaridad para generar los resultados de una búsqueda ordenados por posible relevancia. Se expresan los fundamentos teóricos involucrados, para luego detallar la forma en que se efectuó su aplicación tecnológica, explícita a nivel de programación. Para finalizar se esbozan los problemas de implementación según el entorno.

Palabras-claves

Interfaces de recuperación de información; Ponderación de términos; Medida de similaridad; CDS/ISIS.

Opacs retrieval interface with ranked outputs

Abstract

Presents an information retrieval interface model for Public Access Catalogs (OPALs) on CDS/ISIS platform, based on the similarity principle. The proposal aims at ordering the results of vector queries according to their relevance. The underlying theoretical principle is described, as well as the implementation of the model.

Keywords

Information retrieval interfaces; Term weighting; Similarity measure; CDS/ISIS.

INTRODUCCÍON

En estos últimos 50 años ha existido en los países desarrollados una preocupación constante por investigar e implementar técnicas que permitan recuperar información precisa. Desde mediados de siglo, los esfuerzos convergentes de distintas disciplinas: informática, lingüística, psicología, ciencias de la información, han dado origen a sistemas automáticos de recuperación de información de diferente nivel de complejidad. En el ámbito de la documentación, los más difundidos y utilizados internacionalmente son los que aplican técnicas basadas en la equiparación exacta (exact matching), proximidad y álgebra de Boole¹.

Quizá uno de los principales problemas de estos sistemas tradicionales, provenga de la falta de asignación de grados de posible relevancia en las respuestas². Esto es: el operador AND es demasiado restrictivo, todos los documentos que no cumplen con las condiciones de búsqueda establecidas quedan excluidos; y en contraposición, el operador OR es demasiado inclusivo provocando generalmente un problema de sobrerecuperación. Por ejemplo, si al momento de plantear una estrategia de búsqueda sencilla, se opta por relacionar dos términos con un AND, el usuario perderá la posibilidad de ver los documentos que sólo contienen uno de los términos. Si la misma búsqueda se plantea con un OR, el sistema traerá todos los registros que contienen al menos uno, pero no es capaz de ordenar los registros recuperados de forma que se muestren primero los que contienen ambos términos.

El fundamento teórico que permitió desarrollar las técnicas de salidas ordenadas por probable relevancia (ranked output), correspondió al ámbito de la psicolingüística, concretamente a los trabajos de Zipf. Sus estudios establecieron que si se ordenan las palabras de un corpus textual en un rango de forma descendente por su frecuencia de aparición, y luego se multiplica el rango por la frecuencia, se obtiene un valor aproximadamente constante. La observación de que dicho valor era más estable en las frecuencias intermedias, le permitió concluir que es en esas palabras donde se deposita la significación de un texto^{2, 3, 4}.

frecuencia * rango @ constante

A fines de los 50, Luhn aplica esta idea a un sistema documental concluyendo, de forma similar, que el poder de resolución (resolving power) de un término de indización asignado en una base de datos, está en los términos de frecuencias intermedias. En este caso, el concepto de poder de resolución de un término o "peso" como se denominará de aquí en más , está relacionado con su capacidad de identificar material relevante dentro del corpus documental⁵.

A partir de los trabajos de Luhn comienzan a desarrollarse funciones matemáticas que modelizan, con mayor rigor, el peso de un término. Algunas de estas funciones sirven para aplicar en sistemas que utilizan lenguaje controlado y otras para sistemas que emplean la lengua natural. Una de las más simples, y apropiada para la experiencia aquí planteada, fue propuesta por Sparck Jones ^{2, 5}.

Peso del término t = Log ₂(n / f) + 1

donde:

n es la cantidad de registros de la base de datos

f es la frecuencia del término en la base de datos

Esta función supone que el peso de un término es inversamente proporcional a la cantidad de documentos que lo poseen (véase tabla 1). Puede decirse entonces que, cuanto más frecuente es un término en una base de datos, menor es la información que proporciona y, por ende, más bajo su peso.

Thumbnail

Gerald Salton utiliza este concepto de peso en su modelo de recuperación basado en el espacio vectorial (proyecto SMART, 1968). En dicho modelo, se forma una matriz término/documento que representa la base de datos. Cada vector de la matriz representa un documento; cada elemento del vector tendrá valor 0 (cero) si dicho documento no contiene el término; o el valor del peso del término si lo contiene.

Vectorizando a su vez la expresión de búsqueda formulada por el usuario (query vector), desarrolla un nuevo modelo matemático para la recuperación de información basado en el cálculo del coeficiente de similaridad entre vectores. Este coeficiente permite determinar las similitudes y diferencias entre los documentos de una base de datos y/o entre éstos y la expresión de búsqueda introducida por el usuario.

Para realizar el cálculo de la similaridad entre dos vectores existen diversas funciones, siendo las más conocidas la del producto escalar de dos vectores y los coeficientes del coseno, Dice y Jaccard. Para el presente desarrollo se ha seleccionado el coeficiente de Dice, ya que la bibliografía lo presenta como una de las funciones para aplicar en recuperación de información ⁵.

Coeficiente de Dice:

Donde:

PQi: es el peso del término i en el documento Q, o 0 (cero) si el documento Q no tiene el término.

PDi: es el peso del término i en el documento D, o 0 (cero) si el documento D no tiene el término.

Al hacer el cálculo del coeficiente de similaridad de los documentos y del vector de búsqueda, y someterlos a una comparación sistemática, se está en condiciones de establecer un orden descendente, colocando en primer término el documento cuyo valor es más cercano al del vector de búsqueda y así hasta concluir con todos los registros resultantes. Estos registros son los mismos que se obtienen al hacer un OR entre todos los términos que se utilizan en la interrogación.

CARACTERÍSTICAS DE LA INTERFACE

La presente interface ha sido desarrollada con la finalidad de realizar una aplicación concreta de algunos de los principios teóricos de la recuperación de información en forma automática. No obstante, podría aportar en la práctica una posibilidad sustancial de mejorar el acceso a la información de cualquier OPAC sobre plataforma CDS/ISIS en Internet.

Una de las herramientas que permite la operación de bases MicroIsis desde la Web es el WWWISIS 4.0, también conocido como WXIS, desarrollado por el grupo de programación de BIREME. Mediante la interfaz CGI (Common Gateway Interface), este software opera como nexo entre las bases de datos y un servidor www, permitiendo la visualización de los registros de las bases ISIS en formato HTML en el visualizador del cliente.

La solicitud que realiza el cliente se hace a través de un formulario que completa el usuario. Los datos enviados son tomados por el script CGI (en este caso por un script WWWISIS) que recupera la cadena de caracteres que tiene los datos y la utiliza como expresión de búsqueda en la base de datos. Es el mismo script el que se encarga de devolver los registros resultantes en formato HTML al cliente.

La interface web desarrollada para este estudio (véase fig. 1) consta de un formulario con las siguientes opciones:

a) el cuadro de texto: donde el usuario registra todos y cada uno de los términos que representan el concepto que está buscando. Dichos términos se registran uno debajo de otro.

b) porcentajes de similaridad documental: donde el usuario establece el grado de similaridad mínimo entre la información que busca (indicada en los términos ingresados que componen el vector de búsqueda ) y los documentos recuperados.

c) campo de la FST: campo de la base de datos sobre el que se efectúa la búsqueda.

d) el botón de Buscar: inicia la acción.

e) el botón Limpiar: borra los datos registrados en el formulario, preparándolo para recibir nueva información.

Un detalle interesante de esta interface es que brinda la posibilidad de que el usuario determine si desea recuperar sólo documentos con un alto porcentaje de similaridad o bien visualizar todos los registros recuperados (listados en orden decreciente según el porcentaje de similaridad).

Haciendo una descripción más profunda, debe mencionarse también que fue necesario generar otra base de datos complementaria al OPAC. El ambiente de programación WWWISIS 4.0 no provee una función que calcule logaritmos, con lo cual el cálculo constante que debe realizarse para conocer el "peso" de los términos hace poco óptimo el rendimiento de la aplicación. Se optó, entonces, por implementar una tabla de logaritmos (en base DOS) como un archivo maestro ISIS, en el cual se guarde el logaritmo de 1 en el registro 1, el logaritmo de 2 en el registro 2, y así sucesivamente. A dicha base se accede mediante la función REF del lenguaje de formateo.

DESCRIPCIÓN GENERAL DEL SCRIPT

El funcionamiento de la aplicación comienza cuando el usuario envía los términos a buscar. Dichos términos se utilizan para generar el vector de búsqueda, y además para seleccionar de la base de datos todos los documentos que contienen por lo menos uno de ellos en el campo descriptores.

Luego se toma cada documento recuperado y se calcula la similaridad con el vector de búsqueda mediante la función de similaridad. Si ésta es menor que el mínimo estipulado por el usuario, el documento es descartado; de lo contrario, es insertado en una lista ordenada en forma decreciente de acuerdo al grado de similaridad con el vector de búsqueda. Una vez procesados todos los documentos, son devueltos al usuario.

El script consta de un cuerpo principal y dos funciones. Una de las funciones calcula la similaridad entre dos documentos, y la otra, obtiene el peso del término en la base de datos. Esta última función se aplica al campo descriptores de la base de datos, porque se necesita que el término sea único por registro (véase ^Apéndice Apéndice ).

DISCUSIÓN

La realización de este desarrollo con la única finalidad de profundizar en el estudio del concepto de similaridad documental, permite plantear algunos interrogantes:

1. Si al efectuar búsquedas específicas, con más de 2 términos, no se obtienen resultados numerosos de nuestros OPACs, ¿se justifica el esfuerzo del desarrollo de una interface que los ordene por posible relevancia? Si un resultado de búsqueda ofrece 10 registros para visualizar, ¿es significativo que los devuelva ordenados?

2. Con CDS/ISIS como herramienta de desarrollo reconocida es la potencia de su motor para realizar búsquedas booleanas, ¿no sería factible obtener resultados ordenados, sin aplicar cálculos de similaridad documental, sólo haciendo variaciones de AND y OR entre los términos de búsqueda?

3. Los usuarios de nuestros OPACs, ¿reclamarán interfaces simples, sin uso de operadores, y resultados "rankeados" tal como los que ofrecen los actuales buscadores de Internet?

Finalmente cabe reflexionar que el presente estudio se enmarca dentro del modelo vectorial, el cual conforma, junto con el modelo probabilístico, el área "dura" de la teoría de recuperación de información. Si partimos de suponer que la búsqueda de información es el problema clave de la Ciencia de la Información, esto implica que el análisis de cualquiera de los temas claves de la Bibliotecología debería plantearse a la luz de sus teorías. Estas teorías provienen de diferentes áreas del conocimiento, principalmente de las que estudian cómo el hombre conoce y procesa información, por lo cual, los modelos matemáticos conforman una pequeña porción dentro de las posibles elecciones para abordar el problema de la recuperación de información.

BIBLIOGRAFÍA

Artigo aceito para publicação em 12-09-2000

Apéndice

1. FERNÁNDEZ MOLINA, J. C.; MOYA ANEGÓN, F. de. Los catálogos de acceso público en línea : el futuro de la recuperación de información bibliográfica. Granada : Asociación Andaluza de bibliotecarios, 1988.
2. MOYA ANEGÓN, F. de Los sistemas integrados de gestión bibliotecaria: estructura de datos y recuperación de información. Madrid : ANABAD, 1995.
3. MOYA ANEGÓN, F. de; LÓPEZ GIJÓN, J.; GARCÍA CARO, C. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación Madrid : Síntesis, 1996.
4. RIJSBERGEN, C.J. van. Information retrieval. 2. ed. London : Butterworths, 1979.
5. SALTON, G.; McGILL, M. Introduction to modern information retrieval New York : McGraw-Hill, 1983.

Apéndice

Fechas de Publicación

Publicación en esta colección
15 Feb 2001
Fecha del número
Dic 2000

Histórico

Acepto
12 Set 2000

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

[1] 1. FERNÁNDEZ MOLINA, J. C.; MOYA ANEGÓN, F. de. Los catálogos de acceso público en línea : el futuro de la recuperación de información bibliográfica. Granada : Asociación Andaluza de bibliotecarios, 1988.

[2] 2. MOYA ANEGÓN, F. de Los sistemas integrados de gestión bibliotecaria: estructura de datos y recuperación de información. Madrid : ANABAD, 1995.

[3] 3. MOYA ANEGÓN, F. de; LÓPEZ GIJÓN, J.; GARCÍA CARO, C. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación Madrid : Síntesis, 1996.

[4] 4. RIJSBERGEN, C.J. van. Information retrieval. 2. ed. London : Butterworths, 1979.

[5] 5. SALTON, G.; McGILL, M. Introduction to modern information retrieval New York : McGraw-Hill, 1983.

Brasil