Aplicação de técnicas infométricas para identificar a abrangência do léxico básico que caracteriza os processos de indexação e recuperação da informação

Robredo, Jaime; Cunha, Murilo Bastos da

doi:10.1590/S0100-19651998000100003

Resumos

A análise das coocorrências entre pares de palavras permite estabelecer índices estatísticos que representam a força de associação entre esses pares e, a partir dos valores encontrados, mapear o estado de uma área do conhecimento num determinado momento. A identificação de aglomerados de palavras-chave e a análise da força de ligação entre pares de palavras e expressões significativas integrantes dos aglomerados abre o caminho para importantes aplicações que vão da construção de léxicos especializados até o desenvolvimento de instrumentos lógicos suscetíveis de otimizar os processos de indexação automática e recuperação da informação, passando pela possibilidade de acompanhar a evolução dos temas de interesse da pesquisa científica. Apresenta-se uma aplicação da análise das coocorrências de pares de palavras-chave para identificação do âmbito e da abrangência do léxico básico, que caracteriza os processos de indexação e recuperação da informação.

Léxico básico; Indexação; Recuperação da informação; Técnicas infométricas

Co-word analysis offers the possibility of statiscally measuring the associative strength between pairs of keywords and, by using the values found, of mapping the dynamics of a scientific field in a given moment. The identification of clusters of keywords and the analysis of the strength of the links between pairs of keywords in the clusters show the way for important applications, ranging from the building up of special lexicons, to the development of logical tools for optimyzing automatic indexing and retrieval processes, as well as the mapping of the evolution of interest on key topics in scientific research. An application of co-word analysis to identify the scope of the basic terminology related to indexing and retrieval is described.

Basic vocabulary; Indexing; Information retrieval; Infometrical techniques

Aplicação de técnicas infométricas para identificar a abrangência do léxico básico que caracteriza os processos de indexação e recuperação da informação

Jaime Robredo

Murilo Bastos da Cunha

Resumo

A análise das coocorrências entre pares de palavras permite estabelecer índices estatísticos que representam a força de associação entre esses pares e, a partir dos valores encontrados, mapear o estado de uma área do conhecimento num determinado momento. A identificação de aglomerados de palavras-chave e a análise da força de ligação entre pares de palavras e expressões significativas integrantes dos aglomerados abre o caminho para importantes aplicações que vão da construção de léxicos especializados até o desenvolvimento de instrumentos lógicos suscetíveis de otimizar os processos de indexação automática e recuperação da informação, passando pela possibilidade de acompanhar a evolução dos temas de interesse da pesquisa científica.

Apresenta-se uma aplicação da análise das coocorrências de pares de palavras-chave para identificação do âmbito e da abrangência do léxico básico, que caracteriza os processos de indexação e recuperação da informação.

Palavras-chave Léxico básico; Indexação; Recuperação da informação; Técnicas infométricas.

INTRODUÇÃO

Em um artigo que pode ser considerado como um clássico na matéria, Whittaker¹ definia, em 1989, a análise das coocorrências das palavras (em inglês, co-word analysis) "como a utilização do `comportamento' das palavras como um meio para elucidar as estruturas das idéias e outros problemas representados em conjuntos adequados de documentos". Essa definição encontra seu fundamento, de acordo com o mesmo autor, nos seguintes princípios:

a) os autores dos artigos científicos escolhem com cuidado os termos técnicos que utilizam;

b) quando diversos termos são utilizados no mesmo artigo, isso acontece, de fato, porque o autor reconhece ou supõe que existe algum tipo de relação não trivial entre seus referentes;

c) se um número significativo de autores reconhece o mesmo tipo de relacionamento entre determinados termos, pode-se admitir que esse relacionamento possui algum significado dentro da área da ciência considerada.

Se os pressupostos acima fazem sentido, nada impede utilizar as freqüências com que ocorrem os possíveis pares de palavras relacionadas, em cada artigo integrante de um conjunto de artigos, como um meio para descrever a estrutura dos conceitos contidos nos artigos.

O mesmo autor acrescenta uma quarta premissa: "que as palavras-chave escolhidas por indexadores competentes como descritores do conteúdo dos artigos são de fato uma indicação confiável dos conceitos científicos a que se referem, o que torna possível o uso das palavras-chave como o elemento base para a análise das coocorrências das palavras".

Mediante a análise das coocorrências entre pares de palavras, é possível estabelecer índices estatísticos que representam a `força' de associação entre esses pares e, a partir dos valores encontrados, elaborar diversos tipos de representações gráficas (árvores, redes, agrupamentos diversos) e, assim, visualizar (ou, utilizando um anglicismo bem em voga, `mapear') o estado de um campo do conhecimento, em um determinado momento.

Uma descrição bastante completa do desenvolvimento dos métodos de análise das coocorrências entre pares de palavras, até 1986, pode-se encontrar na obra de Callon, Law e Rip². Uma importante bibliografia mais atualizada encontra-se em uma recente comunicação de um dos autores do presente trabalho³. Dentre os numerosos autores que nos últimos anos aplicaram a análise das coocorrências de palavras-chave ao estudo da situação ou da evolução de diversas áreas da ciência, merecem destaque, além de Whittaker¹, já citado, King⁴, Law e Whittaker⁵, Leydesdorff⁶, Callon, Courtial e Laville⁷.

Neste trabalho, apresenta-se uma aplicação da análise da coocorrência de pares de palavras-chave para identificação do âmbito e da abrangência do léxico básico que caracteriza os processos de indexação e recuperação da informação.

O objetivo da pesquisa é mostrar a possibilidade de identificar agrupamentos de palavras-chave que caracterizam determinados conceitos básicos de um campo específico. Em outras palavras, trata-se de uma tentativa de descer a um nível de detalhamento maior (identificação de agrupamentos e/ou cadeias de termos significativos inter-relacionados suscetíveis de caracterizar, de per se ou em conjunto, uma determinada área de conhecimento) do contemplado por Diodato ⁸, quando visualiza simplesmente a análise de coocorrências como um método de identificar, num determinado acervo, grupos de documentos que possuem certa afinidade no seu conteúdo.

METODOLOGIA

O corpus de termos e expressões significativas utilizado no presente estudo foi extraído do manuscrito da obra Glossário de Termos Técnicos de Ciência da Informação ⁹, mediante um processo de indexação automática de 222 verbetes relacionados com os diversos aspectos da indexação e recuperação da informação, utilizando o sistema InfoDoc¹⁰,¹¹. A indexação automática rendeu 26 278 entradas no índice, com freqüências variando entre 1 (15 979 termos) e 95 (1 termo).

Para o estudo dos agrupamentos binários, foi aplicada a equação se-guinte, utilizada por diversos autores: ^12-18:

Eij = (Fij)² / Fi . Fj

onde: Eij (coeficiente de equivalência) é um índice que mede a `força' ou probabilidade de associação (coocorrência) dos termos i e j no conjunto de verbe-tes, Fi e Fj são, respectivamente, as freqüências (ocorrências) dos termos i e j, e Fij é a freqüência com que o par de termos i e j aparecem juntos (coocorrência) nos diversos verbetes.

O cálculo de Eij foi realizado utilizando um programa, especialmente desenvolvido para este estudo, o qual recebe como entrada a relação de termos considerados significativos pelo InfoDoc®, no processo de indexação automática, com suas respectivas freqüências de aparecimento no conjunto de verbetes (tabela 1, a seguir) e gera uma tabela que indica, para os pares de termos (Fi e Fj) que ocorrem com freqüência igual ou maior que 2, os valores correspondentes à freqüência de associação ou total de co-ocorrências (Fij), no conjunto de verbetes, e ao coeficiente de equivalência Eij (tabela 2, a seguir).

Observe-se que o valor de Eij é 1 (um) quando a ocorrência de i implica a ocorrência de j e vice-versa. Inversamente, seu valor é 0 (zero) quando a presença de um dos termos exclui a ocorrência do outro, ou seja, nenhum verbete é indexado simultaneamente pelos dois termos.

A observação dos fragmentos da tabela de ocorrências e coocorrências, representada na tabela 2, permite ver que, quando o número de coocorrências é menor que 2 (Fij < 2) e o número de ocorrências dos termos que integram o par considerado é muito díspar (por exemplo: Fi =11 e Fj = 59; Fi = 11 e Fj = 54, etc.), o valor de Eij é inferior a 0,01 (Eij < 0,01) e aparece na tabela como 0.00, indicando que a possibilidade de coexistência dos dois termos do par é praticamente nula.

Desta forma, foram retidos em primeira instância 381 termos que, com os termos a eles associados constituiriam possíveis agrupamentos. Após reunir em uma só entrada os termos ou expressões que são simples variações mórficas de um mesmo conceito (por exemplo: arranjo e arranjo de documentos; conteúdo do documento e conteúdo dos documentos; autor e autoria; dependência contextual e dependência do contexto; ordem alfabética e ordenação alfabética etc.) e identificar os termos sinônimos ou quase sinônimos (por exemplo: KWIC e índice KWIC; radical e raiz etc.) e eliminar como `cabeça' de aglomerado aqueles termos ou expressões que se associam com um número muito pequeno de termos, normalmente inferior a 3 (por exemplo, chave, código, comunicação direta, denotação, fala, indexador, interesse temático, nominação, regra etc.), foram retidos, aproximadamente, 170 termos e expressões.

Convém esclarecer que a supressão desses termos ou expressões da lista de `cabeças' de agrupamentos não significa de modo algum que não figurem na lista de termos associados a uma determinada `cabeça' estatisticamente mais significativa. Assim, o termo armazenamento, que não se constitui em `cabeça' de agrupamento, encontra-se entre os termos associados a acesso, o qual pode, com os critérios expostos, ser considerado como `cabeça' de agrupamento. Da mesma forma, as expressões descrição temática e lista de termos proibidos, entre outras, que não são `cabeças', encontram-se na lista de termos ou expressões integrantes de aglomerados referentes, respectivamente, à catalogação e indexação automática.

No ^{anexo 1} anexo 1 , encontra-se a relação de termos e expressões que poderiam ser considerados como possíveis `cabeças' de agrupamentos, ordenados alfabeticamente, com indicação do número de termos que a eles se associam^II.

Thumbnail

APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS

Na impossibilidade de apresentar a totalidade dos agrupamentos de termos (com todas suas inter-relações) associados às `cabeças' listadas no ^{anexo 1} anexo 1 , consideramos mais pertinente centrar a apresentação e discussão dos resultados em alguns exemplos significativos que mostram a potencialidade do método de análise da freqüência de coocorrência de pares de palavras-chave para `mapear' uma determinada área de conhecimento e identificar associações conceituais do maior interesse para caracterizar os termos focais e o estado-da-arte da pesquisa científica nessa área, em um determinado momento e, por extensão, verificar sua evolução no tempo e no espaço.

No ^{anexo 2} anexo 2 , apresentam-se os aglomerados referentes a alguns termos e expressões associados a algumas `cabeças'. São estas:

- classificação;

- descrição bibliográfica;

- indexação;

- recuperação da informação;

Como exemplo de subaglomerados, detalhados no ^{anexo 3} anexo 3 , foram escolhidos os seguintes:

- catalogação (incluído em descrição bibliográfica);

- faceta (incluído em classificação);

- indexação automática (incluído em indexação);

- ISBD (incluído em descrição bibliográfica);

- Ranganathan (incluído em classificação e em faceta);

- tesauro (incluído em indexação).

Nos anexos ² anexo 2 e ³ anexo 3 , são indicados os valores das freqüências de uso dos termos individuais i e j (Fi e Fj), os valores da freqüência de associação de cada par de termos (Fij) e o coeficiente de equivalência ou `energia' de associação de cada par (Eij).

A partir do exame dos termos e expressões que figuram nas listas dos anexos ¹ anexo 1 a ³ anexo 3 , torna-se evidente o interesse de estudos deste tipo para identificar sinônimos e quase sinônimos, ou de termos relacionados semanticamente, os quais se agrupam naturalmente dentro dos aglomerados. Parece inútil insistir sobre a importância desses fatos na construção de tesauros ou na elaboração e manutenção de todo tipo de dicionários e léxicos que muito podem auxiliar, tanto no processo de indexação de documentos, quanto na busca e recuperação da informação. Como exemplo, pode-se mostrar as cadeias de termos a seguir:

Indexação automática - índice KWIC - KWIC - lista de termos proibidos - termos proibidos - índice KWOC - KWOC etc., e Truncagem - raiz - radical - desinência - sufixo - prefixo etc.

A título de comentário anedótico, oferecemos à apreciação do leitor duas associações encontradas (as quais, devido à sua baixa freqüência, não são evidentes nas listas ou nos aglomerados apresentados como exemplo neste trabalho), que, ao nosso ver, merecem um breve comentário. Trata-se da associação entre número de chamada e estante, e Garfield e citação, absolutamente lógicas, mas que não parece que tenham sido incluídas em nenhum tesauro ou outro tipo de vocabulário controlado de que temos conhecimento. Tais associações poderiam eventualmente facilitar uma pesquisa de informação em linguagem natural, em uma base de dados. Ainda no terreno anedótico, e falando em associações evidenciadas pelos agrupamentos, é interessante observar que, no estágio de avanço do Glossário de Termos Técnicos de Ciência da Informação ⁹, no momento em que foram selecionados os verbetes para compor o corpus deste trabalho, há quase dois anos, os verbetes referentes à indexação automática parece que focalizavam esta entrada somente sob o ângulo do índice KWIC, sem incluir ainda outros aspectos relevantes mais recentes.

Inútil também insistir sobre a importância de poder `descobrir' relações entre termos e expressões que não são evidentes à primeira vista, dentro de uma visão rígida e estruturada hierarquicamente, como a que prevalece no desenvolvimento, manutenção e uso de tesauros e outros instrumentos terminológicos `controlados', que impedem ver determinadas relações semânticas naturais que vão surgindo simultaneamente ao desenvolvimento de quaisquer áreas da ciência ou da tecnologia.

Uma análise mais aprofundada dos pares de termos associados e dos valores correspondentes de Fij e Eij permite maior aproximação do significado profundo dos aglomerados e das relações entre seus componentes. Em geral, Eij tende a apresentar valor mais elevado quando a abrangência do tema e a polissemia dos termos estão bem delimitados (ver, por exemplo, Ranganathan ou faceta, no ^{anexo 3} anexo 3 ).

Dentro de um mesmo aglomerado, maiores valores de Eij representam, em geral, maior afinidade entre os termos integrantes do par (ver aglomerados nos anexos ² anexo 2 e ³ anexo 3 ). O valor 0.00 para Eij, que aparece em alguns casos, não significa, como foi frisado anteriormente, que a coocorrência dos dois termos do par seja impossível (se assim for, eles não apareceriam nas listagens), mas que o valor do coeficiente de associação é inferior a 0.01, ou seja, que o par tem uma afinidade muito baixa.

Um termo que integra dois ou mais aglomerados diferentes pode apresentar valores bastante diferentes de Eij, para o par formado por ele e a `cabeça' do aglomerado, indicando diferentes afinidades entre os respectivos pares. Assim, o termo descritor, que integra, entre outros, os aglomerados referentes à indexação e recuperação da informação, apresenta (ver ^{anexo 2} anexo 2 ) nos pares correspondentes valores respectivos de 0.07 e 0.01, o que parece indicar que é mais provável utilizar o termo descritor em um contexto em que se fala de indexação do que em outro que trata de recuperação.

Por outra parte, quando um termo ou expressão pode ser encontrado em diferentes contextos, observa-se que o valor de Eij, para vários pares possíveis tende a diminuir ao aumentar a `dispersão semântica'. Nesse caso, a `força' de associação entre os pares de termos parece estar mais bem representada pelos valores de Fij, em geral igual ou maior que 3. Assim, nos aglomerados indexação e recuperação da informação, observa-se que, entre o grande número de pares de termos com Eij igual ou menor que 0.02, aqueles que possuem Fij igual ou maior que 3 são, em geral, mais fortemente relacionados.

A utilização dessas observações pode contribuir eficazmente para introduzir remissivas e referências cruzadas, na elaboração e manutenção de tesauros e vocabulários e, de modo especial, na elaboração e manutenção automáticas de dicionários de termos e expressões para indexação de textos com ajuda do computador e formulação de estratégias de busca em linguagem natural, para recuperação da informação.

Para visualizar a estrutura dos aglomerados e as relações entre seus elementos componentes, podem ser utilizados vários tipos de representação gráfica. Dentre eles, convém destacar a representação em rede (figura 1, a seguir). Nesse tipo de representação, é possível indicar a maior ou menor freqüência dos elementos componentes por círculos ou quadrados de tamanho proporcional aos valores das respectivas ocorrências (Fi e Fj), bem como destacar a `força' de associação entre pares de termos (medida por Eij ou simplesmente por Fij), mediante linhas de enlace mais ou menos destacadas (por exemplo, linhas contínuas ou pontilhadas de espessuras diferentes).

Informações sobre a aplicação de outros tipos de representação mais complexos, que permitem distribuir, nos quatro quadrantes de um plano de coordenadas cartesianas, os diversos termos e expressões com indicação mais precisa da `força' de ligação entre os aglomerados e de sua importância relativa (`centralidade' e `densidade'), mediante os chamados `diagramas estratégicos' que não se adequam ao propósito deste artigo, podem ser encontrados nos trabalhos de Whittaker¹ , Callon, Courtial e Laville⁷ e Cambrosio, Limoges, Courtial e Laville¹³, já citados, assim como nas publicações de Courtial¹⁹, Courtial e Law ²⁰, Courtial, Callon e Sigogneau ²¹, Huot, Quoniam, e Dou ²², e Amudbavall e Raghavan ²³^III.

Neste trabalho, para não sobrecarregar nossa exposição, limitar-nos-emos a mostrar, a título de exemplo, a representação gráfica, em rede, do agrupamento referente a Ranganathan detalhado no ^{anexo 3} anexo 3 (figura 2, a seguir). Observe-se que, como o tema está muito mais delimitado do que no caso, por exemplo, do aglomerado classificação, os valores de Eij são consideravelmente mais elevados (maior afinidade entre os pares de termos).

Para ilustrar o desdobramento dos agrupamentos em subagrupamentos cada vez menores, foram reunidos no ^{anexo 4} anexo 4 os agrupamentos correspondentes a:

- categoria fundamental;

- classificação dos dois pontos;

- energia;

- faceta fundamental;

- interesse temático;

- personalidade;

- PMEST;

- tempo.

Todos eles relacionados com faceta e/ou Ranganathan. Os elementos integrantes do agrupamento faceta e dos subagrupamentos acima podem ser combinados com os itens da figura 2 de maneira a formar uma rede espacial de todos os termos inter-relacionados.

CONCLUSÃO

O presente trabalho permitiu mostrar a potencialidade e interesse dos métodos de análise da coocorrência de palavras ou expressões significativas para `mapear' um determinado campo do conhecimento, com sólidas bases teóricas e aplicações do maior interesse, em um leque de possibilidades que cobre da elaboração, estudo, manutenção e uso de instrumentos terminológicos os mais diversos, até a caracterização de uma área de pesquisa, o acompanhamento do desenvolvimento e evolução de um campo da ciência ou da tecnologia em um determinado período, ou, ainda, o estudo comparativo do estado-da-arte de um campo específico em várias instituições ou em momentos diferentes, assim como a realização de projeções sobre a evolução de uma área da ciência, como demonstrado em diversos trabalhos já referenciados ^{2-4, 5, 7, 12, 13, 14, 16-23}.

Outras aplicações, tais como a definição ou avaliação da política de aquisição de documentos por parte de uma grande biblioteca universitária ou de um centro de documentação especializado, podem encontrar seu fundamento em estudos infométricos da análise da associação entre palavras, comparando os conteúdos temáticos dos documentos (livros, periódicos, atas de congressos, patentes etc.) com os programas curriculares, no primeiro caso, e com os pro-gramas de pesquisa, políticas institucionais e perfil dos usuários em ambos os casos, ou, ainda, analisando as citações usadas na produção científica dos especialistas ligados à organização.

Provavelmente, por não dizer com certeza, entre as áreas de pesquisa fundamental e aplicada que deverão conhecer uma grande expansão nos próximos anos, parecem encontrar-se justamente as aplicações da análise das associações de palavras. Com efeito, a indexação de documentos que devem incorporar-se ao `magma informacional' da Internet (bases de dados, bibliotecas virtuais, documentos sobre um tema específico, identificação de especialistas, sejam estes pessoas ou instituições, notícias etc.), onde pela variedade de usuários e de fontes torna-se já absolutamente impossível pensar na consulta de tesauros rígidos (sempre desatualizados em, pelo menos, dois anos), exigirá a disponibilidade de novas ferramentas. Novos léxicos e dicionários, que se atualizem automaticamente com base em princípios infométricos solidamente fundamentados e que se incorporem aos motores de busca das bases de dados, deverão estar disponíveis imperativamente para serem incorporados aos sistemas, tanto na entrada como na recuperação, fazendo uma grande parte do trabalho que o usuário final ou o intermediário da informação têm de realizar ainda no momento atual, e isso com o risco permanente de deixar escapar grande quantidade da informação procurada.

A convergência da informática, da indexação automática e do desenvolvimento de motores de busca incorporados às bases de dados parece constituir a chave dos desenvolvimentos futuros da informação globalizada^{24, 25}.

REFERÊNCIAS BIBLIOGRÁFICAS

1. Whittaker, John. Creativity and Conformity in Science: Titles, keywords and Co-word Analysis. Social Studies in Science. v.19, 1989, p.473-496.

2. Callon, Michel; Law, John; Rip, Arie (eds). Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World. Basingstoke, Hants: MacMillan, 1986.

3. Robredo, Jaime. On Informetrics as a Tool for Forecasting. In: 5th Biennial Conference of the International Society for Scientometrics and Informetrics. River Forest. Il, 7-10 June 1995. Proceedings. Medford, NJ: Learned Information, 1995, p. 694. (Uma versão em português será publicada em breve.)

4. King, J. A Review of Bibliometric and other Science Indicators and the Role in Research Evaluation. Journal of Information Science, v.13, 1987, p.261-276.

5. Law, John; Whittaker, John. Mapping Acidification Research: A Test of the Co-word Method. Scientometrics, v.23, 1992, p.417-461.

6. Leydesdorff, L. The Search of Epistemic Networks. Social Studies in Science. v.21, n.1,1991, p.75-110.

7. Callon, M.; Courtial, J.P.; Laville, F. Co-word Analysis as a Tool for Describing the Network of Interactions between Basic and Technological Research: The Case of Polymer Chemistry. Scientometrics, v.22, n.1, 1991,p.155-205.

8. Diodato, Virgil. Dictionary of Bibliometrics. New York; London: Norwood: Haworth, 1994. ISBN 1-56024-832-1.

9. Cavalcanti, Cordélia R.; Cunha, Murilo B. da. Glossário de Termos Técnicos de Ciência da Informação. Brasília DF: Universidade de Brasília. (Em preparação.)

10. Robredo, Jaime. Indexação automática de textos. In: 1° Encontro Nacional de Pesquisa em Ciência da Informação e Biblioteconomia. Belo Horizonte MG, 8-10 abr 1994. ANCIB. Anais. Campinas SP: ANCIB, 1994, p.15-17.

11. Robredo, Jaime. InfoDoc: Manual do Usuário. Brasília DF: Edição do autor, 1995. (Inclui disquete.)

12. Le Marc, M.; Courtial, J.P.; Drozda Senkovska, E.; Pétard, J.P.; Py, Y. The Dynamics of Research in the Psichology of Work from 1973 to 1987: From the Study of Companies to the Study of Professions. Scientometrics, v.21, n.1, 1991, p.60-68.

13. Cambrosio, A.; Limoges, C.; Courtial, J.P.; Laville, F. Historical Scientometrics? Mapping over 70 Years of Biological Safety Research with Co-word Analysis. Scientometrics, v.27, n.2, 1993, p.119-143.

14. Polanco, X. Scientometic Analysis of the Cognitive Sciences in Pascal. INIST Info, n.7, jul 1993.

15. Polanco, X. Recherches sur les méthodes d'analyse stratégique de línformation scientifique e technique. In: Journée d'Étude sur les Systèmes d'Information Élaborés: Bibliométrie, Information Stratégique. Veille Technologique. Île Rousse. Société Française de Bibliométrie Appliquée. 5-7 Jun 1991. Tirage-à-part.

16. Polanco, X. et al. À la recherche de la diversité perdue: est-il possible de mettre en évidence des élements hétérogènes d'un front de recherche? Ibidem. Tirage-à-part.

17. Basevi, T.H.M.M. Tendências na aplicação de formatos, sistemas cooperativos e redes de intercâmbio: uma visão infométrica. Brasília DF: Universidade de Brasília/ Departamento de Ciência da Informação e Documentação, 1993. (Dissertação de mestrado.)

18. Lima, A.C.C.C. Sistemas especialistas aplicados à Ciência da Informação: tendências para um futuro próximo baseadas em um estudo infométrico da literatura. Brasília DF: Universidade de Brasília/Departamento de Ciência da Informação e Documentação, 1993. (Dissertação de mestrado.)

19. Courtial, J.P. A Co-word Analysis of Scientometrics. Scientometrics, v.31, n.3, 1994, p.251-260.

20. Courtial, Jean-Paul.; Law, John. A Co-Word Study of Artificial Intelligence. Social Studies of Science, v.19, 1989, p.301-311.

21. Courtial, J.P.; Callon, M.; Sigogneau, A. The use of Patents Titles for Identifying the Topics of Invention and Forecasting Trends. Scientometrics, v.26, n.2, 1993, p.231-242.

22. Huot, Ch.; Quoniam, L.; Dou, H. A. New Method for Analyzing Downloaded Data for Strategic Decision. Scientometrics, v.25, n.2, 1992, p.279-294.

23. Amudbavalli, A.; Raghavan, K.S. Co-word Analysis of Literature on Information Retrieval. In: 5th Biennial Conference of the International Society for Scientometrics and Informetrics. River Forest. Il, 7-10 June 1995. Proceedings. Medford, NJ: Learned Information, 1995, p.23-32.

24. Robredo, Jaime. Indexação e recuperação da informação na era das publicações virtuais. In: 4° Seminário de Biblioteconomia e Ciência da Informação - Globalização, Informação e desenvolvimento Humano Sustentável: um desafio para os profissionais da informação e da Comunicação. Goiânia GO, 1-4 jun 1997. Universidade federal de Goiás. Anais. (A ser publicado em breve.)

25. Robredo, Jaime. Indexação automática e infometria: um casamento que está dando certo. In: 18° Congresso Brasileiro de Biblioteconomia e Documentação. São Luís MA, 20-24 jul 1997. Anais eletrônicos.

The use of informetrics for identifying the scope of the basic terminology related to indexing and retrieval

Abstract

Co-word analysis offers the possibility of statiscally measuring the associative strength between pairs of keywords and, by using the values found, of mapping the dynamics of a scientific field in a given moment. The identification of clusters of keywords and the analysis of the strength of the links between pairs of keywords in the clusters show the way for important applications, ranging from the building up of special lexicons, to the development of logical tools for optimyzing automatic indexing and retrieval processes, as well as the mapping of the evolution of interest on key topics in scientific research. An application of co-word analysis to identify the scope of the basic terminology related to indexing and retrieval is described.

Keywords

Basic vocabulary; Indexing; Information retrieval; Infometrical techniques.

Jaime Robredo

Pesquisador associado senior.

Departamento de Ciência da Informação e Documentação.

Universidade de Brasília.

E-mail: jrobredo@brnet.com.br

Murilo Bastos da Cunha

Professor titular.

Departamento de Ciência da Informação e Documentação.

Universidade de Brasília.

E-mail: murilobc@guarany.unb.br

Artigo aceito para publicação em 17-2-98.

^II Na relação de termos do ^{anexo 1} anexo 1 , não foram agrupados, num só, todos os termos sinônimos ou quase sinônimos (autor e autoria, KWOC e índice KWOC etc.), já que os mesmos conceitos podem aparecer em formas diferentes nos diversos agrupamentos de termos.

^III Centralidade (centrality) é a medida estatística da intensidade das ligações para um determinado agrupamento. Mede a coerência de um tópico e é representada pelo valor médio das ligações que existem entre as palavras-chave que integram o aglomerado. Uma forma de medi-la é calcular para cada aglomerado o valor médio de suas ligações internas.

Densidade (density) é a medida estatística da força das ligações que associam as palavras integrantes de um aglomerado. Caracteriza o papel desempenhado por um determinado tema no desenvolvimento global da área e é representado pelo valor médio das ligações entre um aglomerado e outro aglomerado vinculado ao primeiro por meio de algumas de suas palavras-chave ou, em uma definição mais técnica, a posição relativa de cada aglomerado dentro do `mapa' global da área. Uma forma de calculá-la é somar os quadrados de todas ligações medidas pelo coeficiente de equivalência que o une a outros aglomerados.

anexo 1

anexo 2

anexo 3

anexo 4

^14-16

Por essas razões, aplicando um critério semelhante ao já aplicado anteriormente por Polanco e, mais recentemente por Basevi

¹⁷ e Lima

¹⁸, que consiste em eliminar os termos e expressões de baixa freqüência (muito numerosos) e os de freqüência muito elevada (pouco numerosos), foram eliminados para formar os aglomerados ou agrupamentos (em inglês,

clusters) os termos com freqüência inferior a 2 ou muito elevada (termos muito genéricos, ou obviamente redundantes com o tema escolhido para estudo; por exemplo,

assunto, documento, informação, item, palavra, termo etc.)

^I I Esses termos, além de excessivamente genéricos, podem, em certos casos, por sua natureza polissêmica, conduzir a um aglomerado de termos associados que seria, na realidade, uma superposição de diversos aglomerados. .

^I 14-16 Por essas razões, aplicando um critério semelhante ao já aplicado anteriormente por Polanco e, mais recentemente por Basevi 17 e Lima 18, que consiste em eliminar os termos e expressões de baixa freqüência (muito numerosos) e os de freqüência muito elevada (pouco numerosos), foram eliminados para formar os aglomerados ou agrupamentos (em inglês, clusters) os termos com freqüência inferior a 2 ou muito elevada (termos muito genéricos, ou obviamente redundantes com o tema escolhido para estudo; por exemplo, assunto, documento, informação, item, palavra, termo etc.) I. Esses termos, além de excessivamente genéricos, podem, em certos casos, por sua natureza polissêmica, conduzir a um aglomerado de termos associados que seria, na realidade, uma superposição de diversos aglomerados.

Datas de Publicação

Publicação nesta coleção
23 Out 1998
Data do Fascículo
1998

Histórico

Recebido
17 Fev 1998

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.