SciELO - Scientific Electronic Library Online

 
vol.18 número3Mineração de textos biomédicos: uma revisão bibliométricaComparativo entre banco relacional e base textual: CDS/ISIS índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

Compartilhar


Perspectivas em Ciência da Informação

versão On-line ISSN 1981-5344

Perspect. ciênc. inf. vol.18 no.3 Belo Horizonte jul./set. 2013

http://dx.doi.org/10.1590/S1413-99362013000300004 

ARTIGOS

 

Correlações entre a contagem de citações de pesquisadores brasileiros, usando o Web of Science, Scopus e Scholar

 

Correlations between citations countings of brazilian researchers using Web of Science, Scopus and Scholar

 

 

Paula Vanessa Medeiros VieiraI; Jacques WainerII

IEstudante de Mestrado em Ciência da Computação, Universidade Estadual de Campinas (UNICAMP)
IIProfessor titular do Instituto de Computação, Universidade Estadual de Campinas (UNICAMP)

 

 


RESUMO

Este trabalho estuda a correlação entre medidas bibliométricas (índice h e quantidade total de citações), obtidas através de diferentes serviços de contagem de citações (Web of Science, Scholar e Scopus). Calculamos essas medidas para diversos pesquisadores do CNPq. Então, obtivemos a correlação dos resultados obtidos para cada medida, entre cada par de serviços. As correlações foram calculadas para cada uma das subáreas divididas, nas seguintes áreas: Ciências Biológicas, Ciências Exatas, Ciências Humanas, Ciências da Saúde, Ciências Sociais Aplicadas, Engenharia e Letras, Linguística e Artes . Discutimos o significado das correlações obtidas.

Palavras-chave: Bibliometria; Contagem de citações; Índice h; Análise de correlação.


ABSTRACT

This work analysis the correlation between bibliometric measures (H index and total amount of citations) obtained using different citation count services (Web of Science, Scholar, Scopus ). We computed these bibliometric measures for different researchers from CNPq. So we obtained the correlation between the results obtained metrics for each pair of services. The correlations were calculated for each subarea divided on the following areas: Agriculture Sciences, Biology Sciences, Exact Sciences, Human Sciences, Health Sciences, Social Sciences, Engineering and Arts. We discussed the meaning of the correlations that were obtained.

Keywords: Bibliometrics; Citations counting; H index; Correlation analysis.


 

 

1 Introdução

Há uma crescente tendência de se avaliar pesquisadores por indicadores bibliométricos. A quantidade de citações (uma métrica de impacto) e outras métricas, como índice h (que combina produtividade e impacto), são alguns desses indicadores.

Quando se toma a decisão de avaliar cientistas por esses indicadores, é importante levar em consideração qual serviço de contagem de citações será usado para obter os dados sobre citações obtidas pelos pesquisadores. Há três serviços mais conhecidos, o Web of Science (da Thomson Reuters, antigo ISI), o Scopus (da Elsevier) e o Scholar (da Google). Estes serviços de contagem de citações têm diferentes características. O mais tradicional é o Web of Science (WoS), que define um conjunto pequeno de revistas científicas que são monitoradas e conta as citações feitas por artigos publicados nestas revistas, para outros artigos também publicados nestas revistas. Assim, apenas artigos publicados nestas revistas são monitorados para citações e as citações são feitas por outros artigos nestas revistas. Como os critérios para que uma revista seja incluída na indexação do WoS são suficientemente rigorosos, o próprio fato de uma revista ser indexada já é um aval da sua qualidade.

O Scopus é um serviço de contagem de citações recente, patrocinado pela Elsevier, que inclui na indexação não só várias revistas, como, também, conferências científicas, principalmente as das áreas de Engenharia e Ciências da Computação.

Finalmente, o Scholar busca referências em qualquer documento que esteja disponível na Web (incluindo versões eletrônicas de revistas e conferências). Assim, qualquer documento que é citado por algum outro documento, que está disponível na Web, passa a ter suas citações monitoradas. No entanto, o Scholar não conta citações feitas por livros (embora ele conte as citações recebidas por livros).

São conhecidas as limitações destes serviços para algumas das áreas da ciência. Por exemplo, áreas como as Engenharias e a Ciência da Computação, que têm uma alta produção científica em conferências (e não em revistas), têm tanto a produção como citações sub-representadas no WoS. Áreas das Ciências Humanas e Sociais, nas quais a produção científica é feita através de monografias, livros e capítulos de livros, na maioria das vezes escritas em português, são muito sub-representadas não só no WoS e no Scopus, como, também, no Scholar, que não conta as citações feitas por livros.

Além das diferenças de cobertura, há diferenças no custo de assinar um ou outro serviço de contagem de citações. Em particular, o Google Scholar é gratuito, portanto, há um grande incentivo em utilizá-lo, em vez dos outros dois concorrentes (não sabemos detalhes dos custos de utilizar os outros dois serviços). Por outro lado, muito da pesquisa tradicional em bibliometria é feita usando o WoS e recentemente o Scopus. Portanto, é importante saber quanto os dados de citações obtidos usando o WoS correspondem àqueles obtidos usando o Scopus e o Google Scholar.

Esta pesquisa tem como objetivo medir a correlação de dados de citações obtidos do WoS, do Scopus e do Scholar para todas as diferentes áreas da Ciência, usando dados de pesquisadores brasileiros. Em particular, usando dados de 10285 pesquisadores divididos em 70 diferentes áreas da Ciência, calcularemos as correlações entre o total de citações recebidas e o índice h, usando dados do WoS, Scopus e Scholar.

Nesta pesquisa, calcularemos duas correlações, a mais tradicional, correlação linear de Pearson, e o ro de Spearman. A correlação linear mostra quanto uma das medidas, por exemplo, o número total de citações obtidos pelo WoS, depende de forma linear de outra, por exemplo, o número total de citações obtidos pelo Scholar. Se a correlação é 1, então os dois valores são sempre proporcionais e o valor da proporção permite corrigir um dos valores pelo outro. Assim, se a correlação linear é próxima de 1 e o valor da proporção é 0.3, então, os valores do total de citações obtidos usando o WoS são "quase sempre" 30% dos valores obtidos usando o Scholar. Baixas correlações indicam que a relação de uma e outra medida varia entre um pesquisador para outro. Uma correlação de 0 indica que os valores são basicamente independentes e saber o número total de citações no WoS não nos dá nenhuma informação sobre o número total de citações pelo Scholar.

Outra medida de correlação importante neste contexto é o ro de Spearman, que mede se há alguma correlação monotônica entre as variáveis. Mesmo que as medidas usando um ou outro serviço bibliométrico tenham baixa correlação linear, pode ser útil saber se as medidas mantém a ordem relativa, isto é, se uma medida é maior para um cientista usando um serviço bibliométrico, então ela será (provavelmente) maior, também, se usarmos outro serviço. Um valor próximo de 1 para o ro indica que as ordens entre as medidas se mantém. Saber a ordem das medidas pode ser importante em situações nas quais um cientista é avaliado contra outros, por exemplo, em concursos, na atribuição de Bolsa de Produtividade em Pesquisa do CNPq, etc.

Finalmente, neste trabalho, mediremos as correlações de duas medidas, o número total de citações recebidas pelo cientista e o índice h do cientista. O número total de citações recebidas é a medida mais tradicional de impacto do cientista na sua área de pesquisa. Outras medidas derivadas do número total de citações provavelmente terão correlações iguais ou parecidas. Medidas como citações por ano têm a mesma correlação entre si que as medidas de citações totais. Já a medida de citações por artigo, terá correlações similares, mas não necessariamente iguais as de citações totais, já que os diferentes serviços indexam diferentes fontes e, portanto, o número de publicações de um cientista não será igual nos diferentes serviços. As diferenças nas correlações não devem ser grandes. Mas isto não será verdade para o índice h, que não depende do total de citações, mas do número de citações recebidas por cada artigo de um subconjunto pequeno das publicações do cientista. Assim, calcularemos também as correlações para o índice h.

Assim, este artigo computará as correlações de Pearson (linear) e de Spearman para as medidas de número total de citações e de índice h, para dados coletados usando o Web of Science, Scopus e Scholar, para cientistas em 70 diferentes áreas do conhecimento. Também, calcularemos os coeficientes de proporcionalidade para a correlação linear.

 

2 Pesquisas relacionadas

Meho e Yang (2007) fizeram um estudo com base em dados coletados no Web of Science, Google Scholar e Scopus para citações obtidas por publicações de 15 membros do corpo docente de ciência da informação de Indiana University - Bloomington. Foram comparados os dados obtidos através do Scopus e Google Scholar em relação aos obtidos através do WoS. Em comparação ao WoS, Scopus retornou 13.7% mais citações, na média. Combinando os resultados obtidos pelas duas ferramentas, retirando-se a intersecção, foram encontradas 35% mais citações do que quando usado apenas o WoS.

A diferença entre a quantidade de citações encontradas pelo WoS e pelo Scopus variou entre 4.9% a 98.9%, se levada em consideração a contagem individual para cada pesquisador. A sobreposição de citações entre os dois bancos de dados é relativamente pequena (58.2%). O número de citações encontradas exclusivamente no Scopus em relação ao WoS é relativamente alto (710 ou 26.0%, em comparação a 432 ou 15.8%, respectivamente).

Os resultados também mostraram que Scholar retornou 53% citações do que WoS e Scopus combinados. A diferença variou de acordo com a área analisada. Apesar dessa diferença, combinando-se os três bancos de dados, o ranking relativo dos docentes, em comparação com o obtido com resultados apenas pelo WoS, não altera significativamente (ro de Spearman = 0.976).

Bar-Ilan (2008) fez um estudo com base em dados obtidos para o índice h de um grupo de 40 pesquisadores israelenses, usando Google Scholar, Scopus e Web of Science. No geral, não houve diferenças significativas entre o índice h obtido pelo Web of Science e pelo Scopus. A diferença mais significante foi encontrada entre os resultados obtidos usando o Google Scholar e os outros dois serviços. Bar-Ilan (2008) dividiu os autores em três grupos:

a) aqueles cujo índice h do Google Scholar são 30% maior que a média obtida pelo Scopus e Web of Science;

b) aqueles cujo índice h do Google Scholar são 30% menor que a média obtida pelo Scopus e Web of Science; e

c) aqueles cujo índice h do Google Scholar esta entre 0.7 e 1.3 vezes que a média obtida pelo Scopus e Web of Science.

O primeiro grupo consiste unicamente em matemáticos e cientistas da computação. O segundo grupo é composto por dois físicos de altas energias do grupo de pesquisadores. Mesmo para pesquisadores com um índice h similar para as três plataformas (o terceiro grupo), foram encontradas diferenças na contagem de citações. Por exemplo, o pesquisador Avram Hersho, com 20% menos citações no Scholar em relação às outras plataformas; David Harel possui apenas 188 citações no WoS, enquanto no Scholar possui 3374 citações. O estudo conclui que é importante definir qual será a ferramenta utilizada para analisar o desempenho dos pesquisadores.

Meho e Rogers (2008) fizeram um estudo sobre as diferenças entre Scopus e WoS na contagem de citações, ranking de citações e o índice h dos 22 melhores pesquisadores em Interface Homem-Computador (IHC) do projeto EQUATOR - um grande projeto britânico de pesquisa colaborativa interdisciplinar. Os resultados indicaram que o Scopus provê uma cobertura maior da literatura de IHC que o WoS. Os 22 membros foram citados 7439 vezes em documentos publicados entre 1996 e 2007. Dessas citações, Scopus cobre 6919 (93%), enquanto Web of Science cobre 4011 (54%).

O estudo sugere que essa diferença é devido ao fato que a cobertura de conferências é mais ampla no Scopus que no Web of Science - 775 documentos em comparação a 340. O índice h computado pelo Scopus também é significativamente maior que o computado pelo WoS (variando de um acréscimo de 55% a 140%). Apesar disso, o ranking produzido pelos dois bancos de dados é bastante similar (Spearman ro = 0.97). A soma das citações dos dois bancos de dados também não altera significativamente o ranking.

Kulkarni et al. (2009) fizeram um estudo para comparar os indicadores de citações de artigos publicados em periódicos médicos entre dados obtidos pelo Scopus, Google Scholar e Web of Science. Resultados do Google Scholar e do Scopus retornaram mais citações por artigo, com uma média de 160 e 149, respectivamente, do que o WoS (média 122). Comparado ao WoS, Scopus retornou mais citações de fontes em línguas que não a inglesa e menos em artigos, editoriais e cartas. Apesar do Google Scholar ter mais citações que o WoS e Scopus no geral, nos casos específicos de artigos com autoria coletiva, com financiamento declarado de indústrias ou informando sobre estudos drogas e dispositivos médicos, isso não se observa.

Franceschet (2010) fez uma comparação entre resultados de diversos indicadores bibliométricos de pesquisadores de ciência da computação italianos do Departamento de Matemática e Ciência da Computação da Universidade de Udine, obtidos, utilizando dados retirados do Google Scholar e do Web of Science. O estudo mostrou que os valores calculados para os indicadores utilizando o Scholar foram maiores que utilizando o WoS. Foram encontrados cinco vezes mais artigos no Google Scholar do que no Web of Science e quase oito vezes mais citações no Google Scholar do que no WoS. O autor calculou os coeficientes de correlação (utilizando Kendall e Spearman) entre os indicadores, encontrando:

a) boa correlação (maior que 0.84) para citações, citações por ano, citações por autor, índice g, índice h individual; e

b) correlação moderada (entre 0,62 e 0,69) para número de artigos, artigos com citações, artigos por ano, citações por artigo e índice h correlação fraca (menor que 0.53) para índice h contemporâneo e índice m.

A Tabela 1 resume os resultados das pesquisas relacionadas a correlações entre os diferentes serviços bibliográficos.

 

 

3 Dados e método

Usamos dados sobre pesquisadores brasileiros com Bolsa de Produtividade do CNPq, vigente em 2012, de acordo com uma lista fornecida pelo CNPq aos autores. O estudo foi feito separando-se os bolsistas por subárea; as subáreas representadas por menos de dez pesquisadores foram removidas da análise. No total, foram inclusos, nesse estudo, 10285 pesquisadores distribuídos em 70 subáreas.

Nós fizemos um conjunto de programas para coletar dados do Scopus, Web of Science e Google Scholar. Procuramos pelo nome de cada pesquisador e cada artigo retornado foi comparado com a lista de artigos presente no seu Currículo Lattes. Para comparar os artigos, retiramos todos os caracteres não-alfanuméricos e não diferenciamos entre letras maiúsculas e minúsculas.

Em muitos casos, o título do artigo está escrito em português no Currículo Lattes e em inglês no Web of Science, ou a ordem das palavras difere. Portanto, quando não é retornado nenhum artigo para um pesquisador, comparamos os resultados da busca através do nome do periódico, ano de publicação e volume.

 

4 Resultados e discussão

A Tabela 2 lista, para cada uma das áreas do conhecimento, o número de cientistas para os quais nosso programa de coleta de dados, nos diferentes serviços bibliométricos, não obteve dados de citações. A coluna total indica o número de pesquisadores com bolsa de pesquisa do CNPq, no ano de 2012. Tabelas 3 e 4 são os principais resultados deste artigo. Tabela 3 indica a correlação de Pearson para as três comparações (GS vs Scopus, GS vs WoS e Scopus vs WoS). A tabela lista as correlações para o número total de citações recebidas e para o índice H. A coluna de correlação contém um "*", se a GS correlação não é estatisticamente significante, isto é, se o p-valor do teste se a correlação é diferente de 0 é maior que 0.05. A coluna que segue a medida de correlação é a proporção média entre uma medida e outra. A coluna indicada pelo α que segue a coluna GS vs Scopus indica a proporção entre os valores obtidos usando o Google Scholar e o Scopus. Assim, para Antropologia, não há uma correlação linear estatisticamente significante entre o total de citações medidas pelo Google Scholar e o Scopus (primeira linha da Tabela 3). Para a Arqueologia, a correlação é bastante alta (0.89). Além disto, as medidas obtidas usando o Google Scholar são, em média, 1.59 vezes as medidas obtidas usando o Scopus. A tabela está organizada por grande área: CH indica Ciências Humanas, CB Ciências Biológicas, CSA Ciências Sociais Aplicadas, CE Ciências Exatas, EN Engenharias, CS Ciências da Saúde, LLA Lingüística e Letras e Artes, e CAG Ciências Agrícolas.

 

 

 

 

 

 

A Tabela 4 indica as correlações usando o ro de Spearman. Da mesma forma, "*" indica uma correlação não estatisticamente significante.

Subáreas de LLA possuem baixa correlação ou correlação não significativa, com exceção de Linguística, que possui uma correlação alta entre citações e índice h obtidos pelo WoS e pelo Scopus (0,65 e 0,62 com Spearman e 0,57 e 0,61 com Pearson, para citações e índice h, respectivamente).

Subáreas de CS possuem, em geral, alta correlação entre resultados do Scopus e do WoS, entre citações obtidas pelo Scholar e pelo Scopus e correlações médias para os outros resultados.

Subáreas de Engenharia possuem, em geral, correlações altas com algumas exceções. Sendo, também, maior a correlação entre dados obtidos pelo Scopus e pelo WoS. Há um destaque para Engenharia Naval e Oceânica, que possui correlações muito altas para todos os dados.

Subáreas de CAG possuem correlações médias no geral, também com correlações menores para o índice h do que para quantidade de citações.

Subáreas de CE possuem, no geral, correlações altas para quantidade de citações. A correlação entre índice h obtido com dados do WoS e Scopus que se destaca, obtendo uma correlação alta em todas as subáreas.

Subáreas de CH possuem, no geral, correlações baixas, com destaque para Arqueologia, que possui correlações altas no geral e para Psicologia, que possui correlações altas entre dados obtidos pelo WoS e pelo Scopus.

Franceschet (2010) encontrou uma boa correlação para pesquisadores de Ciência da Computação entre o Scholar e WOS. Para citações por autor, ro é de 0,87 e tau de Kendal 0,68 ; para o índice h, ro=0,84 e tau= 0,70. Nós encontramos 0,62 (citações) e 0,5(índice h) por Pearson e 0,64 (citações) e 0,45(índice h) por Pearson, que são valores mais baixos. A quantidade de citações tem uma boa correlação, mas o índice h não.

 

5 Conclusão

Esta pesquisa deve ser encarada como uma pesquisa exploratória sobre as correlações entre medidas bibliométricas, usando os três diferentes serviços de contagem de citações mais comuns: Web of Science, Scopus e Google Scholar.

Esperamos que o principal uso para esta pesquisa seja que pesquisadores de cada uma das áreas incluídas verificarão as correlações entre os vários serviços e usarão esta informação para decidir se um particular serviço bibliográfico é o mais apropriado para ser usado nas avaliações da área. Em particular, a tradição bibliométrica tem sido usar o Web of Science. Caso as correlações entre os outros serviços e o WoS são baixas, pesquisadores da área podem argumentar que o WoS não representa bem a área e que a utilização de um dos outros serviços seria mais justificável.

Altas correlações de Pearson indicariam que um serviço pode ser substituído por outro, desde que os valores fossem corrigidos pelos coeficientes de proporção calculados neste artigo. Baixas correlações indicam que usar um serviço é muito diferente de usar outro e, portanto, pesquisadores da área devem concordar em qual serviço melhor representa a área.

Altas correlações de Spearman indicam que os valores obtidos por dois serviços provavelmente mantém a ordem relativa entre si e, assim, em avaliações competitivas, nas quais um pesquisador é avaliado em relação a outros, o uso de um ou outro serviço é provavelmente equivalente. Obviamente, um pesquisador pode ser injustiçado por um dos serviços (a não ser que a correlação de Spearman seja exatamente 1.0) e, portanto, ainda assim, cuidado em utilizar um ou outro serviço deve ser tomado nestas situações. Um baixo valor de Spearman indicaria que nem a ordem de avaliações é preservada quando se usa outro serviço. Neste caso, como no caso da correlação de Pearson, pesquisadores devem decidir qual dos serviços melhor representa a área.

Deve-se acrescentar que esta pesquisa apenas analisou a correlação entre as duas medidas (número total de citações e índice h), entre os vários serviços bibliométricos. Uma questão diferente e muito relevante para a avaliação de cientistas é a cobertura de cada um dos serviços para cada uma das subáreas discutidas, no que diz respeito a publicações e citações. Quanto à cobertura no número de publicações, tanto WoS quanto Scopus, explicitamente, decidiram não incluir alguns/vários veículos de publicação científica. A política de inclusão da Scopus é menos clara, embora a empresa diga que só inclua, na indexação, veículos de publicação que passaram por algum critério de qualidade. A política de inclusão da WoS é mais clara e conhecida. A empresa monitora vários veículos (quantos não é claro), mas apenas aqueles que receberam um número mínimo de citações, nos últimos dois anos (o famoso índice de impacto), são incluídos no Web of Science. Finalmente, Scholar indexa todos os documentos disponíveis na Web, inclusive documentos não publicados em veículos científicos, como monografias, teses e dissertações, relatórios, etc. Para algumas áreas científicas, estas limitações na cobertura das publicações pode ser o maior problema em usar estes serviços para a avaliação de cientistas.

Finalmente, se um serviço tem sérias limitações na cobertura dos veículos de publicações de uma área é muito provável que ele também tenha limitações quanto à cobertura das citações que o cientista recebe - se a maioria das publicações de uma área não está contemplada em um serviço bibliométrico, então, provavelmente, a maioria das citações que um cientista recebe não estará listada naquele serviço.

As limitações de cobertura de publicações e citações não necessariamente invalidam o uso do serviço bibliométrico na avaliação de cientistas - algumas áreas podem ter um fluxo de produção científica que inclui publicações em veículos não indexados, mas as "melhores" pesquisas ou os resultados "finais" da pesquisa acabam sendo publicadas em veículos indexados. Nestes casos, os serviços bibliométricos acabam indexando o "melhor" da pesquisa do cientista e estas medidas podem fazer sentido para avaliá-lo. No entanto, para áreas nas quais nem as "melhores" pesquisas são indexadas nestes serviços, seja porque elas são publicadas em veículos não indexados (por exemplo, revistas em português ou conferências) ou porque elas não são publicadas em revistas, mas, sim, como livros, o uso destes serviços na avaliação do pesquisador pode fazer pouco sentido.

 

Referências

BAR-ILAN, J. Which h-index? A comparison of WoS, Scopus and Google Scholar. Scientometrics, v. 74, n. 2, p. 257-271, 2008.         [ Links ]

FRANCESCHET, M. A comparison of bibliometric indicators for computer science scholars and journals on Web of Science and Google Scholar. Scientometrics, v. 83, n.1, p. 243-258, 2010.         [ Links ]

KULKARNI, A. V. et al. Comparisons of citations in Web of Science, Scopus, and Google Scholar for articles. JAMA, v. 302, n. 10, p. 1092-1096, 2009.         [ Links ]

MEHO, L. I.; YANG, K. Impact of Data sources on citation counts and rankings of LIS Faculty: Web of Science Versus Scopus and Google Scholar. Journal of the American Society for Information Science and Technology, v. 58, n. 13, p. 2105-2125, 2007.         [ Links ]

MEHO, L. I.; ROGERS, Y. Citation counting, citation ranking, and h-index of human-computer interaction researchers: a comparison of Scopus and Web of Science. Journal of the American Society for Information Science and Technology, v. 59, n. 11, p. 1711-1726, 2008.         [ Links ]

 

 

Recebido em 14.03.2013
Aceito em 05.06.2013

Creative Commons License Todo o conteúdo deste periódico, exceto onde está identificado, está licenciado sob uma Licença Creative Commons