PESQUISA

Participe da votação sobre os melhores canais de divulgação científica em português na internet.

sexta-feira, 10 de maio de 2013

Mitos na ciência: O que mede o índice de citação de artigo?

"An analysis of several quantative studies show that large parts of the field of bibliometry is not pseudo-science in the Popper sense of the world, as they can be shown to be clearly false.
["Uma análise de diversos estudos quantitativos demonstra que grande parte do campo da bibliometria não é uma pseudociência no sentido popperiano, uma vez que se pode demonstrar que são claramente falsas."]

Esta postagem inaugura uma nova série no GR que aborda crenças arraigadas *dentro* do meio científico.

Mito: "Índice de citações mede a qualidade do artigo."
Status: Altamente duvidoso.

Uma questão importante na ciência e para a sociedade é a medida da produtividade científica. Como grande parte dela é financiada pela sociedade, há satisfações a se dar. O principal produto entregue é o artigo científico - o relato pormenorizado dos achados da pesquisa. Mas há produtos bons e produtos ruins. Como diferenciá-los?

Atualmente, mais de 30 mil 1,4 milhão* de artigos por ano são publicados. Tende a ser uma tarefa complicada analisar todos um por um. Mesmo um único departamento, pode publicar mais de mil por ano. Seria tremendamente dispendioso manter um comitê permanente com a função de avaliar a produção científica desse modo.

Na década de 1960 surge o Science Citation Index, um produto proprietário que basicamente listava os artigos incluídos em seu banco de dados juntamente com artigos que os usavam em suas referências bibliográficas. Passando de lista impressa, para versões eletrônicas distribuídas e, então, um banco de dados eletrônico acessível pela internet - e de alimentação manual para atualização automática (através de robôs de leitura de metadados) - o SCI incorporava o índice de citação (quantas menções um artigo recebia ao longo do tempo), metodologia discutida na segunda metade da década de 1950. O argumento era que artigos mais relevantes tenderiam a ser mais citados por outros trabalhos. Sendo, assim, a citação um indicador de qualidade. Ao eliminar a necessidade de leitura e avaliação tediosa de artigo por artigo, o índice de citação tornaria a avaliação da qualidade dos trabalhos muito mais fácil e tremendamente mais barato: um artigo com um número de citação maior do que o outro, naturalmente, teria mais relevância e, portanto, qualidade.

Por décadas, o SCI (inicialmente da Institute for Scientific Information, depois absorvido pela Thomson-Reuters) reinou absoluto, sem concorrentes. Nos últimos 20 anos, vem ganhando adversários. A Scirus (da Elsevier), o Google Scholar, CiteSeerX e outros.

Mas, a despeito de questionamentos, a suposição básica de que o índice de citações é medida de qualidade da pesquisa permaneceu e se fortaleceu - sendo utilizado por agências de fomento na avaliação da produção dos cientistas.

Não faço a menor ideia do que realmente índices de citação de artigos medem, mas há indicações de que, apesar de frequentemente utilizados como medida de qualidade do trabalho, a relação é tudo, menos direta - talvez até inexistente. Abaixo, uma pequena seleção, longe de exaustiva, mas mais ou menos aleatória de artigos encontrados no Google Scholar pesquisando por: "'citation index' validation", "'citation count' validation", "'citation index' 'paper quality'" e expressões afins. Não consegui encontrar nenhum artigo de meta-análise (mesmo procurando por "'citation index' ''meta-analysis" e afins).

  • Wallmark 1986: Compararam-se avaliações por pares (com especialistas internacionais indicados para o estudo) com as citações de trabalhos suecos em 7 áreas. Houve uma correlação de 0,6 entre as classificações dos trabalhos nos dois métodos.
  • Callaham, Wears & Weber 2002. 204 artigos (de 493 trabalhos originalmente submetidos a um encontro de medicina de emergência realizado em 1991) foram analisados. A capacidade preditiva geral do número de citações por ano foi baixa (pseudo R2 = 0,14), o principal fator preditivo foi o fator de impacto do periódico em que o trabalho foi publicado, seguido de tamanho amostral (0,265 do poder preditivo do fator de impacto), escore de noticiabilidade (determinado em painel de especialistas, 0,260), uso de grupo controle (0,243), escore de qualidade (determinado em painel de especialistas, 0,158), aceito para apresentação no encontro (0,055), apresentação explícita da hipótese (0,047), retrospectivo vs. prospectivo (0,027), tipo de sujeitos experimentais (0,021), estudo cego (0,007). Aleatorização e resultados positivos não tiveram nenhum poder preditivo.
  • Berghmans et al. 2003: 181 artigos (de pesquisa clínica de câncer pulmonar) foram analisados em duas escalas de qualidade (Chalmers e ELCWP). A correlação entre as escalas de qualidade e índice de citação foi fraca (0,21 a 0,38 na escala ELCWP; 0,18 a 0,40 na ELCWP). Autores americanos com mais frequência publicaram em revistas de maior impacto do que europeus e outros não-americanos a despeito de os trabalhos não apresentarem uma qualidade maior.
  • Gupta, Nicol & Johnson 2004: Dois especialistas analisaram 94 estudos (publicados entre 1966 e 2002 sobre tratamento de pitiríase versicolor) quanto a parâmetros de qualidade (como aleatorização, cegueira, cálculo apriorístico de tamanho amostral, explicação clara de regimes de tratamento e parâmetros de eficácia bem definidos, no total de 20 pontos). Não foi encontrada relação entre qualidade e número de citações recebidas pelos artigos.
  • Nieminen et al. 2006: 448 artigos (publicados em 1996 em 4 revistas de psicologia) foram analisados quanto à qualidade da análise estatística e do relato. Não foi encontrada relação entre os parâmetros analisados e o número de citações recebidas. Após ajuste para o periódico em que foram publicados, uma apresentação mais detalhada dos métodos estatísticos empregados correlacionou-se com maior citação. Análise estatística inadequada não afetou o índice de citação.
  • Bornmann et al. 2012: Cerca de 2.000 artigos (manuscritos submetidos à Angewandte Chemie International Edition e publicados na revista ou em outras) foram analisados. Houve correlação entre o número de citações e a pontuação dada pelos revisores sobre a importância dos achados. Desempenho de citação dos artigos nas referências bibliográficas, língua do periódico, subárea da Química e reputação dos autores também correlacionaram-se com o índice de citação.

E abaixo a tradução das principais conclusões de estudo conjunto da União Internacional de Matemática, do Conselho Internacional de Matemática Industrial e Aplicada e do Instituto de Estatística Matemática (Adler et al 2009):

  • "Basear-se na estatística não é mais preciso quando a estatística é usada inapropriadamente. De fato, a estatística pode ser enganosa quando mal aplicada e mal compreendida. Muito da bibliometria moderna parece se basear na experiência e na intuição sobre a interpretação e validade das estatísticas de citações.
  • Embora os números pareçam ser 'objetivos', sua objetividade pode ser ilusória. O significado de uma citação pode ser ainda mais subjetivo do que a revisão por pares. Como essa subjetividade é menos óbvia para as citações, os que usam dados de citação menos provavelmente compreendem essas limitações.
  • A dependência unicamente de dados de citação oferece, no máximo, uma compreensão incompleta e, frequentemente, rasa da pesquisa - uma compreensão que é válida somente quando reforçada por julgamento de outras pessoas. Números não são inerentemente superiores a julgamentos sólidos.
  • Para periódicos, o fator de impacto é mais frequentemente utilizado para ranqueamento. Isso é uma simples média derivada da distribuição de citações de uma coleção de artigos do periódico. A média captura apenas uma pequena fração da informação sobre a distribuição e é uma estatística bastante crua. Além disso, há vários fatores concorrentes no julgamento de periódicos pelas citações e qualquer comparação requer cuidado quando se usa o fator de impacto. Usar somente o fator de impacto para avaliar um periódico é como usar apenas o peso para avaliar a saúde de uma pessoa.
  • Para artigo, no lugar de se basear na própria contagem de citações para comparar artigos individuais, as pessoas frequentemente substituem pelo fator de impacto dos periódicos em que os trabalhos foram publicados. Elas creem que fatores de impactos mais altos devem significar maior número de citações. Mas muitas vezes não é o caso! Esse é um mau uso pervasivo da estatística que necessita ser desafiado sempre que ocorrer.
  • Para cientistas individuais, o registro completo de citações pode ser difícil de comparar. Em consequência, tem havido tentativas de se encontrar estatísticas simples para capturar toda a complexidade desse registro com um único número. O mais destacado dessas tentativas é o índice-h, que parece estar ganhando popularidade. Mas mesmo uma inspeção casual do índice-h e variantes mostra que eles são uma tentativa ingênua de se compreender registros complicados de citações. Ao captarem apenas uma pequena parte da informação sobre a distribuição de citações do cientista, eles perdem informações cruciais para a avaliação da pesquisa."

As coisas complicam quando várias táticas (de eticidade duvidosa) são implementadas com vistas a turbinar os índices principalmente o fisiologismo/camaradagem (troca de citações entre autores) e a autocitação (de autores ou de periódicos). Armadilhas também são criadas como cientistas reorientarem suas pesquisas para áreas com maiores chances de receber menções.

*Upideite(11/05/2013): Corrigido a esta data. 30 mil é, na verdade, uma estimava grosseira de periódicos científicos com revisão por pares existentes atualmente.

Upideite(08/jul/2016): John Bohannon comenta no sítio web da Nature mais um trabalho (ainda em preprint) sobre fator de impacto. Outro estudo que conclui pela baixa relação (ou ausência dela) entre fator de impacto e citação de trabalhos individuais.

5 comentários:

Fabio Machado disse...

A uns anos atrás escrevi um artigo criticando exatamente essa postura na CAPES, com especial interesse na minha área (Zoologia)

http://www.scielo.br/scielo.php?pid=S1984-46702010000400002&script=sci_arttext

O máximo de resposta que obtive foi pessoalmente em uma apresentação da nova área da biodiversidade, que basicamente se baseava em racionalizações ad hoc do que estava sendo feito.

Pensei em emendar uma resposta formal, mas visto que nada disso foi respondido oficialmente, não vi o ponto.

Mauro disse...

O fator de impacto é impreciso em quesitos que são subjetivos na ciência. Não dá para medir criatividade e originalidade, por exemplo. Como consequencia, vejo pesquisadores praticando a Salami Science a fim de mostrar maior produção.

Penso que essa questão vai ficar em aberto ainda. Porém, a CAPES e outros avaliadores da qualidade da nossa ciência poderiam adotar outros critérios para qualificar nossos cientistas.

none disse...

Machado, Mauro,

Valeu pela visita e comentários.

O que eu gostaria de ver é um esforço mais sistemático de avaliação e validação desses índices de produção e qualidade. É meio constrangedor que a academia use parâmetros que não foram adequadamente testados.

(Fiquei surpreso com tão poucos hits válidos que encontrei em minha pesquisa bibliográficas - ainda que tenha sido um tanto superficial. Nâo achei nem mesmo uma mísera meta-análise - deve haver, mas não apareceu na pesquisa.)

[]s,

Roberto Takata

Sibele disse...

Parabéns pela iniciativa dessa série no GR, Roberto! O assunto é mesmo muito interessante e relevante!

Sobre sua surpresa em encontrar pouca bibliografia nessa temática, e nem mesmo uma meta-análise, lembro, como já comentei no Twitter, que a área é bem diversificada e não se concentra apenas em análise de citações - daí talvez a falta de um volume robusto de trabalhos que permita meta-análises.

Mas lembro também que o FI não foi contestado por décadas, e apenas muito recentemente têm surgido estudos questionando sua validade. E mesmo recentemente têm surgido alternativas na avaliação da produção científica - o índice h foi proposto por Hirsch em 2005, e as Altmetrics surgiram em 2010 - mas mesmo essas novidades carecem de mais fundamentação que as validem.

Uma outra alternativa que vejo com bons olhos é a avaliação do impacto social da pesquisa (ver Bornmann: http://onlinelibrary.wiley.com/doi/10.1002/asi.22803/abstract) - mas mesmo essa proposta também apresenta limitações - pois parece mais adequada à ciência aplicada e é questionável em relação à pesquisa básica, que não apresenta um retorno imediato ou a curto/médio prazo, apesar de sua relevância e necessidade para o desenvolvimento futuro.

Mas o que é a ciência senão o esforço em explicar fenômenos através de investigações metódicas e racionais, validando um determinado corpo de conhecimentos?
E sujeito a falseamentos que abrem perspectivas para novas tentativas de investigação? Os estudos avaliativos da ciência estão nesse processo - e até por isso é mesmo frustrante que perceba-se pouco esforço sistemático para esse propósito - mas muitas outras áreas não estão nesse pé também? E continuam em frente. :)

E por fim: acredito que objetividade absoluta em estudos avaliativos não existe. Sempre haverá um componente subjetivo na avaliação da produção científica - e essa é apenas minha opinião. :)

none disse...

Oi, Sibele,

Obrigado pela visita e comentários.

Entendo que a bibliometria (e seu ramo da cienciometria) seja diversificado. Mas a pesquisa biomédica também é. Creio que seja mais o ponto de ser um ramo relativamente recente e, estou chutando, haver relativamente poucos pesquisadores na área. Por outro lado, como os bancos de dados são, de um lado, bastante ricos em dados e, de outro, facilitam sobremaneira a extração de indicadores, parece-me que não haveria maiores dificuldades em analisar uma questão tão premente. Talvez o gargalo maior seja fazer um levantamento à parte das qualidades reais dos trabalhos para se poder fazer comparação com parâmetros como índices de citação.

O meu questionamento é menos em relação à validade da bibliometria ou datametria como uma área científica autêntica do que à aplicação prática (pra fins avaliativos - que, entre outras coisas, definem rumos de política científica) de um parâmetro sem uma validação sólida.

[]s,

Roberto Takata

LinkWithin

Related Posts with Thumbnails