Construção de uma escala para avaliar a qualidade metodológica de revisões sistemáticas

Costa, Angelo Brandelli; Zoltowski, Ana Paula Couto; Koller, Silvia Helena; Teixeira, Marco Antônio Pereira

doi:10.1590/1413-81232015208.10762014

Resumo

O objetivo deste estudo foi descrever o processo de construção e de validação de uma metodologia para avaliação da qualidade de escalas de revisões sistemáticas. A partir da ampliação do escopo e de acréscimos de novos itens ao instrumento Assessment of Multiple Systematic Reviews (AMSTAR), buscaram-se evidências de validade e confiabilidade da nova metodologia. Em um primeiro momento, a escala original foi traduzida, adaptada, ampliada e avaliada por um painel de cinco especialistas. Em seguida, foi utilizada para avaliar uma amostra aleatória de cinco revisões sistemáticas por três juízes sem treinamento formal na escala. Por fim, a escala consolidada foi avaliada em uma nova rodada por 2 juízes. O painel de especialistas entrou em consenso em relação à validade das alterações propostas. Em relação à escala consolidada, a concordância média entre os juízes por itens e no escore total foi considerada satisfatória. A partir dos processos de adaptação e validação realizados, a metodologia em sua versão final foi composta por 14 itens que conjuntamente indicam a qualidade metodológica de revisões sistemáticas de campos do conhecimento diversos.

Palavras-chave
Revisão sistemática; Metodologia; Qualidade

Abstract

The aim of this study was to describe the process of creation and validation of methodology to assess the methodological quality of systematic reviews. From the expansion of the scope and addition of new items to the Assessment of Multiple Systematic Reviews (AMSTAR) instrument evidence of validity and reliability of the new methodology was sought. Firstly, the original scale was translated, adapted, expanded and evaluated by a panel of five experts. Then it was tested by evaluating a random sample of five systematic reviews by three judges with no formal training in the scale. Finally, the consolidated scale was assessed in a new panel by two judges. The panel of experts reached a consensus regarding the validity of the proposed changes. With respect to the scale total and per item score, the average agreement between judges was considered satisfactory in the consolidated scale. From the processes of adaptation and validation performed, the methodology in its final version consisted of 14 items that taken together indicate the methodological quality of systematic reviews from different areas of knowledge.

Key words
Systematic review; Methodology; Quality

Introdução

A revisão de artigos é uma das práticas mais recorrentes na literatura científica. Atualmente, destaca-se o uso da técnica de revisão sistemática (RS) por ser um processo formal, organizado e controlado para avaliação e síntese de estudos em diversas áreas do conhecimento. No entanto, a ideia contemporânea de uma revisão de pesquisas feita de maneira sistemática surgiu apenas no final da década de 1970, a partir do conceito de meta-análise¹1. Glass G. Primary, secondary and meta-analysis of research. Edu Res 1976; 5(10):3-8.. Apesar do termo meta-análise ser frequentemente confundido como sinônimo de RS, os dois termos possuem sentidos distintos²2. Sousa M, Ribeiro A. Systematic review and meta-analysis of diagnostic and prognostic studies: A tutorial. Arq Bras Cardiol2009; 92(3):241-251.. Meta-análise refere-se ao procedimento estatístico de tratamento dos dados de diversos estudos com o objetivo de agrupá-los, enquanto que RS refere-se ao processo de reunião, avaliação crítica e sintética dos resultados de múltiplos estudos, podendo ou não incluir meta-análise³3. Cordeiro A, Oliveira GM, Rentería JM, Guimarães CA, Grupo de Estudo de RS do Rio de Janeiro. Revisão sistemática: uma revisão narrativa. Rev Col Bras Cir 2007; 34(6):428-431..

As RS são ferramentas importantes para subsidiar decisões de políticas e intervenções em saúde, uma vez que fornecem informações com um viés de publicação mais controlado. O viés de publicação pode ser entendido pela tendência de estudos com resultados positivos (ou significativos) serem mais aceitos para publicação em detrimento daqueles com resultados negativos (ou não esperados)⁴4. Francis G. Publication bias and the failure of replication in experimental psychology. Psychon Bull Rev 2012; 19(6):975-991.. Assim, o pesquisador, ao realizar uma busca não sistemática, acaba supervalorizando a seleção de artigos com resultados positivos, visto que aqueles com resultados negativos costumam ser mais difíceis de serem encontrados. Buscando minimizar o viés de publicação, a RS caracteriza-se pela aplicação de estratégias de busca, análise crítica e síntese da literatura de forma organizada. Dessa forma, revisar sistematicamente é um processo muito mais amplo do que apenas descrever os resultados encontrados, pois implica a adoção de uma análise reflexiva dos dados, sejam eles quanti ou qualitativos⁵5. Fernández-Ríos L, Buela-Casal G. Standards for the preparation and writing of Psychology review articles. Int J Clin Health Psychol 2009; 9(2):329-344.,⁶6. Lopes A, Fracolli L. Revisão sistemática de literatura e metassíntese qualitativa: Considerações sobre sua aplicação na pesquisa em enfermagem. Texto contexto - enferm 2008; 17(1):771-778..

As RS podem apresentar limitações metodológicas importantes, tanto no que se refere à estratégia de busca quanto à análise crítica da qualidade dos estudos incluídos⁷7. Papageorgiou S, Papadopoulos M, Athanasiou A. Evaluation of methodology and quality characteristics of systematic reviews in orthodontics. Orthod Craniofac Res 2011; 14(3):116-137.. Soma-se a isso a constatação de que, em alguns campos do conhecimento, as RS parecem ainda não apresentar um aprimoramento significativo de qualidade que acompanhe a crescente quantidade de publicações⁸8. Faggion CM, Listl S, Giannakopoulos NN. The methodological quality of systematic reviews of animal studies in dentistry. Vet J 2012; 193(2):140-147.–¹⁰10. Zoltowski APC, Costa AB, Teixeira MAP, Koller SH. Qualidade metodológica das revisões sistemáticas em periódicos de psicologia brasileiros. Psic: Teor e Pesq 2014; 30(1):107-114.. Portanto, mesmo sendo uma técnica já estabelecida, uma RS, para ter sua validade assegurada, necessita garantir uma boa qualidade metodológica, pois isso aumenta a probabilidade da apresentação de resultados não enviesados, além de ser um pré-requisito para interpretações e aplicações válidas¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020..

Observa-se a presença de diferentes instrumentos, cheklists e guidelines para identificar, analisar e sintetizar os dados, ocasionando uma variabilidade na maneira de se conduzir uma RS¹²12. Littell JH, Corcoran J, Pillai V. Systematic reviews and meta-analysis. New York: Oxford University Press; 2008.. Por exemplo, existem checklists desenvolvidos especificamente para avaliar a estrutura formal dos artigos de RS. Esse é o caso do Qualitative Assessment and Review Instrument (QARI)¹³13. Pearson A. Balancing the evidence: incorporating the synthesis of qualitative data into systematic reviews. JBI Reports 2004; 2(2):45-64. e do Meta-Analysis of Statistics Assessment and Review Instrument (MasTARI), ambos do Joanna Briggs Institut. Para além dos aspectos formais, a qualidade metodológica de uma RS representa o quão bem ela foi conduzida, isto é, a sua validade interna. É importante ressaltar que a qualidade metodológica de uma RS não deve ser confundida com a dos estudos revisados, embora esteja relacionada com a avaliação e a descrição cuidadosa destes.

Na literatura internacional, pode-se identificar mais de 24 instrumentos para avaliar especificamente a qualidade metodológica de RS¹⁴14. Jagannath V, Mathew JL, Asokan GV, Fedorowicz Z. Quality assessment of systematic reviews of health care interventions using AMSTAR. Indian Pediatr 2011; 48(5):383-385.. Um dos poucos que foi validado e desenvolvido de forma rigorosa denomina-se Assessment of Multiple Systematic Reviews (AMSTAR)¹⁵15. Shea BJ, Grimshaw JM, Wells GA, Boers M, AndeRSon N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7(10):1-7.. A construção e a validação do AMSTAR são apresentadas, respectivamente, em dois estudos descritos a seguir.

O AMSTAR foi construído a partir da combinação das seguintes fontes de informação: 1) o Overview Quality Assessment Questionnaire (OQAQ)¹⁶16. Oxman AD, Guyatt GH. Validation of an index of the quality of review articles. J Clin Epidemiol 1991; 44(11):1271-1278. que contém 10 itens; 2) um checklist criado por Sacks et al.¹⁷17. Sacks HS, Berrier J, Reitman D, Ancona-Berk VA, Chalmers TC. Meta-analyses of randomized controlled trials. N Engl J Med1987; 316(8):450-455., contendo 24 itens; e 3) três itens adicionais que os autores julgaram ser de importância metodológica ao instrumento (restrição do idioma de publicação como critério de seleção dos estudos, o viés de publicação e a origem da publicação, se tese, dissertação, artigos, resumos, etc.). A versão inicial da ferramenta foi composta de 37 itens, sendo aplicada na avaliação de 99 artigos provenientes de bases de dados de revisões e meta-análises e 52 publicações impressas provenientes da base Cochrane de RS. Para cada revisão, dois juízes independentes avaliaram a sua qualidade metodológica. Posteriormente, realizou-se uma análise fatorial exploratória com todos os itens, e apenas aqueles que carregaram score acima de 0,50 foram mantidos, o que possibilitou um instrumento mais curto, com 29 que mediam onze componentes principais¹⁵15. Shea BJ, Grimshaw JM, Wells GA, Boers M, AndeRSon N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7(10):1-7..

Após a etapa das análises estatísticas, um grupo de pesquisadores e pareceristas sem treinamento no instrumento discutiram os itens considerados mais apropriados para cada componente para a inclusão na versão final do instrumento. O instrumento final foi formado por onze itens, com uma grade de respostas composta por ‘Sim’, ‘Não’, ‘Não é possível responder’ ou ‘Não se aplica’. O item que foi criado na primeira versão do instrumento a fim de avaliar restrição do idioma de publicação, mesmo sendo identificado na análise fatorial, acabou por não fazer parte do instrumento na versão final, devido a inconsistências empíricas apontadas pela literatura sobre esse tópico¹⁵15. Shea BJ, Grimshaw JM, Wells GA, Boers M, AndeRSon N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7(10):1-7..

Após o processo de construção do instrumento, os autores buscaram mensurar a concordância, a fidedignidade, a validade de construto e a aplicabilidade do AMSTAR¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020.. A partir de um banco de 151 RS, 30 artigos (20%) foram selecionados aleatoriamente a fim de serem avaliados. Dois juízes (um sem treinamento formal no instrumento) aplicaram o AMSTAR e mais dois outros instrumentos de avaliação da qualidade metodológica – o OQAQ 16 e o checklistdesenvolvido por Sacks et al.¹⁷17. Sacks HS, Berrier J, Reitman D, Ancona-Berk VA, Chalmers TC. Meta-analyses of randomized controlled trials. N Engl J Med1987; 316(8):450-455.. De forma geral, o AMSTAR demonstrou ter boa concordância, confiabilidade, validade de construto e aplicabilidade, mostrando-se similar ao OQAQ em termos de concordância e confiabilidade e melhor que o checklist de Sacks. Por fim, sugestões foram dadas para o contínuo processo de validação do instrumento, a fim de se replicar seus resultados iniciais com um grupo mais variado de revisores e de artigos avaliados¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020..

Embora os autores afirmem que o AMSTAR tenha sido desenvolvido e adaptado para avaliar RS de todas as áreas, percebe-se que o instrumento peca na avaliação de estudos qualitativos, comuns no campo da saúde coletiva, pois não compreende métodos de análise utilizados para pesquisas desse tipo. Os critérios-base dos itens do instrumento apresentam uma preponderância pela síntese dos dados através de análises quantitativas, o que não é aplicável a todos os contextos, como o da saúde coletiva. Além disso, o AMSTAR possui algumas fragilidades psicométricas importantes, como avaliação de mais de um critério em um mesmo item, e ambiguidades nas suas descrições e sistema de pontuação, o que pode provocar inconsistências na utilização¹⁸18. Urbina S. Fundamentos da Testagem Psicológica. Porto Alegre: Artmed; 2007.. Dessa forma, constatando a ausência de instrumentos com esta finalidade no contexto brasileiro, o objetivo deste estudo foi descrever o processo de construção e de validação de uma nova metodologia para avaliação da qualidade metodológica de RS, tendo como ponto de partida o AMSTAR.

Método

Procedimentos

O procedimento para construção do instrumento foi baseado em Borsa et al.¹⁹19. Borsa JC, Damásio BF, Bandeira DR. Adaptação e validação de instrumentos psicológicos entre culturas: algumas considerações. Paidéia 2012; 22(53):423-432. de acordo com as seguintes etapas: 1) Tradução, equivalência contextual e revisão por comitê de especialistas; 2) estudo piloto; e 3) estudo de validação. Não foi realizada a etapa de retrotradução, uma vez que se trata da ampliação de um instrumento, cuja versão final difere substancialmente da original.

Tradução, equivalência contextual, ampliação e revisão por comitê de especialistas

Em um primeiro momento, a escala foi traduzida do inglês para o português, de maneira independente, por dois tradutores. As traduções foram comparadas e sintetizadas por um terceiro tradutor independente. Os três tradutores são proficientes nas línguas portuguesa e inglesa, além de serem familiarizados com a temática. Em seguida, os acréscimos, as supressões e a equivalência dos itens que compunham o instrumento original foram analisados a partir de um comitê de cinco juízes especialistas na publicação de revisões sistemáticas e estudos na área de psicometria. O comitê ponderou a pertinência semântica, idiomática e conceitual de cada item, além da sua consigna e, quando necessárias, redações alternativas foram sugeridas. A pertinência dos itens foi classificada entre “pertinente”, “pertinente com alterações” e “não pertinente”. A versão traduzida, modificada e a ampliada pode ser encontrada no Quadro 1.

Quadro 1
Itens e critérios do instrumento original e da adaptação.

Os critérios de pontuação foram alterados para apenas “Sim” e “Não”. Optouse pela remoção das opções “Não é possível responder” e “Não se aplica”, pois poderiam levar à heterogeneidade nas avaliações já que concernem fortemente ao arbítrio do avaliador. No entanto, ressaltase que a nova opção de resposta não fugiu da estrutura de pontuação original, pois nesta, mesmo com quatro opções, apenas a resposta “Sim” era pontuada. Salientase ainda que a mesma opção simplificada já havia sido exposta com sucesso na literatura recente⁸8. Faggion CM, Listl S, Giannakopoulos NN. The methodological quality of systematic reviews of animal studies in dentistry. Vet J 2012; 193(2):140-147.. Informações sobre possíveis exceções foram incluídas nas consignas dos itens pertinentes.

Estudo Piloto

Para essa etapa, foi utilizada uma amostra aleatória de cinco RS. Os temas das revisões variaram em todo o espectro da Psicologia. Esta área do conhecimento foi escolhida pela sua proximidade com o campo de atuação dos autores e também por abarcar estudos com métodos qualitativos e quantitativos, aproximandose tanto das ciências humanas e sociais quanto das biológicas e da saúde. Além disso, devido ao instrumento possuir uma preponderância por análises quantitativas, buscouse testar a versatilidade da metodologia frente a uma gama heterogênea de estudos.

Três juízes (A, B e C), sem treinamento formal na escala, avaliaram as revisões utilizando a versão adaptada do instrumento. A cada item marcado com “Sim” foi atribuído um ponto e a soma de todos os itens marcados afirmativamente constituiu a pontuação total. Os coeficientes de correlação intraclasse (CCI) foram estimados para avaliar a confiabilidade da pontuação total. Ainda foram estimados os valores do Kappa de Cohen para cada item a fim de analisar a concordância interobservador, sendo que itens que apresentaram valores Kappa abaixo de 0,40 foram revisados novamente e novas redações foram sugeridas. Seguindo os mesmos critérios de Shea et al.¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020., valores de Kappa inferiores a 0 foram classificados como de acordo ao acaso; de 0,01 a 0,20, como concordância leve; de 0,21 a 0,40, como concordância baixa; de 0,41 a 0,60 como concordância moderada; de 0,61 a 0,80, como acordo substancial; e de 0,81 a 0,99, como concordância quase perfeita.

Estudo de Validade

Por fim, realizouse uma nova avaliação a partir dos itens consolidados na etapa anterior. Dois juízes, sem treinamento formal na escala, avaliaram 25 RS escolhidas aleatoriamente de artigos do âmbito da Psicologia. Foram utilizados os mesmos critérios e procedimentos de análise do estudo piloto.

Resultados

A partir do instrumento original, o processo de construção propôs a criação de itens adicionais para evitar ambiguidades e adequar o instrumento a um contexto mais diversificado de estudos (Quadro 1). O item 1 do instrumento original (o desenho da revisão foi apresentado a priori?) foi desmembrado em três novos itens que consideravam todos os critérios elencados no item original: 1) O objetivo de pesquisa está claramente descrito? 2) Os elementos essenciais que compõem a estratégia de busca são descritos? 4) Os critérios de inclusão e exclusão utilizados na seleção dos estudos foram descritos? Além disso, o item 2 do instrumento original (havia duplicação na extração de dados e seleção dos estudos?) foi desmembrado em dois itens, um perguntando a respeito da busca e seleção de estudos (6) e outro, da extração de dados (8). A redação de alguns itens também foi refeita. Por exemplo, o item 7 do instrumento converteuse em: 10) A forma de avaliação da qualidade metodológica dos estudos incluídos foi descrita? Uma vez que esse era o objetivo do item em questão. A descrição de alguns itens foi alterada de forma a abranger aspectos metodológicos de revisões que incluam também pesquisas qualitativas. Esse foi o caso dos itens 1, 7 e 9 do instrumento original. Por fim, os itens foram reordenados de forma a acompanhar a ordem lógica da realização de uma RS.

Em seguida, um painel de especialistas discutiu a pertinência dos itens para o objetivo do instrumento. Todos os itens foram julgados pertinentes, sendo que alguns ajustes de redação foram propostos e contemplados. O instrumento final é um questionário de 14 itens para serem respondidos entre “Sim” ou “Não” a partir da presença ou da ausência de cada critério. A versão do instrumento foi testada com cinco RS avaliadas por três juízes que não tinham experiência prévia com o instrumento. O CCI para o escore total foi excelente: 0,925 (95% CI: 0,65 − 0,99) p < 0,001; já a concordância interjuízes foi moderada: kappa médio 0,50 (intervalo: −0,07 e 1,0). No entanto, os itens 2 (estratégia de busca), 3 (origem da publicação), 4 (critérios de inclusão e de exclusão), 9 (características dos estudos) e 11 (método para integrar os resultados) tiveram pontuações baixas em − 0,07, – 0,07, 0,2, – 0,07 e – 0,07 respectivamente (Tabela 1). Com o auxílio dos juízes, a análise qualitativa destes itens levou a pequenas modificações em sua redação, a fim de esclarecer o propósito das questões e evitar ambiguidades. A versão final do instrumento pode ser encontrada no Quadro 2.

Quadro 2
Versão final do instrumento.

Thumbnail

Tabela 1
Concordância interjuízes do estudo piloto.

Realizouse uma nova avaliação a partir da versão atualizada do instrumento proveniente do estudo piloto. Dessa forma, dois juízes avaliaram 25 RS escolhidas aleatoriamente. A concordância interjuízes variou de moderada (0,42) à perfeita (1,0). Os itens que foram modificados em função das pontuações baixas apresentadas no estudo piloto demonstraram um melhor grau de concordância nesta etapa, sendo que os itens 3, 9 e 11 passaram a apresentar concordância moderada, enquanto o item 2 apresentou concordância substancial.

Destacase que os itens que obtiveram maior grau de concordância foram o 14 (conflito de interesses), o 13 (viés de publicação) e o 5 (uma busca abrangente foi realizada), com valores kappa de 1,0; 0,86 e 0,66, respectivamente. Por outro lado, os que apresentaram menor grau de concordância entre os juízes foram os itens 4 (critérios de inclusão e de exclusão), 7 (número de artigos incluídos e excluídos em cada etapa) e 12 (qualidade metodológica trazida na conclusão), com valores kappa de 0,42; 0,42 e 0,43; respectivamente. A concordância média interjuízes foi moderada: 0,52 (intervalo: 0,42 e 1,0). Novamente, o CCI para o escore total do instrumento foi excelente: 0,805 (95% CI: 0,56 – 0,91) p < 0,001 (Tabela 2).

Thumbnail

Tabela 2
Concordância interjuízes do estudo de validade.

Discussão

A avaliação da qualidade metodológica de RS ainda é uma temática incipiente no contexto brasileiro. A construção, a partir de um instrumento internacionalmente reconhecido, e a validação de uma escala ampliada para este fim foram os objetivos deste estudo. Durante esse processo, foram necessárias modificações nos itens, nas suas descrições e na sua grade de respostas, a fim de deixar o instrumento menos ambíguo, facilitando sua aplicabilidade. Nesse sentido, foram acrescidos três itens à versão original, frutos do desmembramento daqueles já existentes. Buscouse também adotar uma descrição mais minuciosa, a fim de clarificar o critério avaliativo. Na etapa de validade de construto, todos os itens foram considerados pertinentes pelo comitê de especialistas, mesmo que alguns apontassem a necessidade de alterações, o que sugere que os critérios da escala são úteis também no panorama acadêmico e editorial brasileiro.

Embora os indicadores de concordância entre juízes tenham sido satisfatórios, tanto na pontuação geral do instrumento quanto na análise item-a-item, ressaltase que quatro itens (2, 3, 4 e 11) obtiveram pontuações classificadas como discordantes entre os avaliadores. Cada um destes itens foi analisado junto com os juízes, buscandose investigar os motivos para as discordâncias e definir possíveis modificações. Com isso, no segundo item, alterou-se a sua descrição, detalhando quais eram os elementos essenciais na composição da estratégia de busca, principalmente enfatizando a necessidade de se apresentar o período em que as revisões foram buscadas. Já para o terceiro item, mudou-se a escrita da sua pergunta, salientando-se a importância de se explicitar a inclusão ou não de materiais provenientes de fontes de divulgação diferentes (resumos de congresso, dissertações, teses, artigos, etc.). No item 4 foi realizada uma modificação na escrita da sua descrição, indicando que os critérios citados ali tinham a finalidade apenas de exemplificar a gama de critérios de inclusão e de exclusão possíveis, e não de indicar quais critérios deveriam estar presentes na revisão avaliada. Por fim, o item 11 demandou maior detalhamento em sua descrição, principalmente no caso de revisões que integrem estudos qualitativos (aspecto não considerado na versão original do instrumento).

Na etapa de validação, dois juízes avaliaram um conjunto de 25 RS e obtiveram um nível de concordância que variou de moderada à perfeita. Nota-se que o instrumento comportou-se de forma mais homogênea nesse segundo momento, possivelmente devido às modificações realizadas nos itens com menor grau de concordância no estudo piloto.

A partir dos processos de adaptação e de validação realizados, a escala em sua versão final foi composta por 14 itens (Quadro 2) que conjuntamente indicam a pontuação geral do instrumento. Todavia, um dos pontos interessantes de se considerar é a possibilidade da avaliação item a item, visto que os critérios para cada um deles são independentes entre si¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020.. Dessa forma, os itens tornam-se também ferramentas que guiam os pesquisadores no desenvolvimento de seus estudos de RS, atuando como um checklist de aspectos importantes a serem considerados. Cabe ponderar que não há, nesse sentido, a indicação de pontos de corte para a definição do que é uma boa ou uma má RS em termos metodológicos. Desde a sua gênese, a proposta do instrumento foi apontar critérios mínimos de avaliação, indicando que todos são necessários para revisões de boa qualidade. No entanto, entende-se que alguns itens podem ser mais importantes do que outros em determinadas situações¹¹11. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020.. Por exemplo, na Psicologia a discussão sobre o viés de publicação ainda é incipiente, mesmo que em outras áreas de conhecimento esse tema já esteja estabelecido²⁰20. Yong E. Replication studies: bad copy. Nature2012; 485(7398):298-300..

Ao se olhar para o campo da saúde coletiva, observa-se uma heterogeneidade de objetos e metodologias de pesquisa. Assim, é um desafio para o pesquisador escrever uma RS que considere as complexidades envolvidas nessa área. Para que isto ocorra de forma mais eficaz, é necessário que as pesquisas baseadas em evidências passem a adotar uma linha mais uniforme de apresentação e de publicação de seus resultados. Uma boa RS depende também do quão bons são os estudos revisados. Algumas vezes, um bom estudo deixa de fazer parte de uma RS, pois seus autores não utilizaram, por exemplo, palavras-chaves indexadas, dificultando que seu artigo seja acessado. Aliado a isso, a elaboração de um resumo claro, objetivo e detentor das principais informações do estudo torna-se fundamental para a seleção e a extração de dados a serem realizadas em uma RS.

Dessa forma, uma RS de qualidade, que traga dados sólidos sobre determinada temática e que embase decisões não apenas acadêmicas, mas também políticas, econômicas, educacionais e de saúde, depende da qualidade de todo o processo científico de pesquisa, escrita e publicação dos estudos. A metodologia apresentada neste trabalho pode constituir-se como um guia para pesquisadores, editores e pareceristas que buscam publicar revisões críticas de seus campos de atuação.

Apesar do cuidado com os processos de adaptação e de validação do instrumento, algumas limitações merecem ser apontadas. A quantidade de artigos avaliada pelos juízes pode ser considerada baixa, restringindo a variabilidade dos estudos incluídos e as análises realizadas. Além disso, não foi possível compará-lo com outro instrumento semelhante, pois não foram encontrados instrumentos no contexto brasileiro que avaliassem especificamente a qualidade metodológica das RS. Foram localizadas apenas escalas referentes à avaliação de estrutura e escrita formal de RS²¹21. Padula RS, Pires RS, Alouche SR, Chiavegato LD, Lopes AD, Costa LOP. Análise da apresentação textual de Revisões sistemáticas em fisioterapia publicadas no idioma português. Rev bras fisioter 2012; 16(4):281-288.. Cabe também pontuar que o funcionamento da escala ainda não foi avaliado após as modificações realizadas nos quatro itens indicados anteriormente. Assim, não há consenso de que eles apresentarão melhor comportamento do que suas versões anteriores.

Por fim, sugere-se que novos estudos sejam realizados para se buscar mais evidências de validade do instrumento. A indicação da pertinência dos itens e, em média, um grau satisfatório de concordância entre juízes sugerem que a escala é uma ferramenta útil e de fácil assimilação para o público acadêmico. Sua utilização pode promover ganhos metodológicos importantes nos estudos de RS realizados no Brasil, colaborando tanto com editores quanto com autores, a fim de se desenvolver trabalhos mais completos e robustos.

Referências

¹
Glass G. Primary, secondary and meta-analysis of research. Edu Res 1976; 5(10):3-8.
²
Sousa M, Ribeiro A. Systematic review and meta-analysis of diagnostic and prognostic studies: A tutorial. Arq Bras Cardiol2009; 92(3):241-251.
³
Cordeiro A, Oliveira GM, Rentería JM, Guimarães CA, Grupo de Estudo de RS do Rio de Janeiro. Revisão sistemática: uma revisão narrativa. Rev Col Bras Cir 2007; 34(6):428-431.
⁴
Francis G. Publication bias and the failure of replication in experimental psychology. Psychon Bull Rev 2012; 19(6):975-991.
⁵
Fernández-Ríos L, Buela-Casal G. Standards for the preparation and writing of Psychology review articles. Int J Clin Health Psychol 2009; 9(2):329-344.
⁶
Lopes A, Fracolli L. Revisão sistemática de literatura e metassíntese qualitativa: Considerações sobre sua aplicação na pesquisa em enfermagem. Texto contexto - enferm 2008; 17(1):771-778.
⁷
Papageorgiou S, Papadopoulos M, Athanasiou A. Evaluation of methodology and quality characteristics of systematic reviews in orthodontics. Orthod Craniofac Res 2011; 14(3):116-137.
⁸
Faggion CM, Listl S, Giannakopoulos NN. The methodological quality of systematic reviews of animal studies in dentistry. Vet J 2012; 193(2):140-147.
⁹
Mac. Donald SL, Canfield SE, Fesperman SF, Dahm P. Assessment of methodological quality of systematic reviews published in the urological literature from 1998 to 2008. J Urol 2010; 184(2):648-653.
¹⁰
Zoltowski APC, Costa AB, Teixeira MAP, Koller SH. Qualidade metodológica das revisões sistemáticas em periódicos de psicologia brasileiros. Psic: Teor e Pesq 2014; 30(1):107-114.
¹¹
Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020.
¹²
Littell JH, Corcoran J, Pillai V. Systematic reviews and meta-analysis New York: Oxford University Press; 2008.
¹³
Pearson A. Balancing the evidence: incorporating the synthesis of qualitative data into systematic reviews. JBI Reports 2004; 2(2):45-64.
¹⁴
Jagannath V, Mathew JL, Asokan GV, Fedorowicz Z. Quality assessment of systematic reviews of health care interventions using AMSTAR. Indian Pediatr 2011; 48(5):383-385.
¹⁵
Shea BJ, Grimshaw JM, Wells GA, Boers M, AndeRSon N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7(10):1-7.
¹⁶
Oxman AD, Guyatt GH. Validation of an index of the quality of review articles. J Clin Epidemiol 1991; 44(11):1271-1278.
¹⁷
Sacks HS, Berrier J, Reitman D, Ancona-Berk VA, Chalmers TC. Meta-analyses of randomized controlled trials. N Engl J Med1987; 316(8):450-455.
¹⁸
Urbina S. Fundamentos da Testagem Psicológica Porto Alegre: Artmed; 2007.
¹⁹
Borsa JC, Damásio BF, Bandeira DR. Adaptação e validação de instrumentos psicológicos entre culturas: algumas considerações. Paidéia 2012; 22(53):423-432.
²⁰
Yong E. Replication studies: bad copy. Nature2012; 485(7398):298-300.
²¹
Padula RS, Pires RS, Alouche SR, Chiavegato LD, Lopes AD, Costa LOP. Análise da apresentação textual de Revisões sistemáticas em fisioterapia publicadas no idioma português. Rev bras fisioter 2012; 16(4):281-288.

Datas de Publicação

Publicação nesta coleção
Ago 2015

Histórico

Recebido
18 Abr 2014
Revisado
04 Set 2014
Aceito
06 Set 2014

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License, which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

[1] ¹
Glass G. Primary, secondary and meta-analysis of research. Edu Res 1976; 5(10):3-8.

[2] ²
Sousa M, Ribeiro A. Systematic review and meta-analysis of diagnostic and prognostic studies: A tutorial. Arq Bras Cardiol2009; 92(3):241-251.

[3] ³
Cordeiro A, Oliveira GM, Rentería JM, Guimarães CA, Grupo de Estudo de RS do Rio de Janeiro. Revisão sistemática: uma revisão narrativa. Rev Col Bras Cir 2007; 34(6):428-431.

[4] ⁴
Francis G. Publication bias and the failure of replication in experimental psychology. Psychon Bull Rev 2012; 19(6):975-991.

[5] ⁵
Fernández-Ríos L, Buela-Casal G. Standards for the preparation and writing of Psychology review articles. Int J Clin Health Psychol 2009; 9(2):329-344.

[6] ⁶
Lopes A, Fracolli L. Revisão sistemática de literatura e metassíntese qualitativa: Considerações sobre sua aplicação na pesquisa em enfermagem. Texto contexto - enferm 2008; 17(1):771-778.

[7] ⁷
Papageorgiou S, Papadopoulos M, Athanasiou A. Evaluation of methodology and quality characteristics of systematic reviews in orthodontics. Orthod Craniofac Res 2011; 14(3):116-137.

[8] ⁸
Faggion CM, Listl S, Giannakopoulos NN. The methodological quality of systematic reviews of animal studies in dentistry. Vet J 2012; 193(2):140-147.

[9] ⁹
Mac. Donald SL, Canfield SE, Fesperman SF, Dahm P. Assessment of methodological quality of systematic reviews published in the urological literature from 1998 to 2008. J Urol 2010; 184(2):648-653.

[10] ¹⁰
Zoltowski APC, Costa AB, Teixeira MAP, Koller SH. Qualidade metodológica das revisões sistemáticas em periódicos de psicologia brasileiros. Psic: Teor e Pesq 2014; 30(1):107-114.

[11] ¹¹
Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, Henry DA, Boers M. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol 2009; 62(10):1013-1020.

[12] ¹²
Littell JH, Corcoran J, Pillai V. Systematic reviews and meta-analysis New York: Oxford University Press; 2008.

[13] ¹³
Pearson A. Balancing the evidence: incorporating the synthesis of qualitative data into systematic reviews. JBI Reports 2004; 2(2):45-64.

[14] ¹⁴
Jagannath V, Mathew JL, Asokan GV, Fedorowicz Z. Quality assessment of systematic reviews of health care interventions using AMSTAR. Indian Pediatr 2011; 48(5):383-385.

[15] ¹⁵
Shea BJ, Grimshaw JM, Wells GA, Boers M, AndeRSon N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7(10):1-7.

[16] ¹⁶
Oxman AD, Guyatt GH. Validation of an index of the quality of review articles. J Clin Epidemiol 1991; 44(11):1271-1278.

[17] ¹⁷
Sacks HS, Berrier J, Reitman D, Ancona-Berk VA, Chalmers TC. Meta-analyses of randomized controlled trials. N Engl J Med1987; 316(8):450-455.

[18] ¹⁸
Urbina S. Fundamentos da Testagem Psicológica Porto Alegre: Artmed; 2007.

[19] ¹⁹
Borsa JC, Damásio BF, Bandeira DR. Adaptação e validação de instrumentos psicológicos entre culturas: algumas considerações. Paidéia 2012; 22(53):423-432.

[20] ²⁰
Yong E. Replication studies: bad copy. Nature2012; 485(7398):298-300.

[21] ²¹
Padula RS, Pires RS, Alouche SR, Chiavegato LD, Lopes AD, Costa LOP. Análise da apresentação textual de Revisões sistemáticas em fisioterapia publicadas no idioma português. Rev bras fisioter 2012; 16(4):281-288.

Itens	Kappa	IC 95%	Concordância
1	1,00	–	Perfeita
2	-0,36	[-0,87, 0,14]	Ao acaso
3	-0,20	[-0,71, 0,31]	Ao acaso
4	0,10	[-0,41, 0,61]	Leve
5	1,0		Perfeita
6	0,42	[-0,08, 0,93]	Moderada
7	0,66	[0,15, 1,00]	Substancial
8	1,0	–	Perfeita
9	-0,07	[-0,58, 0,44]	Ao acaso
10	0,17	[-0,34, 0,67]	Leve
11	-0,07	[-0,58, 0,44]	Ao acaso
12	0,66	[0,15, 1,00]	Substancial
13	1,00	–	Perfeita
14	1,00	–	Perfeita

Itens	Kappa	IC 95%	Concordância
1	0,62	[0,23, 1,00]	Substancial
2	0,61	[0,24, 0,97]	Substancial
3	0,46	[0,10, 0,83]	Moderada
4	0,42	[0,10, 0,74]	Moderada
5	0,66	[0,29, 1,0]	Substancial
6	0,46	[0,07, 0,85]	Moderada
7	0,42	[0,10, 0,74]	Moderada
8	0,50	[0,12, 0,89]	Moderada
9	0,52	[0,13, 0,90]	Moderada
10	0,44	[0,06, 0,82]	Moderada
11	0,47	[0,14, 0,80]	Moderada
12	0,43	[0,04, 0,82]	Moderada
13	0,86	[0,48, 1,00]	Quase perfeita
14	1,00	–	Perfeita

Brasil