reeusp
Revista da Escola de Enfermagem da USP
Rev. esc. enferm. USP
0080-6234
1980-220X
Universidade de São Paulo, Escola de Enfermagem
São Paulo, SP, Brazil
La Psicometría se fundamenta en la teoría de la medida en las ciencias buscando explicar el sentido en las respuestas de los que fueron sujetos a una serie de tareas, además de proponerse técnicas de medida de sus procesos mentales. En este artículo son presentados los conceptos y modelos de psicometría moderna, así como son discutidos los parámetros de validez y precisión de los testes.
ARTIGO ORIGINAL
Psicometria
Psicometría
Luiz Pasquali
Professor Pesquisador Associado do Departamento de Psicologia Social e do Trabalho do Instituto de Psicologia da Universidade de Brasília. Brasília, DF, Brasil. luiz.pasquali@pq.cnpq.br
Correspondência
RESUMO
A psicometria fundamenta-se na teoria da medida em ciências para explicar o sentido que têm as respostas dadas pelos sujeitos a uma série de tarefas e propor técnicas de medida dos processos mentais. Neste artigo são apresentados os conceitos e modelos da psicometria moderna e discutidos os parâmetros de validade e precisão dos testes.
Descritores: Psicometria. Reprodutibilidade dos testes. Validade dos testes. Estudos de validação.
RESUMEN
La Psicometría se fundamenta en la teoría de la medida en las ciencias buscando explicar el sentido en las respuestas de los que fueron sujetos a una serie de tareas, además de proponerse técnicas de medida de sus procesos mentales. En este artículo son presentados los conceptos y modelos de psicometría moderna, así como son discutidos los parámetros de validez y precisión de los testes.
Descriptores: Psicometría. Reproducibilidad de resultados. Validez de las pruebas. Estudios de validación.
INTRODUÇÃO
A medida em ciências psicossociais
Etimologicamente, psicometria representa a teoria e a técnica de medida dos processos mentais, especialmente aplicada na área da Psicologia e da Educação. Ela se fundamenta na teoria da medida em ciências em geral, ou seja, do método quantitativo que tem, como principal característica e vantagem, o fato de representar o conhecimento da natureza com maior precisão do que a utilização da linguagem comum para descrever a observação dos fenômenos naturais.
Historicamente, a psicometria tem suas origens na psicofísica dos psicólogos alemães Ernst Heinrich Weber e Gustav Fechner. O inglês Francis Galton também contribuiu para o desenvolvimento da psicometria, criando testes para medir processos mentais; inclusive, ele é considerado o criador da psicometria. Foi, contudo, Leon Louis Thurstone, o criador da análise fatorial múltipla, que deu o tom à psicometria, diferenciando-a da psicofísica. Esta foi definida como a medida de processos diretamente observáveis, ou seja, o estímulo e a resposta do organismo, enquanto a psicometria consistia na medida do comportamento do organismo por meio de processos mentais (lei do julgamento comparativo).
A medida em ciências tem provocado diatribes entre os pesquisadores, particularmente na área das ciências sociais. Contudo, a definição mais aceita de medida foi dada por Stanley Smith Stevens em 1946, quando dizia que: medir consiste em assinalar números a objetos e eventos de acordo com alguma regra(1). As regras de assinalar tais números são definidas na proposta do mesmo autor sobre os quatro níveis de medida ou escalas de medida: nominal, ordinal, intervalar e de razão. A medida nominal sendo aquela que aplica os números aos fenômenos da natureza, salvando somente os axiomas de identidade do número, ou seja, o número é utilizado somente como numeral ou símbolo gráfico. Ao utilizar o número, a escala ordinal já salva os axiomas de ordem, ou seja, a característica mais marcante do número, isto é, a magnitude - um número é por definição maior ou menor que outro, não somente diferente, ou melhor, um número é diferente do outro precisamente porque é maior ou menor que outro. As outras escalas salvam também axiomas de aditividade. Essa história dos axiomas foi detalhada por Whitehead e Russell em 1910 a 1913 e 1965, no livro Principia Mathematica, onde descrevem os famosos 27 axiomas do número matemático(2).
PSICOMETRIA: CONCEITUAÇÃO E MODELOS
A psicometria moderna tem duas vertentes: a teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). A TCT foi axiomatizada por Gulliksen(3) e a TRI foi inicialmente elaborada por Lord(4) e por Rasch(5) e, finalmente, axiomatizada por Birnbaum(6) e por Lord(7).
De um modo geral, a psicometria procura explicar o sentido que têm as respostas dadas pelos sujeitos a uma série de tarefas, tipicamente chamadas de itens. A TCT se preocupa em explicar o resultado final total, isto é, a soma das respostas dadas a uma série de itens, expressa no chamado escore total (T). Por exemplo, o T em um teste de 30 itens de aptidão seria a soma dos itens corretamente acertados. Se for dado 1 para um item acertado e 0 para um errado, e o sujeito acertou 20 itens e errou 10, seu escore T seria de 20. A TCT, então, se pergunta o que significa este 20 para o sujeito? A TRI, por outro lado, não está interessada no escore total em um teste; ela se interessa especificamente por cada um dos 30 itens e quer saber qual é a probabilidade e quais são os fatores que afetam esta probabibilidade de cada item individualmente ser acertado ou errado (em testes de aptidão) ou de ser aceito ou rejeitado (em testes de preferência: personalidade, interesses, atitudes). Dessa forma, a TCT tem interesse em produzir testes de qualidade, enquanto a TRI se interessa por produzir tarefas (itens) de qualidade. No final, então, temos ou testes válidos (TCT) ou itens válidos (TRI), itens com os quais se poderão construir tantos testes válidos quantos se quiser ou o número de itens permitir. Assim, a riqueza na avaliação psicológica ou educacional, dentro do enfoque da TRI, consiste em se conseguir construir armazéns de itens válidos para avaliar os traços latentes, armazéns estes chamados de bancos de itens para a elaboração de um número sem fim de testes.
O modelo da TCT foi elaborado por Spearman e detalhado por Gulliksen(3), o modelo é o seguinte:
T = V + E
Onde,
T = escore bruto ou empírico do sujeito, que é a soma dos pontos obtidos no teste;
V = escore verdadeiro, que seria a magnitude real daquilo que o teste quer medir no sujeito e que seria o próprio T se não houvesse o erro de medida;
E = o erro cometido nesta medida.
Dessa forma, o escore empírico é a soma do escore verdadeiro e do erro e, conseqüentemente, E = T - V, bem como, V = T - E.
A Figura 1 mostra a relação entre estes vários elementos do escore empírico, onde se vê que este é a união do escore verdadeiro (V) e do erro (E), ou seja, o escore empírico ou bruto do sujeito (T resultado no teste, conhecido como o escore tau τ) é constituído de dois componentes: o escore real ou verdadeiro (V) do sujeito naquilo que o teste pretende medir e o erro (E) de medida, este sempre presente em qualquer operação empírica. Em outras palavras, estamos aqui assumindo que, diante do fato de que o escore bruto do sujeito difere do seu escore verdadeiro, esta diferença é devida ao erro ou, melhor, esta diferença é o próprio conceito de erro.
Assim, a grande tarefa da TCT consiste em elaborar estratégias (estatísticas) para controlar ou avaliar a magnitude do E. Os erros são devidos a toda uma gama de fatores estranhos, detalhados por Campbell e Stanley(8), tais como defeitos do próprio teste, estereótipos e vieses do sujeito, fatores históricos e ambientais aleatórios.
Por outro lado, o modelo da TRI trabalha com traços latentes e adota dois axiomas fundamentais:
1) O desempenho do sujeito numa tarefa (item do teste) se explica em função de um conjunto de fatores ou traços latentes (aptidões, habilidades etc.). O desempenho é o efeito e os traços latentes são a causa;
2) A relação entre o desempenho na tarefa e o conjunto dos traços latentes pode ser descrita por uma equação monotônica crescente, chamada de CCI (Função Característica do Item ou Curva Característica do Item) e exemplificada na Figura 2, onde se observa que sujeitos com aptidão maior terão maior probabilidade de responder corretamente ao item e vice-versa (θi é a aptidão e Pi(θ) a probabilidade de resposta correta dada ao item).
Concretamente, a TRI está dizendo o seguinte: você apresenta ao sujeito um estímulo ou uma série de estímulos (tais como, itens de um teste) e ele responde aos mesmos. A partir das respostas dadas pelo sujeito, isto é, analisando as suas respostas aos itens especificados, pode-se inferir sobre o traço latente do sujeito, hipotetizando relações entre as respostas observadas deste sujeito com o nível do seu traço latente. Estas relações podem ser expressas por meio de uma equação matemática que descreve a forma de função que estas relações assumem.
De fato, pode-se imaginar um número ilimitado de modelos matemáticos que podem expressar esta relação, dependendo do tipo de função matemática utilizada e/ou do número de parâmetros que se quer descobrir para o item. Uma preciosa vantagem sobre a teoria clássica que a TRI tem quanto aos modelos que usa consiste em que os modelos utilizados pela TRI permitem desconfirmação. Na verdade, a demonstração da adequação do modelo aos dados (model-data goodness-of-fit) é um passo necessário nos procedimentos desta teoria. Para trabalhar com a TRI são necessários pacotes estatísticos especializados, que já existem em abundância no mercado(ª).
OS PARÂMETROS DOS TESTES: VALIDADE E PRECISÃO
Tanto na TCT quanto na TRI, os dois parâmetros mais importantes de legitimidade de uma medida ou teste são a validade e a precisão.
A validade dos testes
A validade constitui um parâmetro da medida tipicamente discutido no contexto das ciências psicossociais. Ela não é corrente em ciências físicas, por exemplo, embora haja nessas ciências ocasiões em que tal parâmetro se aplicaria. Nestas últimas ciências, a preocupação principal na medida se centra na questão da precisão, a dita calibração dos instrumentos. Esta é importante também na medida em ciências psicossociais, mas ela não tem nada a ver, conceitualmente, com a questão da validade. A razão disto está no fato de que a validade diz respeito ao aspecto da medida ser congruente com a propriedade medida dos objetos e não com a exatidão com que a mensuração, que descreve esta propriedade do objeto, é feita. Em Física, o instrumento é um objeto físico que mede propriedades físicas; então parece fácil se ver que a propriedade do objeto mensurante é ou não congruente com a propriedade do objeto medido. Tome, por exemplo, o caso da propriedade comprimento do objeto. O instrumento que mede esta propriedade (comprimento), isto é, o metro, usa a sua propriedade de comprimento para medir a comprimento de outro objeto; então estamos medindo comprimento com comprimento, tomados estes termos univocamente. Não há necessidade de provar que a propriedade comprimento do metro seja congruente com a mesma propriedade no objeto medido; os termos são unívocos, eles são conceitualmente equivalentes, aliás, idênticos.
O caso já se torna menos claro quando, por exemplo, o astrônomo mede a propriedade velocidade galáctica de aproximação ou afastamento via efeito Doppler, onde a aproximação/afastamento das linhas espectrais da luz da galáxia seria o instrumento da medida. Aqui já temos, na verdade, um problema de validade do instrumento de medida, a saber, é verdade ou não que as distâncias das linhas espectrais têm a ver com a velocidade das galáxias? Pode-se fazer tal suposição, mas ela tem que ser demonstrada empiricamente, de alguma maneira, isto é, pelo menos em suas conseqüências, em hipóteses dela derivadas ou deriváveis e verificáveis. Neste caso específico, o problema da precisão da medida diz respeito à quão exata pode ser feita a mensuração das distâncias entre as linhas espectrais no osciloscópio, ao passo que o de validade diz respeito a se esta medida das distâncias das linhas espectrais, por mais exata e perfeita que ela possa ser, tem algo a ver ou não com a velocidade de afastamento da galáxia. Em outras palavras, a validade em tal caso diz respeito à demonstração da adequação (legitimidade) da representação ou da modelagem da velocidade galáctica via distâncias das linhas espectrais.
Este caso da astronomia ilustra o que tipicamente acontece com a medida em ciências psicossociais e, conseqüentemente, torna a prova da validade dos instrumentos nestas ciências algo fundamental e crucial, ou seja, é uma condição sine qua non demonstrar a validade dos instrumentos nestas ciências. Isto é particularmente o caso nos enfoques que, em Psicologia, trabalham com o conceito de traço latente, onde se deve demonstrar a correspondência (congruência) entre traço latente e sua representação física (o comportamento). Não causa estranheza, portanto, que o problema de validade tenha tido, na história da Psicologia, uma posição central na teoria da medida, constituindo-se, na verdade, no seu parâmetro fundamental e indispensável.
Nos manuais de Psicometria, costuma-se definir a validade de um teste dizendo que ele é válido se de fato mede o que supostamente deve medir. Embora esta definição pareça uma tautologia, na verdade ela não é, considerada a teoria psicométrica que admite o traço latente. O que se quer dizer com esta definição é que, ao se medirem os comportamentos (itens), que são a representação física do traço latente, está-se medindo o próprio traço latente. Tal suposição é justificada se a representação comportamental for legítima. Esta legitimação somente é possível se existir uma teoria prévia do traço que fundamente que a tal representação comportamental constitui uma hipótese dedutível desta teoria. A validade do teste (este constituindo a hipótese), então, será estabelecida pela testagem empírica da verificação da hipótese. Pelo menos, esta é a metodologia científica. Assim, fica muito estranha a prática corrente na Psicometria de se agrupar intuitivamente uma série de itens e, a posteriori, verificar estatisticamente o que eles estão medindo. A ênfase na formulação da teoria sobre os traços foi muito fraca no passado; com a influência da Psicologia Cognitiva esta ênfase felizmente está voltando ou deverá voltar ao seu devido lugar na Psicometria.
Aliás, a Psicometria clássica entende por aquilo que supostamente deve medir como sendo o critério, este representado por teste paralelo. Assim, este aquilo que é o traço latente na concepção cognitivista da Psicometria e é o critério (escore no teste paralelo) na visão comportamentalista.
O processo de validação de um teste
inicia com a formulação de definições detalhadas do traço ou construto, derivadas da teoria psicológica, pesquisa anterior, ou observação sistemática e análises do domínio relevante do comportamento. Os itens do teste são então preparados para se adequarem às definições do construto. Análises empíricas dos itens seguem, selecionando-se finalmente os itens mais eficazes (i.é., válidos) da amostra inicial de itens(9).
A validação da representação comportamental do traço, isto é, do teste, embora constitua o ponto nevrálgico da Psicometria, apresenta dificuldades importantes que se situam em três níveis ou momentos do processo de elaboração do instrumento, a saber, ao nível da teoria, da coleta empírica da informação e da própria análise estatística da informação.
No nível da teoria se concentram talvez as maiores dificuldades. Na verdade, a teoria psicológica se encontra ainda em estado embrionário, destituída quase que totalmente de qualquer nível de axiomatização, resultando disto uma pletora de teorias, muitas vezes até contraditórias. Basta lembrar de teorias como behaviorismo, psicanálise, psicologia existencialista, psicologia dialética e outras, que, existindo simultaneamente, postulam princípios irredutíveis entre as várias teorias e pouco concatenados dentro de uma mesma teoria ou, então, em número insuficiente para se poder deduzir hipóteses úteis para o conhecimento psicológico. Havendo esta confusão no campo teórico dos construtos, torna-se extremamente difícil para o psicometrista operacionalizar estes mesmos construtos, isto é, formular hipóteses claras e precisas para testar ou, então, formular hipóteses psicologicamente úteis. Ainda quando a operacionalização for um sucesso, a coleta da informação empírica não será isenta de dificuldades, como, por exemplo, a definição inequívoca de grupos critérios onde estes construtos possam ser idealmente estudados. Mesmo ao nível das análises estatísticas encontramos problemas. Pela lógica da elaboração do instrumento, a verificação da hipótese da legitimidade da representação dos construtos se faz por análises do tipo da análise fatorial (confirmatória), que procura identificar, nos dados empíricos, os construtos previamente operacionalizados no instrumento. Mas, acontece que a análise fatorial faz algumas postulações fortes que nem sempre se coadunam com a realidade dos fatos. Por exemplo, a análise fatorial assume que as respostas dos sujeitos aos itens do instrumento são determinadas por uma relação linear destes com os traços latentes. Há, ainda, o grave problema da rotação dos eixos, a qual permite a demonstração de um número sem fim de fatores para o mesmo instrumento(10).
Diante destas dificuldades, os psicometristas recorrem a uma série de técnicas para viabilizar a demonstração da validade dos seus instrumentos. Fundamentalmente, estas técnicas podem ser reduzidas a três grandes classes (o modelo trinitário): técnicas que visam a validade de construto, validade de conteúdo e validade de critério(11-12).
A validade de construto ou de conceito é considerada a forma mais fundamental de validade dos instrumentos psicológicos e com toda a razão, dado que ela constitui a maneira direta de verificar a hipótese da legitimidade da representação comportamental dos traços latentes e, portanto, se coaduna exatamente com a teoria psicométrica aqui defendida. Historicamente, o conceito de construto entrou na Psicometria por meio da American Psychological Association Committee on Psychological Tests que trabalhou entre 1950 e 1954 e cujos resultados se tornaram as recomendações técnicas para os testes psicológicos(12).
O conceito de validade de construto foi elaborado com o já clássico artigo de Cronbach e Meehl(13)Construct validity in psychological tests, embora o conceito já tivesse uma história sob outros nomes, tais como validade intrínseca, validade fatorial e até validade aparente (face validity). Estas várias terminologias demonstram a confusa noção que construto possuía. Embora tenham tentado clarear o conceito de validade de construto, Cronbach e Meehl ainda o definem como a característica de um teste enquanto mensuração de um atributo ou qualidade, o qual não tenha sido definido operacionalmente(13). Reconhecem, entretanto, que a validade de construto reclamava por um novo enfoque científico. De fato, definir esta validade do modo que eles a definiram parece um pouco estranho em ciência, dado que conceitos não definidos operacionalmente não são suscetíveis de conhecimento científico. Conceitos ou construtos são cientificamente pesquisáveis somente se forem, pelo menos, passíveis de representação comportamental adequada. Do contrário, serão conceitos metafísicos e não científicos. O problema está em que, sintetizando a atitude geral dos psicometristas da época, para definir validade de construto, os autores partiram do teste, isto é, da representação comportamental, em vez de partir da teoria psicométrica que se fundamenta na elaboração da teoria do construto (dos traços latentes). O problema não é descobrir o construto a partir de uma representação existente (teste), mas sim descobrir se a representação (teste) constitui uma representação legítima, adequada, do construto. Este enfoque exige uma colaboração, bem mais estreita do que existe, entre psicometristas e Psicologia Cognitiva(14). A validade de construto de um teste pode ser trabalhada sob vários ângulos: a análise da representação comportamental do construto, a análise por hipótese, a curva de informação da TRI(15-16).
A validade de critério de um teste consiste no grau de eficácia que ele tem em predizer um desempenho específico de um sujeito. O desempenho do sujeito torna-se, assim, o critério contra o qual a medida obtida pelo teste é avaliada. Evidentemente, o desempenho do sujeito deve ser medido/avaliado por meio de técnicas que são independentes do próprio teste que se quer validar.
Costuma-se distinguir dois tipos de validade de critério: (1) validade preditiva e (2) validade concorrente. A diferença fundamental entre os dois tipos é basicamente uma questão do tempo que ocorre entre a coleta da informação pelo teste a ser validado e a coleta da informação sobre o critério. Se estas coletas forem (mais ou menos) simultâneas, a validação será do tipo concorrente; caso os dados sobre o critério sejam coletados após a coleta da informação sobre o teste, fala-se em validade preditiva. O fato de a informação ser obtida simultaneamente ou posteriormente à do próprio teste não é um fator tecnicamente relevante à validade do teste. Relevante, sim, é a determinação de um critério válido. Aqui se situa precisamente a natureza central deste tipo de validação dos testes, a saber: (1) definir um critério adequado e (2) medir, válida e independentemente do próprio teste, este critério.
Quanto à adequação dos critérios, pode-se afirmar que há uma série destes que são normalmente utilizados quais sejam:
1) Desempenho acadêmico. Talvez seja ou foi o critério mais utilizado na validação de testes de inteligência. Consiste na obtenção do nível de desempenho escolar dos alunos, seja através das notas dadas pelos professores, seja pela média acadêmica geral do aluno, seja pelas honrarias acadêmicas que o aluno recebeu ou seja, mesmo, pela avaliação puramente subjetiva dos alunos em termos de inteligente por parte dos professores ou colegas. Embora seja amplamente utilizado, este critério tem igualmente sido muito criticado, não em si mesmo mas pela deficiência que ocorre na sua avaliação. É sobejamente sabida a tendenciosidade por parte dos professores em atribuir as notas aos alunos, tendenciosidade nem sempre consciente, mas decorrente de suas atitudes e simpatias em relação a este ou aquele aluno. Esta dificuldade poderia ser sanada até com certa facilidade, se os professores tivessem o costume de aplicar testes de rendimento que possuíssem validade de conteúdo, por exemplo. Como esta tarefa é dispendiosa, o professor tipicamente não se dá ao trabalho de validar (validade de conteúdo) suas provas acadêmicas.
Neste contexto, é também utilizado como critério de desempenho acadêmico o nível escolar do sujeito: sujeitos mais avançados, repetentes e evadidos. A suposição sendo de que quem continua regularmente ou está avançado academicamente em relação à sua idade possui mais habilidade. Evidentemente, nesta história não entra somente a questão da habilidade, mas muitos outros fatores sociais, de personalidade, etc., tornando este critério bastante ambíguo e espúrio.
2) Desempenho em treinamento especializado. Trata-se do desempenho obtido em cursos de treinamento em situações específicas, como no caso de músicos, pilotos, atividades mecânicas ou eletrônicas especializadas, etc. No final deste treinamento há tipicamente uma avaliação, a qual produz dados úteis para servirem de critério de desempenho do aluno. As observações críticas feitas ao ponto 1) valem também neste parágrafo.
3) Desempenho profissional. Trata-se, neste caso, de comparar os resultados do teste com o sucesso/fracasso ou o nível de qualidade do sucesso dos sujeitos na própria situação de trabalho. Assim, um teste de habilidade mecânica pode ser testado contra a qualidade de desempenho mecânico dos sujeitos na oficina de trabalho. Evidentemente continua a dificuldade de levantar adequadamente a qualidade deste desempenho dos sujeitos em serviço.
4) Diagnóstico psiquiátrico. Muito utilizado para validar testes de personalidade/psiquiátricos. Os grupos-critério são aqui formados em termos da avaliação psiquiátrica que estabelece grupos clínicos: normais vs. neuróticos, psicopatas vs. depressivos, etc. Novamente, a dificuldade continua sendo a adequação das avaliações psiquiátricas feitas pelos psiquiatras.
5) Diagnóstico subjetivo. Avaliações feitas por colegas e amigos podem servir de base para estabelecer grupos-critério. É utilizada esta técnica, sobretudo, em testes de personalidade, onde é difícil encontrar avaliações mais objetivas. Assim, os sujeitos avaliam seus colegas em categorias ou dão escores em traços de personalidade (agressividade, cooperação, etc.), baseados na convivência que eles têm com os colegas. Nem precisa mencionar as dificuldades enormes que tais avaliações apresentam em termos de objetividade; contudo, a utilização de um grande número de juizes poderá diminuir os vieses subjetivos nestas avaliações.
6) Outros testes disponíveis. Os resultados obtidos por meio de outro teste válido, que prediga o mesmo desempenho que o teste a ser validado, servem de critério para determinar a validade do novo teste. Aqui fica a pergunta óbvia: para que criar outro teste se já existe um que mede validamente o que se quer medir? A resposta se baseia numa questão de economia, isto é, utilizar um teste que demanda muito tempo para ser respondido ou apurado como critério para validar um teste que gaste menos tempo.
No caso deste tipo de validade, é preciso atender a duas situações bastante distintas. Primeiramente, quando existem testes comprovadamente validados para a medida de algum traço, eles certamente constituem um critério contra o qual se pode com segurança validar um novo teste. Entretanto, quando não existem testes aceitos como definitivamente validados para avaliar algum traço latente, a utilização desta validação concorrente é extremamente precária. Esta situação infelizmente é a mais comum. De fato, nós temos testes para medir praticamente não importa o quê, como atestam os Buro's Mental Measurement Yearbooks, que são publicados periodicamente com centenas e milhares de testes psicológicos existentes no mercado. Neste caso, pode-se utilizar estes testes como critérios de validação, mas o risco é demasiadamente grande, porque se está utilizando como critério testes cuja validade é pelo menos duvidosa.
Pode-se concluir que a validade concorrente só faz sentido se existirem testes comprovadamente válidos que possam servir de critério contra o qual se quer validar um novo teste e que este novo teste tenha algumas vantagens sobre o antigo (como, por exemplo, economia de tempo etc.). Uma pergunta frustrante fica ao final desta exposição sobre validade de critério. Se o pesquisador empregou toda a sua habilidade para construir um teste sob as condições de maior controle possível, por que iria ele validar esta tarefa-teste contra medidas inferiores, representadas pela medida dos vários critérios aqui apresentados. Justifica-se validar medidas supostamente superiores por medidas inferiores?(17). Com as críticas de Thurstone em 1952 e sobretudo de Cronbach e Meehl em 1955(13,18), a validade de critério deixou de ser a técnica panacéia de validação dos testes psicológicos em favor da validade de construto. Contudo, estes critérios podem ser considerados bons e úteis para fins de validação de critério. A grande dificuldade em quase todos eles se situa na demonstração da adequação da medida deles; isto é, em geral, a medida dos mesmos é precária, deixando, por isso, muita dúvida quanto ao processo de validação do teste. Entretanto, há exemplos famosos de testes validados através deste método, como é o caso do MMPI.
A validade de conteúdo de um teste consiste em verificar se o teste constitui uma amostra representativa de um universo finito de comportamentos (domínio). É aplicável quando se pode delimitar a priori e com clareza um universo de comportamentos, como é o caso em testes de desempenho, que pretendem cobrir um conteúdo delimitado por um curso programático específico(11).
A precisão dos testes
O parâmetro da precisão ou da fidedignidade dos testes vem referenciado sob uma série elevada e heterogênea de nomes. Alguns destes nomes resultam do próprio conceito deste parâmetro, isto é, eles procuram expressar o que ele de fato representa para o teste. Estes nomes são, principalmente, precisão, fidedignidade e confiabilidade. Outros nomes deste parâmetro resultam mais diretamente do tipo de técnica utilizada na coleta empírica da informação ou da técnica estatística utilizada para a análise dos dados empíricos coletados. Entre estes nomes, podemos relacionar os seguintes: estabilidade, constância, equivalência, consistência interna.
A fidedignidade ou a precisão de um teste diz respeito à característica que ele deve possuir, a saber, a de medir sem erros, donde os nomes precisão, confiabilidade ou fidedignidade. Medir sem erros significa que o mesmo teste, medindo os mesmos sujeitos em ocasiões diferentes, ou testes equivalentes, medindo os mesmos sujeitos na mesma ocasião, produzem resultados idênticos, isto é, a correlação entre estas duas medidas deve ser de 1. Entretanto, como o erro está sempre presente em qualquer medida, esta correlação se afasta tanto do 1 quanto maior for o erro cometido na medida. A análise da precisão de um instrumento psicológico quer mostrar precisamente o quanto ele se afasta do ideal da correlação 1, determinando um coeficiente que, quanto mais próximo de 1, menos erro o teste comete ao ser utilizado.
O problema da fidedignidade dos testes era tema preferido da psicometria clássica, onde a parafernália estatística de estimação deste parâmetro mais se desenvolveu, mas ele perdeu muito em importância dentro da psicometria moderna em favor do parâmetro de validade. De qualquer forma, dentro da TCT o coeficiente de fidedignidade, rtt, é definido estatisticamente como a correlação entre os escores dos mesmos sujeitos em duas formas paralelas de um teste, T1 e T2. Assim o coeficiente de fidedignidade se define como função da covariância [Cov(T1,T2)] entre as formas do teste pelas variâncias ( e ) das mesmas, isto é, rtt =
onde,
rtt : coeficiente de fidedignidade
: Variância verdadeira do teste
: Variância total do teste.
Praticamente, existem duas grandes técnicas estatísticas para decidir a precisão de um teste, ou seja, a correlação e a análise da consistência interna.
A técnica da correlação é utilizada no caso do teste reteste e das formas paralelas de um teste. Nestes casos temos os resultados dos mesmos sujeitos submetidos ao mesmo teste em duas ocasiões diferentes ou respondendo a duas formas paralelas do mesmo teste. O índice de precisão, neste caso, consiste simplesmente na correlação bivariada entre os dois escores dos mesmos sujeitos.
Para o caso da análise da consistência interna existe uma parafernália complexa de técnicas estatísticas, que finalmente se reduzem a duas situações: a divisão do teste em parcelas - mais comumente em duas metades - com a subseqüente correção pela fórmula de predição de Spearman-Brown, e as várias técnicas do coeficiente alfa, sendo o mais conhecido o alfa de Cronbach. Nesses casos, existe a aplicação de somente um teste numa única ocasião; as análises consistem em verificar a consistência interna dos itens que compõem o teste. Trata-se, portanto, de uma estimativa da precisão, cuja lógica é a seguinte: se os itens se entendem, isto é, covariam, numa dada ocasião, então irão se entender em qualquer ocasião de uso do teste.
CONCLUSÃO
Para assegurar que os testes apresentem os parâmetros de qualidade cientificamente exigidos, a American Psychological Association (APA) estabeleceu os Standards for Educational and Psychological Testing, tendo várias edições a partir de 1985.
Correspondência:
Luiz Pasquali
Campus Darci Ribeiro, ICC Sul
LabPAM, sala AI-096
Plano Piloto - Asa Norte
CEP 70910-900- Brasília, DF, Brasil
Recebido: 15/06/2008
Aprovado: 15/12/2008
(a
) Dois muito utilizados são o BILOG para testes de aptidão e o PARSCALE para testes de personalidade.
1. Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677-80.
On the Theory of Scales of Measurement
Science
1946
677
80
2684
103
Stevens
SS
2. Whitehead AN, Russell B. Principia mathematica. Cambridge: Cambridge University Press; 1910-1913, 1965. 3 v.
Principia mathematica
1965
Whitehead
AN
Russell
B
3. Gulliksen H. Theory of mental tests. New York: Wiley; 1950.
Theory of mental tests
1950
Gulliksen
H
4. Lord FM. A theory of test scores. Iowa (IA): Psychometric Society; 1952. (Psychometric Monograph, n. 7).
A theory of test scores
1952
Lord
FM
5. Rasch G. Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research and St. Paul; 1960.
Probabilistic models for some intelligence and attainment tests
1960
Rasch
G
6. Birnbaum A. Some latent trait models and their use in inferring and examinee's ability. In: Loed FM, Lord MR. Novick, statistical theories of mental test scores. Reading: Addison Wesley; 1968. p.17-20.
Novick, statistical theories of mental test scores
1968
17
20
Birnbaum
A
Loed
FM
Lord
MR
7. Lord FM. Applications of item response theory to practical testing problems. Hillsdale: Erlbaum; 1980.
Applications of item response theory to practical testing problems
1980
Lord
FM
8. Campbell DT, Stanley J. Experimental and quasi-experimental designs for research. Skokie: Rand McNally; 1973.
Experimental and quasi-experimental designs for research
1973
Campbell
DT
Stanley
J
9. Anastasi A. Evolving concepts of test validation. Ann Rev Psychol. 1986;37(1):1-15.
Evolving concepts of test validation
Ann Rev Psychol
1986
1
15
1
37
Anastasi
A
10. Pasquali L, organizador. Instrumentos psicológicos: manual prático de elaboração. Brasília: LabPAM/IBAPP; 1999.
Instrumentos psicológicos: manual prático de elaboração
1999
Pasquali
L
11. Pasquali L. Análise fatorial para pesquisadores. Porto Alegre: Artmed; 2005.
Análise fatorial para pesquisadores
2005
Pasquali
L
12
12. American Psychological Association (APA).Technical recommendations for psychological tests and diagnostic techniques. Washington; 1954.
Technical recommendations for psychological tests and diagnostic techniques
1954
13. Cronbach LJ, Meehl PE. Construct validity in psychological tests. Psychol Bull. 1955;52(4):281-302.
Construct validity in psychological tests
Psychol Bull
1955
281
302
4
52
Cronbach
LJ
Meehl
PE
14. Pasquali L.Validade dos testes psicológicos: será possível reencontrar o caminho? Psicol Teor Pesq. 2007; 23 (n.esp):99-107.
Validade dos testes psicológicos: será possível reencontrar o caminho?
Psicol Teor Pesq
2007
99
107
esp
23
Pasquali
L
15. Pasquali L. Psicometria: teoria dos testes na psicologia e na educação. Petrópolis: Vozes; 2004.
Psicometria: teoria dos testes na psicologia e na educação
2004
Pasquali
L
16. Pasquali L. TRI - Teoria de Resposta ao Item: teoria, procedimentos e aplicações. Brasília: LabPAM/UnB; 2007.
TRI: Teoria de Resposta ao Item: teoria, procedimentos e aplicações
2007
Pasquali
L
17. Ebel RL. Must all tests be valid? Am Psychol. 1961;16 (10):640-7.
Must all tests be valid?
Am Psychol
1961
640
7
10
16
Ebel
RL
18. Thurstone LL.The criterion problem in personality research. Chicago: University of ChicagoPress; 1952.
The criterion problem in personality research
1952
Thurstone
LL
Psychometrics
Psychometrics has foundations on the theory of measurement in Sciences and is aimed at explaining the meaning of responses provided by subjects submitted to a series of tasks, and proposing techniques for the measurement of mental processes. This article presents concepts and models of modern psychometrics and discusses the validity and reliability parameters of the applied tests.
Psychometrics
Reproducibility of results
Validity of tests
Validation studies
ORIGINAL ARTICLE
Psychometrics
Psicometría
Luiz Pasquali
Researcher Professor Associated with the University of Brasilia. Brasilia, DF, Brazil. luiz.pasquali@pq.cnpq.br
Correspondence addressed to
ABSTRACT
Psychometrics has foundations on the theory of measurement in Sciences and is aimed at explaining the meaning of responses provided by subjects submitted to a series of tasks, and proposing techniques for the measurement of mental processes. This article presents concepts and models of modern psychometrics and discusses the validity and reliability parameters of the applied tests.
Key words: Psychometrics. Reproducibility of results. Validity of tests. Validation studies.
RESUMEN
La Psicometría se fundamenta en la teoría de la medida en las ciencias buscando explicar el sentido en las respuestas de los que fueron sujetos a una serie de tareas, además de proponerse técnicas de medida de sus procesos mentales. En este artículo son presentados los conceptos y modelos de psicometría moderna, así como son discutidos los parámetros de validez y precisión de los testes.
Descriptores: Psicometría. Reproducibilidad de resultados. Validez de las pruebas. Estudios de validación.
INTRODUCTION
Measurement in psychosocial sciences
Psychometrics is etymologically represented as the theory and technique of measuring mental processes, and is especially applied in the fields of psychology and education. It is grounded in the general theory of measurement in sciences, or else, in the quantitative method whose major characteristic is the fact that it represents the knowledge of nature in a more precise way in comparison with the application of common language to describe the observation of natural phenomena.
Psychometrics historically stems from the psychophysics of the Germans Ernst Heinrich Weber and Gustav Fechner. The British Francis Galton also contributed to the development of psychometrics by creating tests to measure mental processes; by the way, he is considered as the creator of psychometrics. However, it was the inventor of the multiple factorial analyses, Leon Louis Thurstone, who enlivened psychometrics, making it different from psychophysics. Psychophysics was defined as the measurement of directly observed processes, or in other words, the organism's stimulus and response, while psychometrics consists in measuring the organism's behavior by means of mental processes (law of comparative judgment).
Measurement in sciences has raised diatribes among researchers, particularly in the field of social sciences. Nonetheless, the most accepted definition among researchers was given by Stanley Smith Stevens in 1946. He used to say that to measure meant to assign numbers to objects and events in accordance with given rules(1). The assignment rules to such numbers are defined by the proposal of the same author concerning the four measurement levels or measurement typologies, which are: nominal, ordinal, interval, and ratio.
The nominal measurement is the one that applies numbers to nature phenomena, keeping exclusively the axioms of number identity, that is, the number is employed only as a numeric or graphic symbol. When applying the number, the ordinal typology saves the axioms of order, that is to say, the major characteristics of the number, or its magnitude (by definition, a given number is greater or smaller than, not only different from or better than the other exactly because its value is intrinsically higher or lower than any other). The other typologies point to axioms of additionality. The axiom history was detailed by Whitehead and Russell between 1910 and 1913, and again in 1965, in their book Principia Mathematica, where they describe the 27 famous axioms of the mathematical number(2).
PSYCHOMETRICS: CONCEPT AND MODELS
Modern psychometrics can be traced back to two sources: the classical test theory (CTT), and the item response theory (IRT). CTT has been axiomatized by Gulliksen(3) and IRT was initially elaborated by Lord(4) and Rasch(5), and finally axiomatized by Bimbaum(6) and Lord(7).
In a general sense, psychometrics attempts to explain the meaning of responses given by subjects in a series of tasks typically named as items. The CTT is aimed at explaining the total final result, that is, the sum of responses provided to a series of items, expressed by the so-called total score (S). For instance, the S in a test of 30 capability items would be the sum of correctly responded items. If the value of 1 were given to each correct item and 0 to each incorrect one, and the subject reached 20 correctly and 10 incorrectly responded items, this person's score S would be 20. The CTT, then, asks itself: what does this total 20 mean to the subject? The IRT, on the other hand, is not interested in the test total score; it is specifically aimed at each one of the 30 items and wants to know what the probability is and what the factors that influence this probability are regarding every individual item's correctness and incorrectness (in capability tests) or acceptance or rejection (in preference tests: personality, interests, attitudes). In such a way, the CTT is interested in producing quality tests, while the IRT is focused on developing quality tasks (items). At the end, therefore, we have either valid tests (CTT) or valid items (IRT), and those results will build as many valid tests as desired, or the amount of tests allowed by the items. Thus, the richness of the psychological or educational assessment within the IRT's scope of action consists in building store rooms of valid items that evaluate latent traits - these store rooms are called item bank, aimed at elaborating countless numbers of tests.
The CTT model was elaborated by Spearman and detailed by Gulliksen, as follows:
T = TS + E
where,
T = subject's total or empirical score, which is the sum of all items achieved by the test;
TS = true score, which is the real magnitude of what the test wants to measure in the subject; that score will be the S itself, in case there is no measurement error;
E = the error of the measurement.
In this way, the empirical score is the sum of the true score and the error; consequently, E = T TS, and TS = T E.
Figure 1 shows the relationship among these various elements of the empirical score, where the union between the true (TS) and the error (ES) score can be observed; that is to say, the subject's empirical or gross score (T test result known as the Tau score - τ) is comprised of two components: the subject's real or true score (TS) in what the test intends to measure, and the error score (ES) of the measurement, which is always present in any empirical operation. In other words, we are assuming here that as the subject's gross score differs from his true score, it is the error that accounts for such a disparity; this difference, then, is the error's concept itself.
Hence, the CTT's ultimate challenge is to elaborate strategies (statistical ones) to either control or evaluate E's magnitude. Errors are provoked by a wide range of alien factors identified by Campbell and Stanley(8), such as the test's own deficiencies, stereotypes and biases of the subject, historical factors, and random historical and environmental factors.
On the other hand, the IRT model works with latent traits and adopts two fundamental axioms:
The subject's performance in a task (test item) is explained by a set of factors or latent traits (capabilities, skills, etc.). The performance is the effect; latent traits are the cause.
The relationship between the performance in a task and the set of latent traits can be described by a crescent monotonic equation called ICC (Item Characteristic Function or Item Characteristic Curve). It is exemplified in Figure 2, which shows that subjects with higher capability will most probably respond correctly to the item and vice-versa (θi is the capability and Pi(θ) the correct response probability given to the item).
The IRT is concretely affirming the following: the subject is given a stimulus or a series of stimuli (such as, items of a test) and he/she responds to it/them. From the responses provided by the subject, that is, taking into account the analysis of his/her responses to the specified items, we can deduce on the subject's latent trait, hypothesizing relationships between the subject's observed responses and the level of his/her latent trait. These relationships can be expressed by means of a mathematical equation that describes the type of function taken on by these relationships.
In fact, only a limited number of mathematical models are able to express such relationships, depending on the type of applied mathematical function and/or the number of parameters that one wants to find out for the item. A remarkable advantage IRT has over the classical theory concerning the models it uses is that the models employed by the IRT allow for disconfirmation. In effect, the demonstration of compatibility between the model and the data (model-data goodness-of-fit) is a necessary step towards this theory's procedures. Specialized statistical packages are made necessary in order to perform the IRT, as they are abundant in the market()ª.
TEST PARAMETERS: VALIDITY AND RELIABILITY
The two most important parameters of measurement or test legitimacy used both by the CTT and the IRT are the validity and reliability.
Test validity
In the context of psychosocial sciences, validity is a typically discussed measurement parameter. It is not a typical issue in physical sciences, although the parameter would be applicable in certain physical situations. The physical sciences' major concern is centered on the issue of reliability, or the so-called instrument calibration. This measurement issue is also relevant to psychosocial sciences, although it conceptually has nothing to do with the validity issue.
This is because validity refers to the congruence between the instrument being used for measurement and the property under evaluation and not regarding the accuracy that describes the object's property. In physics, the instrument is a physical object that measures physical properties; then, it seems easy to acknowledge whether or not the object's measuring property is congruous with the measured object's property. Take the object's length property, for example. The instrument that measures this property (length), the meter, applies its length property in order to measure another object's length; so, we are not matching length with length as univocal terms. There is no need to prove that the meter's length property is congruous with the same property in the measured object; terms are univocal, conceptually equivalent, and identical.
It is less clear, however, when the astronomer measures the galactic speed property of approximation or withdrawal via Doppler Effect, where approximation/withdrawal of the galaxy's light spectral lines would be the measurement instrument. Here, we actually have a problem to validate the measurement instrument; the question is: is it or is it not true that spectral line distances have to do with the speed of galaxies? Such an inference can be made, but it has to somehow be empirically demonstrated, that is, at least its consequences should be indicated, as well as all the derived, derivable, or verifiable hypotheses. In this specific case, the problem of measurement precision is related to the preciseness of the distance measurements of the oscilloscope's spectral lines, whereas the validity is related to whether or not the measurement of spectral line distances, regardless its accuracy and perfection, has something to do with the galaxy's withdrawal speed. In other words, the validity in such case refers to the demonstration of compatibility (legitimacy) in the representation or modeling of galactic speed via spectral line distances.
This astronomy case illustrates what typically occurs with psychosocial sciences measurements, and consequently turns the evidence of instrument validity in these sciences into an essential and crucial aspect; to show the validity of instruments in these sciences is a sine qua non condition. This is particularly the case of the above-mentioned focuses that deal with the psychological concept of latent trait, where the correspondence (congruence) between latent trait and its physical representation (behavior) must be demonstrated. It is not incidental, therefore, that the problem of validity has taken a central role in the measurement theory in the history of psychology; in fact, it is its basic and indispensable parameter.
Psychometrics manuals usually define the validity of any given test by certifying whether or not the test measures what it is supposed to measure. Although this definition may sound like a tautology, when the psychometric theory that admits the latent trait is taken into account it proves to be not. This definition clearly states that whenever behaviors (items) are measured - and behaviors are the physical representation of the latent trait - the latent trait itself is being measured. This supposition is only possible when an existing previous trait theory supports the behavioral representation as a deductible hypothesis for the theory. The test validity (the hypothesis), therefore, will be established by the empirical testing of the hypothesis verification. At any rate, this is the scientific methodology. Hence, the current psychometrics practice of intuitively grouping a series of items and statistically verifying a posteriori what they are measuring becomes quite unusual. The emphasis in the formulation of the trait theory used to be quite weak in the past; under the influence of the cognitive psychology, psychometrics is fortunately retaking this emphasis, bringing it back to its relevant place.
The classical psychometrics, by the way, understands what supposedly has to be measured as the criterion, which is represented by a parallel test. Thus, the what is the latent trait in the cognitivistic conception of psychometrics, and it is the criterion (score in the parallel test) in the behavioralist perspective.
The validation process of any given test
begins with the formulation of detailed definitions of specific traits or constructs, derived from psychological theory, previous research, or systematic observation and analysis of the relevant domains of behavior. The items of the test, then, are prepared in order to fit the construct's definitions. Next, empirical analysis of the items are implemented, and the more efficient (i.e., valid) items are finally selected from the initial sample of items(9).
Although it constitutes the core point of psychometrics, the validation of the trait's behavioral representation, or the test's representation, brings about significant difficulties that are located in three levels in the process of elaborating the instrument, namely: the theory level, the information empirical collection level, and the statistical analysis of information properly said.
The most significant difficulties are probably centered at the level of theory. As a matter of fact, the psychological theory is still found in an embryonic state, and so it virtually lacks any level of axyomatization. As a result, a wide scope of theories arises, even contradictory ones. It is worth remembering that we have several theories, such as behaviorism, psychoanalysis, existentialist psychology, dialectical psychology, and others; when existing simultaneously, they postulate irreducible principles among the various theories; they also can weakly combine principles within the same theory, or even present an insufficient aspect that is unable to develop useful hypothesis for the psychological knowledge. This confused perspective takes place in the theoretical field of the constructs, that is, in the formulation of clear and accurate hypothesis to either test or postulate useful psychological hypothesis. Even when there is success in the operationalization process, the empirical data collection will not be exempt of difficulties, such as, for example, the unequivocal definition of criteria groups where these constructs can be ideally studied. Problems are found even at the level of the statistical analysis. According to the elaboration logic of the instrument, the hypothetical verification of the construct's representation legitimacy is performed by means of analyses such as the factorial analysis (confirmatory), which attempts to identify the previously operationalized constructs of the instrument in the empirical data. But, the factorial analysis happens to make some strong postulations that not always match the reality of facts. For instance, the factorial analysis assumes that subjects' responses to the instrument's items are determined by a linear relationship these subjects have with the latent traits. The rotation of axles is another serious problem, allowing for countless numbers of factors related to the same instrument(10).
Having these difficulties in mind, psychometricists call upon a series of techniques in order to make possible the demonstration of the instrument's validation. These techniques can essentially be reduced to three large classes (the trinitarian model): construct validation; content validation; and criterion validation(11,12).
The construct validation, or concept validation, is deemed as the most fundamental form of validating psychological instruments, and this is quite reasonable, since it constitutes the direct way of verifying the hypothesis of the behavioral representation legitimacy of latent traits; therefore, it is connected with the psychometrics theory defended here. Historically, the construct concept was inserted into psychometrics through the American Psychological Association Committee on Psychological Tests, which functioned between 1950 and 1954, and whose results later became technical recommendations for psychological tests(12).
The concept of construct validity was elaborated by the classical article by Cronbach and Meehl(13), Construct validity in psychological tests, although the concept was already part of history under other names, such as intrinsic validity, factorial validity, and face validity. These various terms show the confusing notion expressed by constructs. In spite of the fact that Cronbach and Meehl attempted to clarify the concept of construct validity, they still define them as the characteristic that any test has of measuring an attribute or quality that has not been operationally defined(13). They recognize, however, that the construct validity required a new scientific focus. In fact, to define validity as they did sounds a bit uncommon to sciences, as operationally non-defined concepts are not susceptible to scientific knowledge. Concepts or constructs are scientifically researchable only when they are liable for adequate behavioral representation. Otherwise, they will only be metaphysical, non-scientific concepts. The problem stemming from the general synthetic attitude of psychometricists of then is that whenever the construct validity had to be defined, the researchers started from the test, that is, from the behavioral representation, instead of beginning with the psychometric theory grounded on the elaboration of the construct's theory (or the latent trait theory). The obstacle is not to identify the construct from any existing representation (test), but to find out whether or not the representation (test) constitutes a legitimate, adequate representation of the construct. This focus demands quite a close collaboration between psychometricists and the cognitive psychology(14). The construct validity of any given test can be dealt with in several angles: the construct's behavioral representation analysis; the hypothetical analysis; and the IRT's information curve(15-16).
The criterion validity of a test consists of the efficiency level it has to predict the specific performance of a subject. The subject's performance thus becomes the criterion against which the measurement achieved by the test is assessed. The subject's performance must obviously be measured/assessed through techniques that are independent on the planned test itself.
There are two distinctions for a test's criterion validity: (1) predictive validity, and (2) concurrent validity. The core difference between both is basically the matter of time between the information collection of the test to be validated, and the information collection of the criterion. If both collections are performed almost simultaneously, the result will be a concurrent validity; if the data about the criterion are collected after the test's information collection, the result will be the predictive validity. The fact that the information is simultaneously reached, or reached further to the test itself, is not a technically relevant factor towards the validity of the test. The relevance is located in the determination of a valid criterion. Here the central nature of this type of test validation is situated, as follows: (1) to define an adequate criterion, and (2) to measure the criterion in a valid, independent way, regardless the test itself.
As per the criteria adjustment, we can affirm that there is a series of them that are usually employed, such as:
1) Academic performance. Perhaps this used to be, or still is the most applied criterion to validate intelligence tests. It consists in the achievement of the students' school performance by means of teachers' grades, by the students' general academic average, by the academic honors received by students, or even by the teachers' or colleagues' purely subjective assessment regarding these students' intelligence. Despite being broadly used, this criterion has been similarly quite criticized mainly due to the deficiency of its assessment process. It is widely known that teachers are generally tendentious in attributing grades to students; this bias is not always a conscious act, but it stems from their attitudes and sympathies towards this or that student. Teachers could overcome this challenge quite easily if they were used to apply performance tests based on content validity, for instance. As this is quite a laborious task, teachers typically do not make efforts towards validating (content validity) the students' academic tests.
In this context, the subject's schooling level is also applied as an academic performance criterion: advanced, repeating, and dropping out subjects. Supposedly, those who keep a regular study, or those who are academically advanced proportionally to their ages have more intelligence. Evidently, not only the issue of intelligence must be worked out in this argument, but also several other social factors, personality aspects, etc., which makes this quite an ambiguous, deceitful criterion.
2) Performance in specialized training. It refers to the performance obtained in training courses under specific situations (musicians, pilots, mechanical or specialized electronic activities, etc.). At the end of this training process a typical assessment takes place, producing useful data that will serve as criteria for the students' performance. The critical observations uttered for point 1 are also replicable in this paragraph.
3) Professional performance. In this case, test outcomes are compared with the subjects' success/failure, or their quality level in the work environment. Hence, a test of mechanical ability can be implemented against the mechanical performance of subjects in a given work place. Mapping out the quality of the performance of subjects in service, again, is evidently quite a difficult task.
4) Psychiatric diagnosis. This method is quite used to validate personality/psychiatric tests. The criteria groups are comprised of the results of the psychiatric assessment that settles clinical categories: normal versus neurotic, psychopath versus depressive, etc. Again, it is very hard to adequate the psychiatrists' assessments.
5) Subjective diagnosis. Assessments performed by colleagues and friends can be a basis for the establishment of criteria groups. This technique is employed, above all, in personality tests, where more objective assessments are hardly achieved. Thus, subjects place their colleagues in categories, or score personality traits (aggressiveness, cooperation, etc), based on the experience of their living together. Needless to say that there are enormous hardships produced by these assessments in terms of objectivity; nonetheless, the application of a large number of judges can diminish the subjective biases of these evaluations.
6) Other available tests. The outcomes achieved by means of another valid test that predicts the same performance of the test to be validated can serve as a criterion to determine the validity of the new test. Here's an obvious question: what is the purpose of creating another test if an existing one validly measures what it is supposed to measure? The answer is based upon a sense of economy, that is, one makes use of a test that demands a longer length of time to be responded or assessed as a criterion to validate another test that spends a lower amount of time.
In case of this last type of validity method, two distinct situations must be met. First, whenever there are provably validated tests for the measurement of any trait, they certainly constitute a criterion against which a new test can be safely validated. Nevertheless, when tests accepted as definitely validated do not exist for the assessment of a latent trait, the application of the contending validity is extremely precarious. This situation is unfortunately the most common one. As a matter of fact, there are available tests to measure practically anything, as attested by the Buro's Mental Measurement Yearbooks, which are periodically published and contain thousands of existing psychological tests in the market. In this case, these tests can be used as validation criteria, but the risk is excessively high due to the fact that a test whose validity is minimally questionable is being employed as a criterion.
We can conclude that the concurrent validity only makes sense if provably valid tests can serve as a criterion against which one wants to validate a new test, and that this new test have some advantages over the previous one (such as, for instance, saving time, etc.).
A frustrating issue stands out at the end of this study on criterion validity processes. If the researcher has employed all his ability to build a test, under the highest degree of control possible, why would he validate this task-test against lower measures, represented by the measurement of various criteria presented here? Is it reasonable to validate supposedly superior measurements using a poorer measurement?(17). The criticisms of both Thurstone in 1952 and above all those of Cronbach and Meehl in 1955(13,18) replaced the criterion validity of the psychological tests' validation panacea technique for the construct validity. However, these criteria can be deemed as good and useful towards the criterion validation. The significant difficulty in almost all of them is located in the demonstration of their measurement adjustment; in other words, these measurements are generally precarious, thus leaving much doubt on the test validation process. Nonetheless, there are well-known examples of validated tests through this method, such as the MMPI (Minnesota Multiphasic Personality Inventory).
A test's content validity is comprised of verifying whether or not the test constitutes a representative sample of a finite universe of behaviors (domain). It is applicable whenever a finite universe of behaviors can be delimited a priori, such as the case of performance tests that intend to cover a content that is delimited by a specific programmatic course(11).
Test reliability
The reliability or trustworthiness parameter of tests is referenced by a long and heterogeneous series of names. Some of those names stem from the own concept of this parameter; in other words, these terms attempt to express what they really represent to the test. These names are, mostly: preciseness, trustworthiness, and reliability. Other names of this parameter result more directly from the type of technique applied in the empirical collection of information, or the statistical technique employed in the analysis of the collected empirical data. Among these names we mention the following: stability, steadiness, equivalence, internal consistence.
Trustworthiness, or reliability of a test refers to the major characteristic it must display, namely, the errorless measurement; hence, we have the terms preciseness, reliability, and trustworthiness. An errorless measurement means that the same test that measures the same subjects in different occasions, or equivalent tests that measures the same subjects in the same occasion, produce identical outcomes; in other words, the correlation of both measurements must score 1. However, as the error is always present in any measurement, the further this correlation withdraws from 1, the bigger the measurement error will be. The reliability analysis of a psychological instrument precisely shows how much the same instrument withdraws from the ideal 1 correlation, determining a close-to-1 coefficient, so that the error probability is lower.
Tests' trustworthiness problem used to be a favorite issue for classical psychometrics, where the statistical estimation paraphernalia for this parameter grew up the most; but it lost importance within modern psychometrics in favor of the validity parameter. Anyway, within CTT, the trustworthiness coefficient, rtt, is statistically defined as the correlation between the scores of the same subjects in two parallel ways of a test, T1 and T2. Hence, the trustworthiness coefficient is defined as the co-variance function [Cov(T1,T2)] between the test formats by means of their own variances ( e ), that is, rtt =
where,
rtt : reliability coefficient
: test true variance
: test total variance
There are practically two statistical techniques to decide the accuracy of a test, that is, the correlation and the analysis of the internal consistency.
The correlation technique is applied for test-retest and test parallel format conditions. Both cases show the outcomes of the same subjects that were submitted to the same test in two different occasions, or responded to two parallel formats in the same test. The reliability index, in this case, simply consists of a bi-varied correlation between both scores concerning the same subjects.
The internal consistency analysis demands a complex apparatus of statistical techniques that are finally reduced to two situations: dividing the test in shares - more commonly in two halves - with a subsequent correction made by the Spearman-Brown prediction formula, and several alpha coefficient techniques, being the Cronbach alpha the most widely known of them all. Here, only one test is applied in only one occasion; analyses consist of verifying the internal consistency of the items that compose the test. It is, therefore, an accuracy estimation, whose logic is as follows: if the items understand themselves, that is, covariate, in a given occasion, they will thus understand each other in any other occasion throughout the test.
CONCLUSION
In order to guarantee that tests will present the scientifically required quality parameters, the American Psychological Association (APA) established the Standards for Educational and Psychological Testing, with several editions since 1985.
REFERENCES
Autoría
Luiz Pasquali
Universidade de Brasília, Instituto de Psicologia , Departamento de Psicologia Social e do Trabalho, Brasília, Distrito Federal, BrazilUniversidade de BrasíliaBrazilBrasília, Distrito Federal, BrazilUniversidade de Brasília, Instituto de Psicologia , Departamento de Psicologia Social e do Trabalho, Brasília, Distrito Federal, Brazil
SCIMAGO INSTITUTIONS RANKINGS
Universidade de Brasília, Instituto de Psicologia , Departamento de Psicologia Social e do Trabalho, Brasília, Distrito Federal, BrazilUniversidade de BrasíliaBrazilBrasília, Distrito Federal, BrazilUniversidade de Brasília, Instituto de Psicologia , Departamento de Psicologia Social e do Trabalho, Brasília, Distrito Federal, Brazil
Universidade de São Paulo, Escola de EnfermagemAv. Dr. Enéas de Carvalho Aguiar, 419 , 05403-000 São Paulo - SP/ Brasil, Tel./Fax: (55 11) 3061-7553, -
São Paulo -
SP -
Brazil E-mail: reeusp@usp.br
rss_feed
Stay informed of issues for this journal through your RSS reader