Análise bayesiana do funcionamento diferencial do item

Soares, Tufi Machado; Gamerman, Dani; Gonçalves, Flávio Bambirra

doi:10.1590/S0101-74382007000200005

Resumos

Neste trabalho utiliza-se a abordagem Bayesiana na estimação dos parâmetros de modelos da Teoria da Resposta ao Item, destinados à análise do Funcionamento Diferencial do Item, DIF - Differential Item Functioning. Os modelos propostos são integrados, e permitem incorporar estruturas de regressão que podem ser usadas para explicar o DIF relacionado à co-variáveis associadas aos itens. São considerados modelos para múltiplos grupos e a abordagem utilizada incorpora naturalmente o erro de estimação do traço latente e dos parâmetros estruturais. A abordagem permite, naturalmente, considerar DIF tanto na dificuldade quanto na discriminação do item. Exemplos com dados simulados e com dados reais são apresentados.

funcionamento diferencial do item; MCMC; teoria da resposta ao item

This paper uses a Bayesian approach for parameter estimation in Item Response Theory Models for DIF - Differential Item Functioning - analysis. The models proposed are integrated, and incorporate regression structures that can be used to explain the DIF related to items associated covariates. The models are proposed for multiple groups and the approach used, naturally, consider the estimation error of the latent trace and the estimation error of the structural parameters. Examples with simulated data and real data are also presented.

item differential functioning; MCMC; item response theory

Análise bayesiana do funcionamento diferencial do item

Tufi Machado Soares^I,^* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Dani Gamerman^II; Flávio Bambirra Gonçalves^III

^IDepartamento de Estatística Centro de Avaliação Educacional (CAEd) - Universidade Federal de Juiz de Fora (UFJF) - tufi@caed.ufjf.br

^IIDepartamento de Métodos Estatísticos - Universidade Federal do Rio de Janeiro (UFRJ) - dani@im.ufrj.br

^IIIDepartamento de Métodos Estatísticos - Universidade Federal do Rio de Janeiro (UFRJ) - flavio@dme.ufrj.br

RESUMO

Neste trabalho utiliza-se a abordagem Bayesiana na estimação dos parâmetros de modelos da Teoria da Resposta ao Item, destinados à análise do Funcionamento Diferencial do Item, DIF Differential Item Functioning. Os modelos propostos são integrados, e permitem incorporar estruturas de regressão que podem ser usadas para explicar o DIF relacionado à co-variáveis associadas aos itens. São considerados modelos para múltiplos grupos e a abordagem utilizada incorpora naturalmente o erro de estimação do traço latente e dos parâmetros estruturais. A abordagem permite, naturalmente, considerar DIF tanto na dificuldade quanto na discriminação do item. Exemplos com dados simulados e com dados reais são apresentados.

Palavras-chave: funcionamento diferencial do item; MCMC; teoria da resposta ao item.

ABSTRACT

This paper uses a Bayesian approach for parameter estimation in Item Response Theory Models for DIF Differential Item Functioning analysis. The models proposed are integrated, and incorporate regression structures that can be used to explain the DIF related to items associated covariates. The models are proposed for multiple groups and the approach used, naturally, consider the estimation error of the latent trace and the estimation error of the structural parameters. Examples with simulated data and real data are also presented.

Keywords: item differential functioning; MCMC; item response theory.

1. Introdução

Informalmente, pode-se entender que um item de um teste de avaliação educacional apresenta um funcionamento diferencial (DIF Differential Item Functioning) para dois grupos de alunos quando apesar de esses alunos terem o mesmo nível de proficiência ou de habilidade cognitiva e, ainda assim, o desempenho no item é significativamente diferente nos dois grupos. Por exemplo, um tipo de funcionamento diferencial muito comum é aquele em que o item é mais fácil para um determinado grupo de alunos do que para outro, mesmo quando são comparados alunos de mesma proficiência.

Num primeiro momento, não é desejável encontrar itens que apresentam DIF num instrumento de avaliação educacional, pois isso poderia implicar que algum particular grupo de indivíduos esteja sendo privilegiado em detrimento dos demais. Esse é o contexto histórico da preocupação com o DIF, que estava ligado ao desejo de se construir questões de testes que não fossem afetadas por características étnico-culturais dos grupos submetidos a testes de admissão (cf. Cole, 1993). Muito associado, portanto, às campanhas em prol da melhoria dos direitos civis dos cidadãos comuns nos anos 60 nos Estados Unidos da América. Inicialmente, então, o foco dos estudos era o de identificar tipos de itens que eram favoráveis (ou desfavoráveis) a um determinado grupo em detrimento de outros, de tal forma que os testes pudessem evitar questões "prejudiciais e injustas".

No entanto, os itens que apresentam DIF trazem informações importantes e nem sempre o procedimento adotado atualmente é, simplesmente, de retirá-los das provas ou dos cálculos das proficiências desde que o comportamento diferencial não tenha impacto apreciável sobre a proficiência estimada. Por outro lado, tendo em vista que é impossível eliminar completamente a presença de itens com algum tipo de funcionamento diferencial, pois é impossível considerar todas as diferenças entre os alunos, é razoável supor que sempre haverá itens com algum tipo de funcionamento diferencial em um teste educacional. Note-se que, embora o natural seja admitir que grupos diferentes sejam constituídos a partir da localização dos alunos no espaço e no tempo, ou por diferenças de características étnico-culturais e ou biológicas, os grupos podem ainda ser constituídos a partir de outras características como, por exemplo, por diferenças nos métodos de ensino aos quais os alunos são expostos. Assim, itens com DIF podem vir a ser introduzidos propositalmente para testar hipóteses sobre diferenças cognitivas entre diferentes grupos de alunos, por exemplo.

A Figura 1 corresponde à imagem de um item (cedido pela Secretaria Estadual de Educação de Minas Gerais) que foi aplicado aos alunos da 4ª série do ensino fundamental no PROEB/ SIMAVE-2001, programa de avaliação do ensino fundamental e médio da rede pública estadual de Minas Gerais, que avaliou competências nas disciplinas de história e geografia.

Através do Sistema de Análise de Itens (SisAni), desenvolvido em linguagem DELPHI (cf. Soares & Galvão, 2004), foram calculadas as estatísticas clássicas do funcionamento diferencial e foi produzida a Figura 2 que mostra o funcionamento do item para dois grupos de alunos. As estatísticas e os gráficos apresentados permitem uma análise do comportamento diferencial com respeito, principalmente, à dificuldade do item. Não sendo relevante neste ponto, sugere-se ao leitor não familiarizado ignorar as estatísticas e concentrar sua atenção na interpretação dos gráficos. No primeiro deles é apresentado o percentual de acerto do item para os alunos de ambos os grupos. A comparação é apresentada dividindo-se os alunos em subgrupos pareados de mesma habilidade cognitiva, isto é, cada quadrado nesse gráfico representa o percentual de acerto para os alunos de um dos grupos (denominado grupo de referência) com proficiências em torno de um determinado nível e o triângulo correspondente representa o percentual de acerto dos alunos do outro grupo (denominado grupo focal) com proficiência em torno desse mesmo nível. O segundo gráfico apresenta a diferença entre esses percentuais de acertos calculados para os dois grupos.

No caso são comparados os desempenhos dos alunos da região metropolitana de Belo-Horizonte (Grupo de Referência) com os desempenhos dos alunos da região do triângulo mineiro (Grupo Focal). Observa-se que os alunos da região do triângulo acertaram o item em maior proporção do que os alunos da região metropolitana, ou seja, o item foi mais fácil para os alunos do triângulo mineiro do que para os alunos da região metropolitana. O valor para a estatística AlfaD MH (alfa/Delta de Mantel Haenszel ver Dorans & Holland, 1993, para a definição formal dessa estatística) de 1,428 indica um nível intermediário de funcionamento diferencial (pelo critério da ETS Educational Testing Service ver Longford, Holland & Thayer, 1993, por exemplo).

O objetivo deste trabalho é o de propor e implementar um novo modelo para auxiliar uma análise de DIF. Esse novo modelo fornece elementos para uma decisão baseada em estatísticas quanto às conclusões sobre a natureza do DIF. Isto é alcançado a partir da introdução de co-variáveis explicativas no modelo que representam determinadas características dos itens. Embora algumas abordagens já tenham sido propostas e implementadas nesse sentido (ver Swanson et al., 2002), até agora, nenhuma delas propôs e implementou um modelo com a estimação simultânea das proficiências e dos parâmetros estruturais, inclusive com os parâmetros associados às co-variáveis explicativas. Nesse sentido, o modelo proposto e implementado neste trabalho é flexível e permite uma abordagem integrada. Pelo fato de o modelo apresentar uma estrutura complexa, utiliza-se para a estimação dos parâmetros técnicas de simulação de Monte Carlo conhecidas como MCMC (Markov Chain Monte Carlo).

Na seção 2 será apresentado o modelo proposto para análise de DIF. Na seção 3, apresenta-se uma rápida revisão da literatura sobre o assunto, contextualizando o presente trabalho. Na seção 4 será apresentado o método utilizado para estimação do modelo, e na seção 5 serão apresentados exemplos, a partir de dados simulados e dados reais. Finalmente, na seção 5 são apresentadas conclusões finais do trabalho.

2. Modelo para a identificação e análise do DIF

Modelos da teoria da resposta ao item associam a probabilidade de o aluno alcançar um determinado escore no item com sua habilidade latente, ou proficiência, q_j (ver, por exemplo, Lord (1980) para uma discussão sobre esse conceito). O modelo de três parâmetros, proposto por Birnbaum (1968), tem tido um importante papel no contexto da avaliação educacional em larga escala, principalmente, porque nesses casos geralmente se empregam itens de múltiplas escolhas nos testes e o efeito de um acerto devido a uma escolha, pelo menos em parte, aleatória é considerado com a introdução do parâmetro c_i no modelo de dois parâmetros originalmente proposto (ver Lord, 1980). O gráfico que representa a relação entre a probabilidade de acerto e a proficiência é conhecido como Curva Característica do Item (CCI). Pode-se ter, então, a CCI obtida a partir do modelo (CCI teórica) ou, se são conhecidas as proficiências dos alunos, a CCI construída a partir dos dados empíricos (CCI empírica).

Tipicamente, em avaliação educacional, um teste é constituído por I itens, mas um aluno j responde apenas a um subconjunto I(j) desses itens. Seja então Y_ij, j = 1,...,J, o escore atribuído à resposta dada pelo aluno j ao item i, i ÎI(j), (I(j), Ì [1,...,I]). Neste trabalho vai-se considerar apenas o caso dicotômico, onde ao item é atribuído um dos escores [0,1], de tal forma que Y_ij = 1 representa um acerto, por exemplo, e Y_ij = 0 representa um erro.

Em geral, pode-se ter diferentes tipos de DIF (ver, por exemplo, Hanson, 1998, para uma caracterização mais abrangente), mas restringindo-se às características explicitadas através do modelo de três parâmetros, pode-se imediatamente caracterizar o tipo de DIF de acordo com a dificuldade, a discriminação e o acerto casual. Dessa forma, a análise do DIF consiste em verificar a estabilidade do modelo nos diferentes grupos de alunos, isto é, verificar se os parâmetros dos modelos dos itens são diferentes ou não para os grupos.

Neste trabalho não se vai incluir a possibilidade de DIF no parâmetro de acerto casual do item. Embora seja possível, as dificuldades conhecidas para a estimação desse parâmetro e restrições de ordem práticas limitam substancialmente a aplicabilidade de uma implementação nesse sentido.

O modelo proposto neste trabalho para a análise do DIF é apresentado através da equação (1) e da equação (2).

A equação (1) representa a probabilidade de um aluno j acertar ao item i do teste dado que ele tenha a proficiência q_j. Os demais parâmetros representam as características do item. O parâmetro a_gi a_i(>0) é conhecido como o parâmetro de discriminação do item, b_gi = b_i - , como o parâmetro de dificuldade do item e c_i(Î [0,1]), como o parâmetro de acerto casual (Lord, 1980, por exemplo, apresenta justificativas para essas denominações). Neste modelo admite-se, ainda, que os alunos estejam agrupados em G grupos e que q_j ~ N(µ_g(j), s_g(j)), onde g(j) identifica grupo do aluno j. Para garantir a identificabilidade do modelo admite-se que l₁ =[µ₁s₁] = [0 1] considerado como grupo de referência. Por outro lado, os demais parâmetros das distribuições de proficiências, representados por l_g := [µ_g s_g], g = 2,..., G, é desconhecido e deverá ser estimado em conjunto com os demais parâmetros. O parâmetro ( = 0) representa o DIF com relação à dificuldade do item para cada grupo e o parâmetro (g = 2,..., G, = 0) representa o DIF com relação à discriminação.

Para garantir a comparabilidade das proficiências estimadas para os alunos dos diferentes grupos, é necessário que parte dos itens que sejam aplicados em comum aos grupos não deva apresentar DIF (no caso do modelo acima isto implica que = = 0 para esses itens). Thissen, Steinberg & Wainer (1993), denomina esses itens que não exibem DIF e são usados para garantir a comparabilidade das proficiências dos alunos dos diferentes grupos de itens âncoras (Anchor Itens). Note-se que o subconjunto de itens âncoras deve ser definido a priori. Neste trabalho, ele será representado por I_AÌ [1...I].

O conjunto dos itens comuns para os quais se deseja analisar o DIF será representado por I_dif = {1,...I} - I_A. Naturalmente, para alguns itens, pode-se admitir o DIF com relação à dificuldade e não com relação à discriminação ou vice-versa. Aliás, o mais comum é a presença de DIF com relação apenas à dificuldade. Nesse sentido, o conjunto Ì I_dif, representa o conjunto de itens para os quais se admite DIF na discriminação e, o conjunto Ì I_dif , representa o conjunto correspondente para o DIF na dificuldade.

Finalmente, para investigar a natureza do DIF impõe-se uma estrutura de regressão para (h = a,b):

onde são os parâmetros fixos do modelo de DIF, são variáveis explicativas associadas aos itens e representa um fator aleatório específico do item em cada grupo.

Vai-se admitir que , sendo I a matriz identidade.

A função de verossimilhança é dada, então, por:

Como o objetivo do trabalho é apresentar uma análise Bayesiana para o problema do DIF, o modelo se completa com a especificação das distribuições a priori para os parâmetros. As prioris adotadas para os parâmetros estruturais foram: a_i ~ LN(0,2), b_i ~ N(0,1) e c_i ~ beta(5,17). Estas prioris são habitualmente empregadas, como por exemplo, são defaults no software Bilog-mg, e naturais tendo em vista as características dos parâmetros. Para os parâmetros correspondentes ao modelo de explicação do DIF, admite-se que com a priori . Admite-se, ainda, que µ_g | s_g~ N(0, s_g), com , onde GI representa a distribuição Gama Inversa.

3. Abordagens Tradicionais para a Detecção e Análise do DIF

Lord (1980) propôs utilizar um teste normal para verificar se há diferenças significativas entre os parâmetros de dificuldade, e um teste qui-quadrado para verificar se há diferenças nos parâmetros de dificuldade e discriminação simultaneamente. Lord (1980) não considerou DIF no parâmetro de acerto casual. Nessa abordagem, as estatísticas serão eficientes na detecção do DIF se, ou a proficiência já for conhecida para os alunos, ou se houver um bom número de itens âncoras de tal forma que as proficiências sejam estimadas com erros muito pequenos. Ora, admitir que a proficiência seja conhecida é sempre uma ficção e, em geral, o número de itens respondido por um aluno é pequeno. Assim, propriedades assintóticas podem ser pouco confiáveis dependendo do tipo de estimador utilizado Lord utilizou originalmente um estimador de máxima verossimilhança conjunta para os parâmetros estruturais do modelo e para as proficiências dos alunos, o que é inconsistente (cf. Baker, 1992). Estudos mostraram que o método de Lord pode conduzir a erros bastante expressivos na detecção do DIF (ver Thissem, Steinberg & Wainer, 1993).

Thissem, Steinberg & Wainer (1993) apresentaram um procedimento geral para detecção de DIF que denominaram de método geral TRI-Razão de Verossimilhanças ("general IRT-LR"). Grosso modo, o método propõe que o conjunto de itens âncoras seja cuidadosamente selecionado por testes anteriores e especialistas Designated Anchor. Os autores propõem, inicialmente, maximizar a função de verossimilhança marginalizada com respeito à distribuição de proficiências considerando-se que todos os itens não apresentam DIF e os alunos pertencem ao mesmo grupo. Numa segunda etapa, maximiza-se a função de verossimilhança marginalizada com respeito às distribuições de proficiências considerando-se que parte dos itens pode apresentar DIF, e os alunos pertençam a grupos múltiplos. Os dois modelos, então, são comparados através de um teste de razão de verossimilhanças. O software Bilog-mg tem implementado um algoritmo nessa linha de abordagem, estimando diferentes valores para os parâmetros de dificuldade nos diferentes grupos (b_gi), mas não permite, pelo menos diretamente, definir um subconjunto de itens âncoras, de tal forma que a restrição faz-se necessária para garantir a identificabilidade. Essa restrição impede, ou pelo menos restringe, uma análise de DIF mais abrangente. Por outro lado, a consistência do estimador de máxima verossimilhança marginal depende do conhecimento das distribuições corretas. Apesar de o programa estimar em etapas iterativas os valores da distribuição nos pontos de quadratura pelo procedimento proposto em Bock & Zimowski (1997), são desconhecidos estudos que garantam uma boa convergência da distribuição de proficiências. Esta, provavelmente, depende do número de itens sem DIF e da quantidade de informação associada a eles sobre as proficiências. Por outro lado, o procedimento proposto por Thissem, Steinberg & Wainer (1993) tem uma preocupação muito mais focada no impacto que o DIF pode ter sobre a proficiência do que propriamente numa análise de DIF. Por exemplo, estes autores não introduziram co-variáveis explicativas nos modelos.

O método da regressão logística para identificar o DIF foi proposto por Swaminathan & Rogers (1990), e, basicamente, admitindo que a proficiência é conhecida, utiliza o modelo de regressão logística:

Nesse caso, os grupos são representados pela variável g (g = 0 se o examinando pertence ao grupo de referência e g = 1 se o examinando pertence ao grupo focal). Evidentemente, o modelo pode ser generalizado, introduzindo-se outras variáveis dummy, para comparação com mais grupos.

Os parâmetros dos modelos são estimados pelos métodos habituais e testes de significância (tipicamente baseados na estatística de Wald) indicarão a existência de DIF quanto à dificuldade e quanto à discriminação, respectivamente. Alguns autores utilizam o escore bruto do teste, ou variações, como, por exemplo, o escore bruto excluindo-se o item cujo DIF está sendo testado.

Note-se que o modelo da regressão logística é aparentemente similar ao proposto através da equação (1), no entanto, ele não considera o acerto casual ao item e, principalmente, admite que a proficiência seja conhecida. É um artifício que simplifica a estimação dos parâmetros estruturais do modelo, porém, a qualidade dos resultados depende da qualidade da medida de proficiência disponível.

Swanson et al. (2002) propõem uma extensão do modelo de regressão logística que emprega estruturas hierárquicas segundo os itens. As características específicas dos itens são representadas, então, por co-variáveis explicativas, que podem ser variáveis indicadoras, como por exemplo se o item está associado a uma particular competência, ou variáveis intervalares, como o número de palavras empregadas no enunciado. Mas a restrição de proficiência conhecidas continua sendo necessária naquele trabalho.

Patz & Junker (1999b) discutem e apresentam aplicações de MCMC na teoria da resposta ao item. De passagem, os autores comentam a viabilidade de se implementar através dessa técnica um modelo para DIF que incluiria co-variáveis associadas aos itens. No entanto, eles não implementam qualquer modelo nesse sentido naquele trabalho nem em qualquer outro a posteriori que seja do conhecimento destes autores. A idéia neste artigo é estimar, nas mesmas linhas propostas em Patz & Junker (1999a) e Patz & Junker (1999b), os parâmetros do modelo apresentado em (1) e (2) que considera a possibilidade de DIF incluindo co-variáveis explicativas associadas.

4. Estimação do Modelo Através de MCMC

O número de parâmetros do modelo formulado em (1) e (2), e as diferentes características desses parâmetros, torna sua estimação consideravelmente difícil, em particular, quando a proficiência não é conhecida. A distribuição a posteriori conjunta dos parâmetros não apresenta forma fechada e é de difícil tratamento por métodos numéricos. O método de estimação dos parâmetros dos modelos que foi adotado neste trabalho consiste em encontrar a média da distribuição conjunta a posteriori de todos os parâmetros dos modelos dos itens e proficiências dos alunos condicionados aos dados, isto é encontrar o valor esperado da distribuição:

p (q, b, d, l, g, T|Y, W), b = [a b c], [dª, d^b].

Para superar as dificuldades mencionadas, empregam-se técnicas de simulação extensivas conhecidas como MCMC Markov Chain Monte Carlo, que permitem gerar amostras dessa distribuição conjunta.

Em particular, foi utilizado o amostrador de Gibbs (cf. Gamerman & Lopes, 2006) que consiste num algoritmo iterativo que permite gerar amostras de uma distribuição conjunta a posteriori, como a apresentada acima, a partir de amostras obtidas das distribuições de cada parâmetro ou de bloco de parâmetros condicionadas aos demais parâmetros dos modelos, chamadas de distribuições condicionais completas. Sob condições apropriadas, mostra-se que a seqüência de variáveis aleatórias que representam as sucessivas amostras geradas constituem uma cadeia de Markov cuja distribuição de transição converge para uma distribuição de transição estacionária e igual à distribuição conjunta a posteriori dos parâmetros.

Quando as distribuições condicionais completas não apresentam formas fechadas conhecidas torna-se necessário utilizar, por exemplo, o algoritmo de Metropolis-Hastings (cf. Gamerman & Lopes, 2006). Nesse caso, a cada iteração do algoritmo uma amostra de um parâmetro é gerada a partir de uma distribuição arbitrária com parâmetro de localização (tipicamente, a média) dado pela amostra anterior do parâmetro. Naturalmente, essa distribuição deve ser adequada às restrições impostas ao parâmetro e é denominada de transição proposta. A nova amostra é aceita ou rejeitada (mantendo-se, neste caso, o estado anterior) a partir de uma decisão tomada de acordo com uma determinada probabilidade (denominada de probabilidade de aceitação).

As distribuições condicionais completas utilizadas na geração das amostras dos parâmetros dos modelos dos itens são apresentadas em detalhes no ^{anexo A} ANEXO A Condicionais Completas .

5. Desempenho em Exemplos Simulados e Estudos Reais

Exemplo 1 (2 grupos DIF na dificuldade)

Neste primeiro exemplo, foram simuladas as respostas de 4000 alunos a um teste constituído de 50 itens dicotômicos os alunos foram divididos em dois grupos com 2000 alunos cada. Os parâmetros dos modelos dos itens e as proficiências dos alunos foram todos gerados aleatoriamente. As proficiências foram geradas a partir de uma distribuição normal, com média zero e desvio-padrão 1,0 para o grupo de referência e média 0,15 e desvio-padrão 1,0 para o grupo focal. Os parâmetros dos modelos foram gerados de acordo com as prioris apresentadas na seção 2. O programa de simulação escolhe aleatoriamente os itens âncoras, neste exemplo 33 dos itens foram escolhidos como âncoras e, portanto, os outros 17 itens foram considerados, então, como sujeitos a um possível funcionamento diferencial. Foram fixados os valores g₀₂ = 0,3 e,g₁₂ = 0,3, e W_1i = 1, para 7 desses itens e W_1i = 0 para os demais, simulando assim o efeito de uma co-variável binária associada a uma possível característica comum desses sete itens. Os parâmetros foram gerados conforme o modelo em (2) supondo que .

Todos os estudos foram realizados com o auxílio de dois programas elaborados pelos autores em duas linguagens diferentes: R e Matlab. Os resultados são os mesmos obtidos em ambos os programas, porém o programa em Matlab gasta cerca de um terço do tempo gasto pelo programa em R. Nesse exemplo, com 2 grupos, o programa em Matlab, executado em um computador PENTIUM IV 2,6 GHz, gastou cerca de 8 horas para a geração das 20000 realizações das cadeias.

As convergências das cadeias de Markov geradas pelo amostrador de Gibbs foram testadas através do critério R de Gelmam & Rubin (RGR) (cf. Gameman & Lopes, 2006), a partir da geração de 4 cadeias em paralelo, de 20000 realizações cada, com diferentes condições iniciais. Todas as cadeias alcançaram convergência com menos de 10000 realizações, apresentando RGR < 1.1. A Figura 3 mostra as 10000 primeiras realizações encontradas para os parâmetros estruturais do item 1, além dos parâmetros correspondentes as médias dos grupos e os parâmetros da estrutura de regressão sobre o DIF (ver Figura 4).

Na Tabela I são apresentadas as estimativas que foram obtidas para a média e o desvio padrão das proficiências do grupo 2. Foram utilizadas as médias das 10000 últimas realizações das cadeias.

Thumbnail

Verifica-se que tanto a estimativa da média quanto do desvio padrão são muito satisfatórias, bastante próximas dos valores reais. Esse resultado garante, portanto, que as médias de proficiências dos dois grupos de alunos estão sendo apropriadamente comparadas mesmo quando há itens com funcionamento diferencial.

Em geral, como pode ser visto na Tabela II, a estimação dos parâmetros estruturais a e b foi muito satisfatória, enquanto a estimação do parâmetro c é, em geral, menos satisfatória. A correlação de Pearson entre os parâmetros verdadeiros e as estimativas foi de, respectivamente, 0,9750, 0,9970 e 0,6020.

Thumbnail

Problemas foram encontrados na estimação dos parâmetros de itens que exibiam ou valores muito baixos ou muito elevados para os parâmetros de discriminação. No entanto, nessas condições, é naturalmente mais difícil se obter boas estimativas.

Nota-se que os intervalos de credibilidade são muito menores, proporcionalmente aos valores, para os parâmetros de dificuldade e muito maiores para os parâmetros de acerto casual. Esse fato indica que os estimadores dos parâmetros de dificuldade são muito mais precisos do que os estimadores dos parâmetros de acerto casual. Em alguns exemplos simulados, sem DIF, as estimativas obtidas através do amostrador de Gibbs para todos os três parâmetros do modelo têm sido superiores às obtidas pelo software Bilog-mg que utiliza métodos de máxima verossimilhança marginal e máxima verossimilhança marginal penalizada (MMAP) ou máxima distribuição a posteriori marginalizada. A estimação dos parâmetros de DIF também se mostrou bastante satisfatória, a correlação de Pearson entre os parâmetros verdadeiros e as estimativas foi de 0,9942. Os resultados apresentados na Tabela III indicam que a utilização do intervalo de credibilidade pode ser útil para verificar se o item apresenta ou não um DIF significativo. Por exemplo, os itens 14 e 42 apresentam, claramente, um DIF desprezível.

Thumbnail

As estimativas dos parâmetros correspondentes à estrutura de regressão explicativa para o DIF parâmetros g₀₂ e g₁₂, ver Tabela IV foram muito similares às obtidas pelo ajuste de um modelo de regressão linear clássico, utilizando mínimos quadrados ordinários, a partir das estimativas encontradas para os parâmetros . Nesse caso, os resultados encontrados foram, respectivamente, 0,252 (0,90), 0,348 (0,131).

Thumbnail

Um exemplo com 5 grupos foi construído de forma semelhante a esse com dois grupos e os resultados foram igualmente satisfatórios. A qualidade da estimação das proficiências, por exemplo, se manteve para todos os grupos focais.

Exemplo 2 (2 grupos DIF na discriminação)

Nos exemplos anteriores foi considerada a possibilidade de DIF apenas nos parâmetros de dificuldade dos itens. Em geral, neste exemplo repetem-se as condições de simulação utilizadas no exemplo 2, porém o DIF é introduzido na discriminação dos modelos dos itens. Os itens para os quais se admite a possibilidade de um DIF foram escolhidos aleatoriamente através de uma distribuição Bin(50; 0,4), de tal forma que 31 dos itens foram escolhidos como itens âncoras e, portanto, os outros 19 itens foram considerados, então, como itens sujeitos a um possível funcionamento diferencial. Foram fixados os valores g₀₂ = 0,5 e , g₁₂ =0,2, o que torna os itens com DIF menos discriminantes no grupo 2, e W_1i para 10 desses itens e W_1i para os demais, simulando o efeito de uma co-variável binária associada a uma possível característica comum desses dez itens. Os parâmetros foram gerados conforme o modelo em (2) supondo que

Da mesma forma que no exemplo anterior a convergência das cadeias de todos os parâmetros foi testada e através do critério RGR foram confirmadas.

As Tabelas de V a VII trazem os parâmetros gerados, as estimativas obtidas com o amostrador de GIBBS e os respectivos intervalos de credibilidade. Foram utilizadas as médias das 8000 últimas realizações das cadeias.

Thumbnail

Em geral a estimação dos parâmetros a, b e c, foi tão satisfatória quanto no exemplo com DIF na dificuldade, por isso omitiu-se a apresentação dos resultados. Apenas no item 17 o modelo não conseguiu estimar bem o parâmetro a, ao se observar o gráfico desta cadeia (omitido), nota-se que não houve convergência. Provavelmente, a razão de não convergência esteja associada à dificuldade de estimação dos parâmetros desse item. Ele apresenta um nível de dificuldade muito baixo (trata-se, portanto, de um item muito fácil) e um nível de discriminação muito alto, isso é muito raro de acontecer na prática. A estimação dos parâmetros de DIF também se mostrou bastante satisfatória, apenas o intervalo de credibilidade do item 23 não conteve o verdadeiro valor do parâmetro. No entanto, como era de se esperar, as estimativas foram um pouco piores do que no caso do DIF na dificuldade. A correlação de Pearson entre os parâmetros verdadeiros e as estimativas foi de 0,906.

A recuperação dos parâmetros correspondentes à estrutura de regressão explicativa para o DIF encontrado parâmetros g₀₂ e g₁₂ foi também muito boa. A estimativa da variância de tal regressão não ficou tão boa quanto esperada, mas o intervalo de credibilidade conteve o verdadeiro valor do parâmetro. Finalmente, pode-se também dizer que a estimação dos parâmetros da distribuição das proficiências, média e desvio padrão do grupo focal, foi razoável, no entanto, não tão boa quanto no caso de DIF na dificuldade.

Os resultados indicam, portanto, que a presença de DIF expressivo na discriminação pode conduzir a maiores problemas na comparabilidade das médias dos dois grupos do que no caso de DIF na dificuldade. Porém, tendo em vista que na prática raramente se tem situações de DIF na discriminação nos níveis apresentados neste exemplo, garante-se, também, uma boa comparabilidade de resultados de testes educacionais aplicados a diferentes grupos de alunos.

Exemplo 3 (real)

Em Soares, Genovez & Galvão (2005) foi apresentada uma análise sistemática do funcionamento diferencial exibido pelos itens de geografia utilizados para avaliar os alunos da 4ª série do ensino fundamental no PROEB/SIMAVE-2001. O funcionamento dos itens foi analisado comparativamente para as diferentes regiões do estado de Minas Gerais, representadas pelos pólos regionais de ensino: pólo 1 que compreende a região Metropolitana de Belo Horizonte; pólo 2 região centro-sul; pólo 3 região do triângulo mineiro; pólo 4 região da Zona da Mata e pólo 5 região Norte do estado. Naquele trabalho, três etapas distintas da investigação foram realizadas: na primeira os itens que exibiam funcionamento diferencial foram identificados com o uso do programa Bilog-mg utilizando-se modelos da teoria da Resposta ao Item para grupos múltiplos (cf. Bock & Zimovski, 1995); na segunda o funcionamento diferencial identificado foi confirmado ou não através das estatísticas clássicas fornecidas pelo SisAni e, a partir delas, o DIF encontrado foi classificado como desprezível, pequeno, intermediário ou grande; finalmente na terceira etapa a natureza do funcionamento diferencial foi investigada, sendo que conexões e extrapolações empíricas foram construídas de tal forma que se pôde chegar a uma interpretação sistêmica. Dezessete itens, dentro de um conjunto de 81 aplicados, exibiram algum funcionamento diferencial mais relevante. Sete desses itens avaliaram o conhecimento do aluno sobre as diferenças entre o espaço urbano e o espaço rural. Se ele seria capaz, por exemplo, de discriminar os produtos do campo de os produtos da cidade. Como, em geral, esses itens foram mais fáceis para os alunos das demais regiões do estado do que para os alunos do pólo Capital, pôde-se inferir que, provavelmente, o fato de os alunos dessas regiões estarem mais próximos de zonas rurais se refletiu numa maior competência nas respostas a essas questões. Infelizmente, as conclusões obtidas são genéricas, baseadas no bom senso e carecem de uma confirmação embasada em uma maior evidência estatística.

Utilizou-se, então, neste trabalho, o novo método apresentado para confirmar ou não as conclusões apresentadas em Soares et al. (2005). Lembrando, o teste analisado avaliou os alunos da 4ª série do ensino fundamental da rede estadual de ensino do Estado de Minas Gerais em 2001. Tomando como o grupo de referência a região metropolitana de Belo-Horizonte, e adotando-se como co-variável explicativa para o DIF na dificuldade uma variável dicotômica W_1i = 1 para os itens associados à competência mencionada e, W_1i = 0 para os demais, obteve-se os seguintes resultados após 20000 realizações das cadeias (São apresentadas as médias das últimas 10000 realizações).

Os resultados apresentados na Tabela VIII são coerentes com os apresentados nos relatórios PROEB/SIMAVE-2001, indicando que os alunos da região norte do estado apresentam uma proficiência, em média, bastante inferior aos alunos das demais regiões na rede estadual de ensino. No entanto, os resultados são diferentes dos obtidos sem consideração de DIF. Em particular, observou-se que as proficiências dos alunos do interior foram subestimadas, principalmente, dos alunos do triângulo mineiro.

Thumbnail

De fato, quando se analisa as estimativas encontradas para os coeficientes da estrutura de regressão dos parâmetros de DIF, Tabela IX, observa-se que os itens que apresentaram DIF, em média, foram um pouco mais difíceis para a região do triângulo mineiro (g₀₃ = 0,1441). Isto significa que o teste foi um pouco mais difícil para os alunos do triângulo mineiro.

Thumbnail

As estimativas encontradas para Y_1g, todas negativas nos grupos focais, indicam que de fato o conjunto de itens associados à competência mencionada é mais fácil para os alunos do interior do estado do que para os alunos da região metropolitana de Belo-Horizonte.

Além disso, o coeficiente estimado permite ter uma idéia razoável do gap existente com relação a essa competência. No caso, os alunos da região metropolitana estão, algo em torno de 0,30 unidades do desvio padrão da distribuição de proficiências (dependendo da região), defasados em relação à competência exibida pelos alunos do interior do estado.

Finalmente, dos 17 itens originalmente diagnosticados com DIF através das estatísticas clássicas, apenas 13 deles foram confirmados pelo novo método.

6. Conclusões

Os resultados obtidos nos exemplos foram bastante promissores, sendo que para os modelos simulados a recuperação dos parâmetros gerados foi bastante satisfatória. Por outro lado, no exemplo real o resultado da análise confirmou a conclusão do estudo anterior de Soares, Genovez & Galvão (2005), baseada em estatísticas clássicas, de que itens associados à competência relacionada ao conhecimento do aluno sobre as diferenças entre o espaço urbano e o espaço rural são mais fáceis para alunos do interior do estado do que para a região metropolitana. Além disso, o modelo forneceu uma estimativa para o gap dessas diferenças (ver Tabela IX). Esses resultados encorajam a continuidade de estudos com o objetivo do aprimoramento do modelo e, conseqüente aplicação em outros estudos reais. No momento, estão sendo realizados exemplos que analisam as estimativas, simultaneamente, para o DIF na discriminação e na dificuldade do item. Além disso, estão sendo realizados estudos para avaliar o efeito do número de itens âncoras sobre as estimativas dos parâmetros e das proficiências. Estudos mais abrangentes do que o apresentado no exemplo 3, que incluam a estimação de T_g, podem vir a ser muito interessantes, pois uma estimava dessa matriz de covariância permitiria prospectar co-variáveis associadas aos itens explicativas para o DIF que ainda não tivessem sido incluídas no modelo. Por outro lado, como é possível construir uma distribuição estimada para essa matriz de covariância a partir das simulações obtidas pelo amostrador de Gibbs, poderia se testar hipóteses de correlação, por exemplo, para o DIF exibido pelos itens. A dificuldade aqui está associada à inclusão de um maior número de grupos para uma boa estimação de T_g. Alternativas podem ser adotadas, por exemplo, criando-se grupos artificiais e exigindo-se que os demais parâmetros dos modelos sejam iguais nesses grupos, estimando-se apenas T_g. Espera-se que esse artifício conduza a uma diminuição do tempo necessário de processamento, viabilizando-se uma análise da correlação apresentada pelos DIF dos diferentes itens.

Agradecimentos

Os autores agradecem ao CNPq e à FAPEMIG que apoiaram parcialmente este trabalho. Agradecem, ainda, ao CAEd pela seção dos dados utilizados. Agradecem, também, aos três revisores anônimos que muito contribuíram para a melhoria da última versão apresentada.

(2) Birnbaum, A. (1968). Some Latent Traits Models and Their Use in Inferring an Examinees Ability. In: Statistical Theories of Mental Test Scores [edited by F. Lord and M. Novick], Addison-Wesley, Reading, MA, 397-472.

(3) Bock, D. & Zimovski, M.F. (1997). Multiple Group IRT. In: Handbook of Modern Item Response Theory [edited by R.W. Linden and R.K. Hambleton], Springer Verlag, New York, 433-448.

(4) Cole, N.S. (1993). History and Development of DIF. In: Differential Item Functioning [edited by P.W. Holland and H. Wainer], Lawrence Erlbaum, Hillsdale, NJ, 25-30.

(5) Dorans, N.J. & Holland, P.W. (1993). DIF detection and Description: Mantel-Haenszel and Standardization. In: Differential Item Functioning [edited by P.W. Holland and H. Wainer], Lawrence Erlbaum, Hillsdale, NJ, 35-66.

(6) Gamerman, D. & Lopes, H.L. (2006). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Second Edition. Taylor & Francis, New York.

(7) Hanson, B.A. (1998). Uniform DIF and DIF defined by Differences in Item Response Functions. Journal of Educational and Behavioral Education, 23, 244-253.

(8) Longford, N.T.; Holland, P.W. & Thayer, D.T. (1993). Stability of the MH D-DIF Statistics Across Populations. In: Differential Item Functioning [edited by P.W. Holland and H. Wainer], Lawrence Erlbaum, Hillsdale, NJ, 171-196.

(9) Lord, F.M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum, Hillsdale, New Jersey.

(10) Patz, R.J. & Junker, B.W. (1999a). A Straightforward Approach to MCMC for Item Response Models. Journal of Educational and Behavioral Statistics, 24, 146-178.

(11) Patz, R.J. & Junker, B.W. (1999b). Applications and Extensions of MCMC in IRT: Multiple Item Types, Missing Data, and Rated Responses. Journal of Educational and Behavioral Statistics, 24, 342-366.

(12) Soares, T.M.; Genovez, S.F. & Galvão, A.F. (2005). Análise do Comportamento Diferencial dos Itens de Geografia: estudo da 4ª série avaliada no PROEB/SIMAVE 2001. Avaliação Educacional, 16, 81-110.

(13) Soares, T.M. & Galvão, A.F. (2004). SISAni Um Sistema para a Análise de Itens: Manual do Usuário. UFJF, Caed, Faculdade de Educação (mimeo).

(14) Swaminathan, H. & Rogers, H.J. (1990). Detecting Differential Item Functioning Using Logistic Regression Procedures. Journal of Educational Measurement, 27, 361-370.

(15) Swanson, D.B.; Brian, E.C.; Case, S.M.; Nungester, R.J. & Featherman, C. (2002). Analysis of Differential Item Functioning (DIF) Using Hierarchical Logistic Regression Models. Journal of Educational and Behavioral Statistics, 27, 53-75.

(16) Thissen, D.; Steinberg, L. & Wainer, H. (1993). Detection of Differential Item Functioning Using the Parameters of Item Response Models. In: Differential Item Functioning [edited by P.W. Holland and H. Wainer], Lawrence Erlbaum, Hillsdale, NJ, 67-114.

Recebido em 06/2006; aceito em 04/2007

Received June 2006; accepted April 2007

i) Proficiências.

Para gerar amostras de p(q, b, d, l, g, T,Y, W) geram-se amostras, iterativamente, de:

As igualdades se verificam, basicamente, admitindo-se que as respostas dos alunos são independentes, e as resposta atribuídas aos itens são independentes quando condicionadas às proficiências e aos parâmetros dos modelos dos itens. A distribuição acima não apresenta uma forma conhecida fechada, não permitindo que amostras sejam geradas diretamente. Por isso, vai-se empregar o algoritmo de Metropolis-Hastings com esse objetivo. Para tanto, adotou-se um núcleo de transição normal, tal que a proposição para o novo estado é gerada por:

Adotou-se s_q = 0,2, escolhida a partir de um estudo piloto de tal forma a garantir uma taxa adequada de transição da cadeia. As condições iniciais habituais para as proficiências adotadas foram os escores brutos padronizados obtidos por cada aluno no teste. Estudos de convergência para algumas proficiências foram realizados após a geração de cadeias em paralelo, com diferentes condições iniciais.

ii) Parâmetros das distribuições de proficiências dos grupos.

a) Média da distribuição de proficiências do grupo.

Admita que p(µ_g |.) representa distribuição a posteriori da média do grupo condicionada aos demais parâmetros do modelo. Nesse caso,

, e admitindo que µ_g|s_g ~ N(0,s_g), tem-se que:

J_g representa o conjunto de alunos e N_g o número de alunos do grupo g, g = 1,...,G.

b) Variância da distribuição de proficiências do grupo.

No caso da variância das proficiências dos grupos:

e, adotando-se como prioris , onde GI representa uma distribuição gama inversa, tem-se que:

iii) Parâmetros estruturais b.

Admitindo-se independência local dos itens, para se gerar amostras de p(q, b, d, l, g, T, Y, W) = p(q, b, d,Y), pode-se gerar amostras a partir de:

Sendo que a última igualdade advém da hipótese de independência a priori dos parâmetros.

As prioris adotadas foram as seguintes: a_i ~ LN(0,2), b_i ~ N(0,1) e c_i ~ beta(5,17). Estas prioris são habitualmente empregadas, como por exemplo, são defaults no software Bilog-mg. E, novamente, como as distribuições apresentam formas desconhecidas o algoritmo de Metropolis-Hastings foi empregado utilizando-se os seguintes núcleos de transição: e, . Foram utilizados os seguintes valores para os parâmetros de dispersão dos núcleos de transição: a_a= 0,5, s_b = 0,2, d = 0,5.

iv) Parâmetros estruturais de DIF.

Amostras de p(d^h|q, b, l, g, T^h, Y, W^h, d^¹^h), h = a,b , podem ser obtidas a partir de amostras de:

Na última igualdade, admite-se que , sendo I a matriz identidade de ordem nid_h × nid_h, onde nid_h o número de itens com provável DIF. Nesse caso, a priori condicional, adotada para os parâmetros de DIF foi a seguinte: . Já o núcleo de transição considerado foi o seguinte: . Por outro lado, no caso mais geral: