Utilização da teoria da resposta ao item na produção de indicadores sócio-econômicos

Soares, Tufi Machado

doi:10.1590/S0101-74382005000100006

Resumos

No Brasil a Teoria da Resposta ao Item (TRI) tem sido empregada principalmente na produção de índices de proficiência para alunos que respondem a testes de avaliação educacional em larga escala. No entanto, seus diferentes modelos permitem construir indicadores com as mais variadas finalidades, e este é o caso dos indicadores de condição sócio-econômica. Este estudo apresenta e compara algumas técnicas empregadas para a produção de indicadores da condição sócio-econômica, tendo como base modelos da teoria da resposta ao item. Como estudo de caso utiliza-se a produção de índices do padrão de vida das famílias dos alunos que participaram do SIMAVE/PROEB (2002) - Programa de Avaliação Educacional do Estado de Minas Gerais. Adicionalmente, o trabalho fornece sugestões para a continuidade da produção de indicadores sócio-econômicos dentro do âmbito do SIMAVE.

teoria da resposta ao item; modelo para respostas graduadas; indicadores da condição sócio-econômica

In Brasil, the Item Response Theory (IRT) has been used on the production of the pupil's proficience in large scale assessment. However, its different kinds of models may be used to build others indices as is the case of socio-economic status index. This study presents and compares some techniques based on IRT that can lead to these indices. As a case study, the socio-economic index of the pupil's family, who have participated of the SIMAVE-2002 - assessment program of the Minas Gerais State, is produced. In addition, it is given some suggestions and guidelines for future socio-economic status index that will be produced in SIMAVE.

item response theory; multidimensional model; socio-economic status

Utilização da teoria da resposta ao item na produção de indicadores sócio-econômicos

Tufi Machado Soares

Departamento de Estatística, Centro de Avaliação Educacional (CAEd), Universidade Federal de Juiz de Fora (UFJF), Juiz de Fora MG, tufi@estatistica.ufjf.br

RESUMO

No Brasil a Teoria da Resposta ao Item (TRI) tem sido empregada principalmente na produção de índices de proficiência para alunos que respondem a testes de avaliação educacional em larga escala. No entanto, seus diferentes modelos permitem construir indicadores com as mais variadas finalidades, e este é o caso dos indicadores de condição sócio-econômica. Este estudo apresenta e compara algumas técnicas empregadas para a produção de indicadores da condição sócio-econômica, tendo como base modelos da teoria da resposta ao item. Como estudo de caso utiliza-se a produção de índices do padrão de vida das famílias dos alunos que participaram do SIMAVE/PROEB (2002) Programa de Avaliação Educacional do Estado de Minas Gerais. Adicionalmente, o trabalho fornece sugestões para a continuidade da produção de indicadores sócio-econômicos dentro do âmbito do SIMAVE.

Palavras-chave: teoria da resposta ao item; modelo para respostas graduadas; indicadores da condição sócio-econômica.

ABSTRACT

In Brasil, the Item Response Theory (IRT) has been used on the production of the pupil's proficience in large scale assessment. However, its different kinds of models may be used to build others indices as is the case of socio-economic status index. This study presents and compares some techniques based on IRT that can lead to these indices. As a case study, the socio-economic index of the pupil's family, who have participated of the SIMAVE-2002 assessment program of the Minas Gerais State, is produced. In addition, it is given some suggestions and guidelines for future socio-economic status index that will be produced in SIMAVE.

Keywords: item response theory; multidimensional model; socio-economic status.

1. Introdução

Principalmente nas áreas de ciências sociais, ciências humanas e ciências da saúde, é comum o interesse em avaliar determinados constructos teóricos, que se caracterizam por serem variáveis latentes (não diretamente observadas) como por exemplo, a habilidade cognitiva de um aluno em língua portuguesa, a satisfação no trabalho, a ansiedade, a depressão, a condição sócio-econômica. Tais constructos, em geral, são abstrações teóricas definidas dentro de uma rede de relações produzidas a partir de vários outros constructos (cf. Spector, 1992). Por não serem diretamente medidos, a escala de valores segundo a qual esses constructos são avaliados é produzida a partir de instrumentos (testes, questionários, etc) que se constituem de itens (questões do teste ou perguntas específicas, devidamente estruturadas de acordo com um modelo que será empregado) que, no entender dos especialistas que os elaboram, se associam diretamente ao constructo (ou constructos) de interesse. Assim, as variáveis produzidas a partir das questões apresentadas no instrumento são variáveis indicadores do constructo que se deseja medir.

Existem diferentes técnicas para se obter uma medida do constructo e, grosso modo, podem ser divididas segundo as chamadas técnicas clássicas, onde o modelo para a construção da escala é diretamente baseado no resultado obtido no instrumento como um todo, e técnicas onde modelos específicos são construídos para cada item do instrumento e a construção da escala considera todos esses modelos individuais. Nesse último caso, podem ser classificadas as técnicas baseadas na teoria da resposta ao item (TRI) que, originalmente, foram empregadas na produção de escalas de proficiência em testes de avaliação educacional. Dentre as vantagens que a TRI apresenta sobre as técnicas clássicas estão: A TRI permite uma melhor análise de cada item que constitui o instrumento de avaliação (ou medida), considerando suas características estatísticas específicas na produção das escalas, como as que medem a capacidade de discriminar os indivíduos e as dificuldades dos itens; facilita, também, a interpretação da escala produzida e permite conhecer, diretamente, quais itens estão produzindo a informação gerada ao longo do continnum de valores, segundo o qual a escala é construída, tipicamente o conjunto dos números reais; além disso, a TRI permite a comparabilidade dos resultados produzidos para grupos de indivíduos diferentes, mesmo quando instrumentos (parcialmente) diferentes são aplicados; finalmente, A TRI permite um tratamento natural de casos com dados faltantes. Os critérios habituais exigem que todos os itens sejam preenchidos ou, então, que alguma técnica de preenchimento de dados ausentes seja empregada. No caso da TRI, na estimação da variável latente quando existem dados faltantes empregam-se apenas os itens respondidos.

No Brasil, o critério mais utilizado com a finalidade de medir a condição sócio-econômica é o critério de classificação econômica Brasil, proposto pela ANEP Associação Nacional de Empresas de Pesquisa, baseado em um estudo realizado em 1996 numa amostra de 20000 domicílios urbanos em cidades com mais de 20000 habitantes. Esse critério tem a finalidade principal de referenciar as empresas de pesquisa e opinião para medir a capacidade de compra dos consumidores. A escala produzida se baseia numa pontuação bruta ponderada a partir de uma série de questões que avaliam a posse de determinados bens de conforto doméstico, como número de aparelhos de rádio, geladeiras, etc, além da escolaridade do chefe da família. Para se chegar aos pesos da pontuação, são realizados estudos como o mencionado e, desses estudos, modelos de regressão clássicos são construídos tendo como variável dependente a renda familiar. No presente estudo, devido às características específicas da população constituída pelas famílias dos alunos que participam do SIMAVE (rural, urbana de grandes e médios municípios, e, ainda, urbana de pequenos municípios) optou-se pela produção de uma escala, e conseqüentemente uma classificação, própria.

O objetivo desse trabalho é, inicialmente, apresentar algumas técnicas para produção de indicadores da condição sócio-econômica do indivíduo (padrão de vida) baseadas em modelos da Teoria da Resposta ao Item. Esses estudos foram desenvolvidos a partir da experiência do autor com os dados do SIMAVE/PROEB (Sistema Mineiro de Avaliação Educacional/Programa de Avaliação da Educação Básica Rede estadual e parte da rede municipal) com esse tipo de metodologia. Adicionalmente, este estudo tem, também, o objetivo de apoiar uma decisão sobre qual seria a melhor metodologia, com o menor número de variáveis possível, que produziria uma medida adequada às finalidades do SIMAVE/ PROEB da condição sócio-econômica dos alunos que participam das avaliações educacionais que periodicamente vem sendo realizadas. A introdução do menor número possível de variáveis reserva espaço nos questionários para outras questões relevantes.

Embora natural, o que não quer dizer trivial, no contexto da TRI, não é, ainda, comum no Brasil a utilização desse tipo de ferramenta na produção de indicadores da condição sócio-econômica. Soares & Mambrini (2003) apresentam um trabalho onde comparam o efeito produzido sobre a nota dos alunos no vestibular da UFMG do escore produzido pelo critério Brasil e o escore produzido por um específico modelo da TRI. Em outros estudos, que empregam modelos multinível (cf. Bryk & Raudenbush, 1992) em pesquisas educacionais, escores sócio-econômicos foram construídos com a finalidade de observar a influência dessa variável sobre a proficiência do aluno. Especificamente, o emprego de modelos da TRI parece ser o caso do estudo de Fletcher (1998), onde o autor, provavelmente, utiliza o modelo de dois parâmetros. Além desse, existe o trabalho de Soares (2003).

Nas seções 2, 3, e 4 serão revistos conceitos básicos sobre as principais estatísticas e modelos utilizados na construção dos índices. Preferiu-se enfatizar o que não tem sido muito abordado na literatura brasileira evitando, por outro lado, repetir o que já foi suficientemente bem apresentado. Assim, procurou-se apresentar deduções e justificativas das estatísticas e dos processos construtivos dos modelos que, em geral, não são bem discutidos. Na seção 2 apresentam-se as principais estatísticas chamadas de "clássicas" para testes psicométricos que são importantes para análises preliminares, mesmo quando se empregam modelos da Teoria da Resposta ao Item. Na seção 3 introduz-se à teoria da resposta ao item, enfocando os modelos que são empregados neste estudo e, na seção, 4 aborda-se a questão da dimensionalidade do instrumento aplicado. Na seção 5 apresentam-se os processos construtivos de três índices, a partir de variações metodológicas, fazendo-se uma análise comparativa dos três diferentes índices produzidos.

2. Métodos Clássicos para Discriminação dos Itens e Análise da Dimensionalidade

2.1 Correlação ponto bisserial

Considere o caso de testes constituídos por itens binários ou dicotômicos, isto é, itens para os quais se admite duas respostas possíveis. A correlação bisserial e a correlação ponto bisserial são medidas estatísticas que medem a correlação do resultado de um item em particular do teste com o resultado do teste (isto é, o escore bruto total), sendo, portanto, uma medida da capacidade de discriminação do item em relação ao resultado do teste. A correlação ponto bisserial é a correlação de Pearson e uma expressão que considera, explicitamente, os parâmetros da distribuição pode ser obtida. Para tanto, admita que S represente o escore bruto obtido no teste. Admita que Y represente o resultado da resposta atribuída a um item, uma variável dicotômica (no caso de testes educacionais, por exemplo, atribui-se o valor Y = 0, se a resposta for errada, e Y = 1, para uma resposta correta; e, no caso de um item que avalia a condição sócio-econômica Y = 1 representa a posse de um bem, por exemplo). O índice de correlação de Pearson é definido por:

Uma estimativa natural obtida sobre o resultado do teste é a seguinte:

onde é o escore médio no teste para os que acertaram o item e é o escore médio no teste para todos. é a proporção dos que acertaram o item no teste, é o desvio padrão dos escores obtidos nos testes pelos respondentes e, a estimativa para a correlação de Pearson é o que freqüentemente se denomina na literatura de correlação ponto bisserial.

2.2 Correlação bisserial

Seja Z uma variável aleatória (não observada), associada ao constructo latente do respondente, tal que Z ~ N(0,1). Admita ainda que o escore bruto do respondente no teste se associa linearmente a essa variável da seguinte forma: S=AZ+B+e, onde E(e) = 0 e, E(eZ) = 0. Note-se que E(S) = A E(Z) + B e, então a correlação de Pearson para S e Z é dada por:

Sejam dois conjuntos de possíveis respondentes, os que acertam o item e os que erram o item. Assim, E(S½Y= 0) = A E(Z½Y=0) + B e, E(S½Y =1 = E(Z½Y= 1) + B, tal que:

É fácil obter estimativas para os termos no numerador da equação (1), basta tomar a média dos escores em todo o teste dos que acertam e dos que erram o item. O mesmo não ocorre em relação ao denominador por se tratarem de variáveis latentes. Admite-se, então, que os respondentes que acertam o item são os que apresentam valores para Z superiores à , onde é tal que dz = p. Logo, definindo, tem-se que:

Assim, de (1):

e uma estimativa para a correlação de Pearson é dada, então, por:

onde é o escore bruto médio para os que erram o item, é o escore bruto médio para os que acertam o item, é o valor da função de densidade normal padrão em , é a proporção dos que acertaram o item no teste e, é o desvio padrão dos escores brutos obtidos no teste. Finalmente, pode-se mostrar que:

2.3 Correlação polisserial e ponto polisserial

Os conceitos de correlação ponto bisserial e bisserial podem ser estendidos para o caso de itens politômicos, os quais apresentam mais de duas categorias ordenadas de respostas (T₀, T₁,...,T_m), T_K+1> T_K. A correlação ponto polisserial é definida, simplesmente, como sendo a correlação de Pearson entre o escore bruto do teste ( S ) e o escore do item, medido segundo uma escala ordenada de inteiros cujas diferenças entre dois valores sucessivos seja sempre a mesma (por exemplo, (0, 1, 2, ..., m)). A correlação polisserial é definida com base na relação (2) da seguinte forma:

onde é a proporção dos que alcançaram o escore k e é o desvio padrão dos escores.

2.4 Correlação tetracórica

Esse índice mede a correlação entre os resultados dos itens de um teste. Suponha que Z₁~ N(0,1) seja uma variável (e, associada a habilidade latente) relacionada à resposta correta ou não atribuída ao item 1 e Z₂ ~ N(0,1) represente a variável (igualmente associada a habilidade latente do indivíduo) também associada à resposta correta ou não ao item 2. Seja p₁a proporção dos que acertam o item 1 e p₂dos que acertam o item 2. Admita que, os que acertam o item 1 são os que apresentam valores para Z₁> z_p1, e, os que acertam o item 2 são os que apresentam habilidade Z₂> z_p2, onde:

Se Z₁e, Z₂ são normalmente conjuntamente distribuídas com coeficiente de correlação então a distribuição conjunta das duas variáveis é dada por:

Então, a probabilidade de acerto de ambos os itens é dada por:

Como a relação é uma função implícita de r, uma solução para a equação acima tem que ser encontrada a partir de aproximações numéricas. Um método para obter-se uma aproximação é o de Divgi (1979), que está disponível no software TESTFACT (cf. Wilson et al., 1998).

3. Teoria da Resposta ao Item

3.1 Introdução

Conforme diversos autores (ver, por exemplo Baker, 1993), a teoria a resposta ao item surgiu com os trabalhos pioneiros de Lord (1952) e Rasch (1960). Esses autores foram os primeiros a propor modelos estatísticos paramétricos para itens de testes, que associavam a probabilidade de uma dada resposta (inicialmente, certa ou errada) a uma variável latente (não observada) interpretada como sendo a proficiência ou habilidade dos respondentes dentro de um contexto de testes para avaliação educacional ou avaliação psicométrica. Inicialmente, foi utilizada a distribuição normal acumulada na especificação do modelo. Birnbaun (1968) sugeriu utilizar a função logística pois, pelo fato de ser uma função explícita dos parâmetros dos itens e da proficiência, é matematicamente mais convenientemente. Desde então, essa teoria tem tido notável avanço teórico, sendo que novos modelos têm sido incorporados, o que tem trazido grande versatilidade a suas aplicações. É o caso dos modelos politômicos, que incorporam várias categorias das respostas (além das dicotômicas: certo ou errado), os modelos multidimensionais, que permitem produzir escalas para mais de uma variável latente associada, por exemplo, quando se admite à idéia de diferentes habilidades para o desenvolvimento cognitivo do aluno e, ainda, os modelos que incorporam comportamento diferenciado entre os itens em grupos diferentes conhecidos como modelos para grupos múltiplos.

3.2 Modelo logístico de dois parâmetros (unidimensional)

Admita que Y seja uma variável aleatória dicotômica assumindo os valores 0, ou, 1. No caso específico de um teste educacional o valor 0 está associado a uma resposta errada e, o valor 1 a uma resposta certa por parte do aluno. O modelo de dois parâmetros expressa, então, a relação entre a variável latente q e a resposta dada ao item da seguinte forma:

onde o índice i representa o item; a_i é denominado parâmetro de discriminação do item; b_i é denominado de parâmetro de dificuldade do item. D é um fator de escala, constante, e normalmente igual a 1,7, usado para aproximar a curva logística da distribuição normal. Esse fator de escala faz com que para um dado q a probabilidade P(Y=1;q )seja aproximadamente a mesma nos dois tipos de modelos e, conseqüentemente, permite que os valores de q dos indivíduos sejam estimados com valores muito próximos em ambos os casos. Como se pode notar, o parâmetro b_i representa o ponto na escala da variável latente q, para o qual há 50% de chance de escolha da resposta representada por Y = 1 pelo indivíduo. É fácil observar que se (6) for derivada em relação à q, a função resultante atinge seu máximo em q = b_i com um valor igual a 0,425 a_i. Portanto, quanto maior for o valor do parâmetro a_i, mais sensível torna-se o modelo a variações na habilidade em torno de seu ponto de dificuldade. Por isso, ele é conhecido como parâmetro de discriminação do item. Na Figura 1, apresenta-se a denominada curva característica de um item, isto é, a representação dos valores sob forma de gráfico de um modelo em função de q, enfatizando as propriedades de seus parâmetros:

Podem ser consideradas como variáveis indicadoras da condição sócio-econômica, a posse de determinados bens como por exemplo eletrodomésticos, automóvel, etc. Assim, Y representará a posse ou não de um certo tipo de bem, e o modelo (6) será empregado para associar o nível sócio-econômico (representado pela variável latente q) com a probabilidade de o indivíduo possuir o bem. O modelo abaixo corresponde ao item Q19 (Se a família do aluno possui ou não aparelho de vídeo cassete) utilizado na construção do escore sócio-econômico do SIMAVE-2002.

O parâmetro de discriminação estimado para esse item foi a = 1.292, e o parâmetro de dificuldade foi b = 0.218. No presente caso o índice de dificuldade pode ser interpretado como o ponto da escala correspondente ao nível sócio-econômico para o qual a probabilidade de uma família possuir um aparelho de vídeo cassete é de 0.5. Note-se que esse item apresenta boa discriminação e, conseqüentemente, bom nível de informação, para os valores da condição sócio-econômica em torno de 0.218.

3.3 Modelo logístico para respostas graduadas

O modelo de respostas graduadas é uma generalização do modelo de dois parâmetros para o caso de mais de duas categorias ordenadas de respostas. Para sua formulação admita, inicialmente, que o indivíduo possa alcançar aos seguintes níveis, tendo em vista as suas respostas atribuídas ao item i, hⁱ = h₀,h₁,...,h_m_i. Admita, ainda, que tendo alcançado o nível h, ele tenha também alcançado os níveis h_j para j < . Assim, considere a classe de eventos N = {(h₀), (h₀,h₁),..., (h₀,h₁ ,...,h_m1 )} onde N = (h₀,h₁,...,h) é o evento que representa o fato de o indivíduo ter alcançado o nível h e, é o correspondente evento complementar. A resposta dada ao instrumento será classificada segundo a escala ordinal K_i = 0, 1,..., m_i onde K_i =, representa que o indivíduo alcançou o nível h e não alcançou os níveis h_j, j > . Assim,

Note-se inicialmente, que:

tal que, por recorrência:

Admitindo que P(N₀;q) = 1. O Termo P(N_j½N_j-1; q) é conhecido como função de processamento, "processing function" (cf. Samejima, 1996). De (7):

Para um fechamento da expressão (9), define-se que e, conseqüentemente, . Por outro lado por (8) e (9):

Samejima (1997), estabelece 4 condições para se definir adequadamente um modelo P(N;q), entre elas a de que exista solução única para o estimador de máxima verossimilhança de q (ver Samejima, 1997). De fato, essas condições são satisfeitas quando se admite que:

ou seja, a probabilidade de se alcançar pelo menos o nível h é representado por um modelo de dois parâmetros, onde a dificuldade correspondente ao item é modulada pelo parâmetro C, característico do nível . E, portanto:

onde é a dificuldade de se alcançar pelo menos o nível no item i. O seguinte exemplo ilustra uma aplicação de modelos para respostas graduadas. Novamente, utilizando-se os dados do Simave-2002, o modelo abaixo foi o encontrado para a questão que perguntava sobre o número de televisores que a família do aluno possuía (as possibilidades de respostas foram as seguintes: nenhum, 1 televisor, 2 ou mais). Para esse tipo de item, a probabilidade de escolha de cada resposta pode ser modelada através modelos de respostas graduadas. E o seguinte modelo foi obtido (a_i = 0.767, b_i = -0.300, C₀ = ¥, C₁ = 1.535, C₂ = -1.535), a probabilidade de cada resposta está representada no gráfico abaixo:

Gráfico

Note-se que a probabilidade de não ter televisor é mais elevada nas famílias de escores sócio-econômicos mais baixos, decaindo com o aumento da condição sócio-econômica. A probabilidade de a família ter apenas um televisor é mais elevada nas famílias com escores medianos e a probabilidade de se ter dois ou mais televisores é característico de famílias mais abastardas. É importante observar que:

o que, naturalmente, conduz a um problema de identificabilidade dos parâmetros se não forem admitidas restrições adicionais. Assim, admite-se que (0.0, tipicamente) o que resolve o problema de identificabilidade nesses casos. Por último, deve-se notar que o modelo de respostas graduadas se reduz ao modelo de dois parâmetros quando m_i = 1.

3.4 Estimação dos escores de habilidades (q) a partir do método de máxima verossimilhança (maximum likelihood)

Admita-se que um item i, tenha m_i categorias de respostas. Seja P_i(K_i;q)o modelo que representa a probabilidade de escolha do K-ésima categoria (K_i = 0, 1, ..., m_i) admita, ainda, que os parâmetros desse modelo sejam conhecidos e se deseja estimar o valor de q para um dado padrão de (escolha ou resposta) (I) = (K₁, K₂, ..., K_I ) de um indivíduo em I itens diferentes que constituem o teste apresentado a ele. Considerando que as respostas atribuídas aos diferentes itens são independentes quando condicionadas a habilidade q, propriedade conhecida como independência local dos itens, a função de verossimilhança para esse padrão de escolhas é dada por:

e, por conveniência matemática dada as características dos modelos utilizados, o seu logaritmo Neperiano é representado por:

Uma estimativa para q é obtida então maximizando (11) ou, equivalentemente, (12). Por isso, o termo verossimilhança máxima. Considerando a condição necessária para a obtenção da solução ótima, , tem-se:

A solução de (13) não pode ser obtida analiticamente para os modelos considerados, por isso deve ser resolvida através de procedimentos numéricos iterativos. O método mais usado na TRI é o conhecido método de Newton-Raphson (cf. Minoux, 1986). A equação de iteração desse procedimento é dada por:

e, a solução para (13) é obtida a partir do momento que critério de convergência seja alcançado, como por exemplo: (d pequeno). Obviamente, para se empregar o método é necessário se obter as fórmulas para o Gradiente e Hessiano em cada tipo de modelo diferente. No caso dos modelos da TRI aqui empregados, a obtenção de fórmulas explícitas não representa maiores problemas e podem ser obtidas analiticamente (ver, por exemplo, Baker, 1993; Andrade et al., 2001). Sabe-se que no caso dos modelos de respostas graduadas a solução existe e é única (ver, por exemplo, Samejima, 1997).

3.5 Função de informação do item e informação do teste

Muito embora sua origem tenha sido um pouco distinta, a definição da função de informação de um item proposta por Birnbaum (1968), deriva diretamente da função de informação de Fischer e, portanto, considere:

onde P_i' representa a derivada com respeito à habilidade q. Assim, pelo fato de a distribuição dos valores das respostas ser discreta o valor da informação no teste é dado por:

e essa é a função de informação esperada de um determinado teste. Note-se que a independência das respostas atribuídas aos itens é essencial para obtenção da expressão na forma acima. Para um item específico, a informação é dada por:

Particularmente, no caso de modelos dicotômicos (m_i = 1), tem-se que P_i(0;q) = 1 - P_i(1;q) e então:

que é a expressão proposta por Birnbaum para a informação de um item dicotômico. Fórmulas explícitas para os diversos modelos podem ser encontradas em Baker (1992) mas também podem ser obtidas facilmente para modelos de dois parâmetros e modelos de respostas graduadas.

3.6 Estimação dos parâmetros do modelo

Neste trabalho foi utilizado o método da Máxima Verossimilhança Marginal (ou marginalizada) para a estimação dos parâmetros dos modelos (cf. Bock & Lieberman, 1970). Admita que P_i(K;q,R_i) seja o modelo de probabilidade correspondente a escolha de K no i-ésimo item (K=1, ..., m_i). A idéia original de Bock & Lieberman (1970), foi a de considerar, inicialmente uma distribuição g(q,h) para as proficiências q, onde h são os hiperparâmetros da distribuição (conhecidos ou arbitrados nesse tipo de modelo), e resolver o problema de estimar os parâmetros considerando a média segundo essa distribuição sobre o espaço de parâmetros incidentais q. Isto é, esses autores propõem resolver, inicialmente, o problema de encontrar que maximize a verossimilhança marginal:

ou, equivalentemente, como as respostas dos examinandos são independentes:

Encontrados os parâmetros , os parâmetros , poderiam ser facilmente estimados numa etapa posterior. A otimização da expressão acima apresenta a dificuldade inerente à avaliação da integral e, por isso, é aproximado por um problema onde a integral é "discretizada" nos chamados pontos de quadratura. Isto é, considerando os pares (q_q, A_q = g(q_q; h) Dq_q) com Q pontos finitos ("grande o suficiente" para se alcançar uma boa aproximação), o problema aproximado consiste em encontrar que maximize:

A condição necessária para se obter a solução ótima é dada por:

Definindo,

onde u(K_i(j), K) = 1 se K_i(j)= K e u(K_i(j), K)= 0 se K_i(j) ¹ K, pode-se (cf. Backer, 1992) mostrar que (22) pode ser colocada na seguinte forma:

Se as proficiências fossem conhecidas, representaria a freqüência observada de proficiências no intervalo q. Aqui, como as proficiências são desconhecidas, esse termo pode ser interpretado como a freqüência esperada de proficiência no intervalo q, condicionada aos parâmetros do modelo . Bock & Aitkin (1981) propõe um procedimento iterativo onde:

i) Admite-se um valor provisório para os parâmetros.

ii) Calcula-se (K;), K =1, ..., m_i , i = 1, ..., I.

iii) Resolve-se (28), calculando para (K;) do passo ii).

iv) Se , o algoritmo alcançou convergência e a solução deve ter sido alcançada. Caso contrário, deve-se retornar ao passo ii).

A justificativa para o emprego do algoritmo acima e, conseqüentemente, justificativas para uma provável convergência do algoritmo advém de sua interpretação dentro das condições gerais para o conhecido algoritmo EM, conforme estudado em Dempster, Laird & Rubin (1977). Note-se que a estimativa obtida depende crucialmente da função g(q,h) que se admite para as proficiências. No BILOG-MG há, grosso modo, três possibilidades: fixa (normal), fixa (com valores de quadratura fornecidos pelo usuário), e, empírica, com valores de quadratura re-estimados a cada passo do algoritmo acima.

4. Análise da Dimensionalidade

4.1 Modelo de análise fatorial para variáveis dicotômicas

Tanto o método de análise da dimensionalidade associada a um conjunto de variáveis dicotômicas que consiste na inspeção dos autovalores da chamada matriz de correlação tetracórica quanto o método da análise fatorial plena (cf. Bock & Aitkin, 1981; Bock, Gibbons & Muraki, 1988; Muraki & Engelhard, 1985) foram propostos a partir de uma adaptação do modelo tradicional de análise fatorial que considera a estrutura de dimensões associadas a variáveis contínuas. Novamente, como no caso de algumas estatísticas clássicas a definição de uma variável artificial é a chave para a construção do método. Assim, definindo uma variável X_i, tal que s_X = 1, e E(X_i) = 0, e o relacionamento dessa variável com a variável dicotômica Y_i que representa a resposta atribuída ao item i (assumindo os valores 0 ou 1) é tal que: se X_i> g_i, então Y_i = 1 e, se X_i < g_i, então Y_i = 0.

O modelo de análise fatorial é então definido a partir da variável X_i da seguinte forma:

Os valores l_ij são conhecidos como as cargas associadas ao fator q_j e à variável X_i , sendo uma medida do grau de associação entre o fator e a variável. Representa-se o vetor de dimensões latentes associadas por q e, por hipótese, admite-se que E(q e) = 0 e, E(q_i q_j ) = 0 para i ¹ j, e, ainda, que e ~ N(0, Y), com Y diagonal. Dessa forma, sob essas hipóteses é fácil mostrar que a correlação de X é dada por:

onde Q é a matriz de covariância de q. Em particular, se o modelo é unidimensional, então as linhas de L Q L serão todas linearmente dependentes entre si e assim, portanto, os seus autovalores serão todos zeros exceto um deles. Na prática, a unidimensionalidade deve ser entendida como a predominância de uma única dimensão sobre as demais e se aceita como a dimensão associada às variáveis um certo número de autovalores cujos valores sejam razoavelmente maiores que os dos demais. Embora, esse critério seja subjetivo.

4.2 Método de análise fatorial de informação plena

Com o intuito de evitar a subjetividade inerente ao uso da inspeção dos autovalores da matriz de correlação tetracórica como método para detecção da dimensionalidade. Bock & Aitkin (1981), Bock, Gibbons & Muraki (1988), propuseram o método da análise fatorial de informação plena. Considere, novamente, o modelo de análise fatorial apresentado na seção anterior. Dessa forma então, P(Y_i = 1) = P(X_i> g_i) = . Lembrando que por hipótese e ~ N(0, Y), com Y diagonal, tem-se então que:

onde e, é a variância de e_i. Da estrutura do modelo é fácil verificar que , e reparametrizando (29) da seguinte forma:

tem-se um modelo multidimensional que utiliza a curva de ogivas normal (função de distribuição de uma normal padronizada):

onde b_i é interpretado como a dificuldade geral do item, e os valores a_ij como os parâmetros de discriminação específicos a cada dimensão. O método para estimação dos parâmetros desse modelo pode ser, mutato mutandis, o mesmo método de máxima verossimilhança marginal (cf. Bock & Aitkin, 1981) empregado nos modelos mais comuns e anteriormente apresentado. Nota-se que as equações (25) fornecem uma forma direta para se obter as cargas do modelo de análise fatorial, basta que se inverta as relações. Para a estimação dos parâmetros do modelo (26) empregando-se o método mencionado pode-se utilizar o software testfact (cf. Wilson, Wood & Gibbons, 1998). Para uma decisão quanto ao número de dimensões os autores sugerem um teste para as razões entre os valores da verossimilhança de dois modelos aninhados. Isto é, compara-se estatisticamente a diferença entre os logaritmos do valor da função de verossimilhança para de dois modelos, tendo um deles uma dimensão a mais que o anterior. Sob condições apropriadas, e sob a hipótese nula de que a dimensão correta é a do modelo com menor dimensão, essa diferença apresenta, dependendo do tamanho da amostra, uma distribuição aproximadamente qui-quadrado com graus de liberdade igual à diferença entre o número de parâmetros dos dois modelos. Infelizmente, o resultado desse teste é altamente dependente do tamanho da amostra empregada e precisa ser usado com bastante cuidado. Habitualmente, recomenda-se que várias amostras, de tamanhos diferentes, sejam testadas antes de uma decisão final. Adicionalmente, a esse tipo de análise recomenda-se testar também a razão entre os autovalores da matriz de correlações estimada.

5. Índices para o Padrão de Vida

5.1 Introdução

Aos alunos da 4ª e 8ª série do ensino fundamental e da 3ª série do ensino médio das escolas estaduais (e, também, algumas municipais) do estado de Minas Gerais, que participaram do SIMAVE-2002, foi apresentado um questionário com aproximadamente 60 questões com finalidades variadas, principalmente a de buscar explicações para os resultados alcançados no teste pelos alunos. Parte dessas questões é destinada à avaliação da condição sócio-econômica familiar do aluno. Uma medida dessa condição é de grande importância nos trabalhos que buscam construir modelos que explicam os resultados alcançados no teste como os estudos que utilizam modelos multinível, permitindo controlar pela condição sócio-econômica, por exemplo, a influência que outras variáveis exercem sobre o rendimento dos alunos. Especificamente, no caso do SIMAVE-2002 as seguintes questões, 20 ao todo, foram apresentadas aos alunos com a finalidade de se construir um índice desse tipo:

Note-se que as questões de q32 à q35 referem-se à escolaridade do pai ou responsável. De fato, a variável resultante dessas questões pode ser uma boa proxy para a condição sócio-econômica da família e portanto será utilizada, também, na produção dos índices. No presente estudo, como pode ser observado pela forma como as questões foram construídas, há variáveis com escala de medida categórica que essencialmente admitem respostas dicotômicas (tem/não-tem asfalto, trabalha/não-trabalha, etc), outras com escala intervalar porém com valores inteiros (número de geladeiras, televisores, e etc), o que se caracteriza por variáveis típicas de contagem, e outras com escala ordinal de medida (as que medem a escolaridade do pai). O modelo de dois parâmetros, apresentado na seção 3.2, permite que se construa um índice quando as variáveis são todas dicotômicas. Já o modelo de respostas graduadas permite que se empregue uma escala ordinal de medidas, não necessariamente com o mesmo número de categorias, podendo, ainda, considerar itens dicotômicos. A idéia central do trabalho é a de construir e comparar indicadores da condição sócio-econômica usando esses dois tipos de modelos.

5.2 Índices obtidos a partir da dicotomização direta dos itens

Nesta seção, então, o primeiro tipo de índice analisado será produzido a partir da utilização do modelo de dois parâmetros, para itens dicotômicos e uma única dimensão latente. Portando, o primeiro passo, nesse caso, será o de tornar dicotômicas todas as variáveis originais. Assim, as variáveis que já não são binárias terão suas respostas transformadas de tal forma que as novas variáveis produzidas admitem apenas respostas dicotômicas é o caso, por exemplo, da variável q16 (que representa o Número de Geladeiras da família) que é transformada para uma nova variável q16d (que é indicadora de se a família possui ou não esse bem). Assim procedendo, chega-se ao um conjunto de 20 variáveis (representadas por Q06d a Q32d, conforme a questão da qual ela tenha se originado) que foram utilizadas na produção do índice_1. O primeiro passo na análise é o da avaliação da correlação bisserial, para verificar se uma determinada variável apresenta correlação significativa com o escore bruto produzido pelo conjunto das variáveis. Esse passo é crucial para a escolha de itens que de fato apresentam consistência interna e se associam bem ao escore que será produzido. Normalmente, aceita-se valores para a correlação bisserial superior a 0.3. Os resultados encontrados para a correlação bisserial, indicam que todas as variáveis indicadas na Tabela 2 apresentam correlação bisserial superior a 0,3 exceto a variável q06d, que apresentou um valor de 0,04. Na Tabela 2 é apresentado o percentual de posses por parte das famílias dos alunos e o valor estimado para a correlação bisserial.

Thumbnail

Esses resultados permitem concluir que a variável q06d (se o aluno trabalha ou não) não apresenta uma boa correlação com o escore bruto produzido pelo conjunto das variáveis, portanto, não apresenta boa discriminação para o índice que se deseja produzir. Essa variável é, então, excluída de qualquer análise posterior. Se forem observados os valores das proporções de posses, verifica-se que a maioria das variáveis apresenta uma proporção elevada, o que pode traduzir-se num índice com baixa informação devida a ausência de itens com níveis de dificuldade de acesso ao bem mais elevados. As variáveis Q11d a Q14d, particularmente, apresentam uma proporção de posses muito elevada, de tal forma, que provavelmente não trarão informação para o índice que será produzido. Assim, poderiam, a critério do analista serem eliminadas. No entanto, como um objetivo do trabalho é o de comparar os diferentes índices, optou-se por mantê-las e excluí-las somente em função de características estatísticas que possam ser indesejáveis na construção do índice.

Como já abordado na seção 4, uma etapa importante na construção de um índice desse tipo é a investigação das dimensões avaliadas pelas questões que serão utilizadas na construção. Como no presente caso as variáveis são dicotômicas, pode-se realizar a análise das dimensões associadas a essas variáveis a partir das ferramentas disponíveis no software testfact^®. O modelo utilizado pressupõe que exista uma única dimensão latente. Nesse caso, é importante testar se de fato existe apenas uma dimensão que seja preponderante, ou, no jargão da psicometria, um único fator dominante. Se existe um único fator que seja dominante, pode-se produzir o índice diretamente a partir do conjunto de variáveis considerando o modelo (6) e utilizando-se do próprio software testfact, ou ainda do software Bilogmg, que apresenta maior versatilidade, tendo em vista que oferece opções de métodos diferentes para a estimação dos parâmetros dos modelos e para a estimação dos escores produzidos para o índice. No caso de existir mais de uma dimensão latente, dois caminhos podem ser seguidos, sendo que o primeiro consiste em remover variáveis que estejam mais fortemente associadas às outras dimensões além daquela que representa, no caso, o índice que se deseja produzir. Esse procedimento, provavelmente, tem o inconveniente de perder informações associadas a essas variáveis, porém tem a virtude de ao se reduzir o problema ao caso unidimensional apresentar procedimentos mais estáveis para a estimação dos modelos e dos escores.

Para se decidir sobre o número de dimensões pode-se valer das estatísticas apresentadas na seção 4. No presente estudo, além da inspeção dos autovalores da matriz de correlações tetracóricas, foi utilizado o método stepwise, disponível no testfact, que compara a significância da diferença obtida para as estatísticas G² calculadas entre dois modelos aninhados, tendo um deles uma dimensão a mais que o anterior. Como comentado na seção 4, essa diferença apresenta, aproximadamente sob condições apropriadas, particularmente dependente do tamanho da amostra, uma distribuição qui-quadrado com graus de liberdade igual à diferença entre o número de parâmetros dos dois modelos. Deve-se tomar o cuidado, já que se vai basear sua decisão no resultado de uma teste de significância, para se utilizar um tamanho de amostra que seja no mínimo suficiente para estimar satisfatoriamente os parâmetros do modelo mas, também, não tão grande que se torne demasiadamente sensível às pequenas diferenças observadas e conduza a interpretações equivocadas com base na significância estimada. Estudos que avaliam o tamanho da amostra mais conveniente são raros e pouco conclusivos. Em geral, esse tamanho da amostra dependerá do número de parâmetros a ser estimado no modelo, do número de respondentes para cada item e, das características específicas de cada modelo e dos métodos de estimação empregados. Recomenda-se testar vários tamanhos de amostras e usar o bom senso e a experiência para uma decisão final quanto ao número de dimensões. No presente estudo, foi utilizada uma amostra de 1000 casos para conduzir essa específica análise, o que se mostrou bastante conveniente. Além disso, como sugerido por um dos revisores deste artigo, testou-se a estabilidade da razão entre os autovalores e o maior autovalor em 5 amostras diferentes. Os sete primeiros autovalores da matriz de correlações tetracóricas, e a respectiva razão entre o autovalor e o maior autovalor, são apresentados abaixo para 5 amostras diferentes:

Todas as análises subseqüentes de dimensionalidade foram baseadas na amostra correspondente ao primeiro conjunto de autovalores. O resultado das significâncias para as diferenças observadas das estatísticas G² entre os modelos estimados pelo método de máxima verossimilhança marginal, com dimensões sucessivas a partir de uma dimensão, foi o seguinte:

Sendo que o percentual de variância explicada para os 5 fatores é, respectivamente, 42,0%, 11,0%, 4,2%, 4,0% e 2,6%. A "matriz de cargas" obtida para uma extração, sem e com rotação pelo método Varimax, dos dois primeiros fatores foi a seguinte:

Thumbnail

Após análise desses resultados, decidiu-se que existem dois fatores dominantes. Note-se que a conclusão, nesse caso, depende de um certo grau de subjetividade. Interpretou-se ainda que o primeiro fator (ou dimensão) representa o escore sócio-econômico desejado. O segundo fator (fortemente associado às variáveis q07d, q08d, q09d, q10d, q11d, q12d e q14d) pode ser interpretado como uma medida do grau de disponibilidade de serviços públicos, mas pode também ser uma caracterização de uma população rural, ou ainda, fruto apenas de uma dependência local devida a algumas dessas variáveis, pois a ele se associam variáveis com altos níveis de percentuais de acesso por parte das famílias dos alunos.

Assim, um índice sócio-econômico foi diretamente construído a partir da obtenção dos escores estimados pelo software testfact considerando-se um modelo com duas dimensões (Índice_1a). Outro procedimento possível é o de eliminar-se variáveis com maiores cargas associadas à segunda dimensão, e menores cargas associadas à primeira dimensão, até que apenas uma dimensão seja dominante. Começou-se por excluir a variável q11d, seguindo-se das variáveis q14d, q07d, q10d, q09d e, finalmente, q08d para se alcançar a unidimensionalidade conforme o mesmo critério adotado anteriormente. Isto é, encontrou-se um valor final para a diferença entre as estatísticas G², dos modelos com 2 e uma dimensão, igual 15,21 (não significativa, p=0,173) com proporções de variância explicada em cada dimensão iguais a 48% e 5%. O modelo com uma dimensão retém, nesse caso, cerca de 55% da variância explicada e o escore foi diretamente produzido também pelo testfact apenas com as 13 variáveis restantes (Índice_1b). Os parâmetros para os modelos encontrados foram apresentados na Tabela 5.

5.3 Índices obtidos a partir da dicotomização de todas as opções

Na construção do Índice_2 procura-se explorar mais intensamente a informação contida nas múltiplas alternativas de respostas de cada item, produzindo não apenas uma variável dicotomizada a partir de cada questão, mas tantas variáveis binárias quanto for possível dada à quantidade de alternativas. Por exemplo, a questão q15 (em sua casa tem TV a cores?) apresenta três alternativas de respostas ((A) SIM, 1 TV (B) SIM, 2 TV ou mais e (C) Não), nesse caso 2 variáveis dicotômicas foram criadas (q15d, a casa tem ou não TV) como no caso dos índices obtidos como na seção anterior e, (q15d_2, se tem 2 TV ou mais). O objetivo é o de verificar se uma maior informação é obtida com o emprego da variável q15d_2 do que com a variável q15d na construção do índice. Ao todo, foram produzidas 34 variáveis a partir das mesmas questões anteriores. Naturalmente, não se deve manter duas dessas variáveis binárias assim construídas e originadas a partir do mesmo item na análise que conduz à construção dos modelos, tendo em vista que elas estão completamente correlacionadas e, portanto, produzirão "falsas" dimensões associadas. É o que se pode entender como uma dependência local entre as questões, que não é devida à existência de um fator (ou dimensão) especifico. A questão então é a de decidir sobre qual dessas variáveis deverá ser mantida para a produção do índice. Um critério pode ser o de se manter aquela de maior carga no fator principal obtido a partir da análise fatorial, esse foi o critério empregado neste trabalho. Finalmente, procedendo a análise da dimensionalidade associada de forma análoga ao procedimento adotado na construção dos índices descritos na seção 5.2, chegou-se ao seguinte conjunto de 14 variáveis que foram utilizadas na produção do Índice_2.

Em relação às variáveis empregadas na construção do índice_1, as que aqui são usadas na construção do índice apresentam maior variação no percentual de posses alcançado pelas famílias. Os parâmetros obtidos para os modelos dos itens estão apresentados na Tabela 6.

Thumbnail

5.4 Índice obtido a partir de modelos para respostas graduadas

Finalmente, foram utilizados os modelos de respostas graduadas na construção do índice_3. Para a calibração dos modelos foi utilizado o software Parscale^® (cf. Muraki & Bock, 1995). Inicialmente produziu-se uma análise da proporção de posses e da correlação polisserial de cada variável, valores que estão apresentados na Tabela 10 (no ^anexoanexo), com a respectiva descrição das questões. Dois índices foram construídos utilizando o modelo para respostas graduadas. Assim, no índice_3a foram consideradas 16 variáveis (as variáveis Q07, Q08 e Q11, foram excluídas por apresentarem baixo valor para a correlação polisserial). Eventualmente, apenas uma categoria de um item pode vir a ser eliminada. E, no índice_3b, foram consideradas 14 variáveis, com base na análise de dimensionalidade anteriormente produzida, tendo sido excluídas, ainda, as questões Q09 e Q10. Uma tentativa de produzir um índice incluindo todas as variáveis não foi bem sucedida, pois não se alcançou uma boa convergência no método de estimação dos parâmetros dos modelos. Provavelmente, devido à inadequação do modelo originada pela existência de uma ou mais dimensões adicionais. Os parâmetros dos modelos, estimados para os dois índices, são apresentados na Tabela 11 (no ^anexoanexo). Para se decidir sobre qual desses dois índices deve ser empregado no caso de se optar por modelos de respostas graduadas fez-se, inicialmente, uma analise da correlação de Pearson para os dois índices encontrando-se o valor de 0.989 para essa correlação. Além disso, foi calculada a média dos desvios absolutos entre os dois escores, encontrando-se o valor 0.1. A distribuição dos escores, segundo alguns percentis, foi também obtida e seus valores foram os seguintes:

Finalmente, foi analisada a curva de informação esperada para os dois índices, construída a partir dos modelos de respostas graduadas. Um programa específico foi construído usando rotinas do software matlab^®, e as curvas de informação estão apresentadas na Figura 4.

A conclusão final é que, devido aos resultados muito similares, o índice_3a, por apresentar um pouco mais de informação que o índice_3b, deve ser empregado. Por outro lado, em futuros levantamentos, justamente tendo em vista a proximidade entre esses resultados, pode-se pensar em utilizar apenas os 14 itens para os quais o índice_3b foi construído, pois implica numa economia quanto ao número de questões apresentadas no instrumento de avaliação destinadas a produção do indicador sócio-econômico. Na próxima seção quando for referido índice_3, estará subentendido que se está referindo ao índice_3a.

5.5 Análise comparativa dos 3 índices produzidos

Finalmente, vai-se fazer um estudo comparativo dos índices produzidos pelos 3 métodos. Lembrando, o índice_1 foi construído a partir da dicotomização direta das questões (tem ou não tem um determinado bem) e utilizando-se modelos binários de dois parâmetros; o índice_2 foi construído a partir da dicotomização das opções de resposta de cada item, selecionando-se as mais informativas, e utilizando-se também modelos binários de dois parâmetros; e, o índice_3 foi construído utilizando-se de modelos para respostas graduadas. A primeira análise é a da informação obtida para os três índices. Como se pode observar pelas curvas de informação dos três índices, o índice_1 apresenta maiores níveis de informação nos níveis de escores menos elevados e, o índice_2 nos níveis de escores mais elevados. Ambos produzem bom nível de informação entre os níveis _2 e 2 (cerca de 95% dos casos para uma distribuição normal). Já o índice_3 apresenta boa informação ao longo de toda a escala de habilidades.

Assim, do ponto de vista da informação do índice, como era esperado, deve-se preferir utilizar o índice_3. Mas, esse argumento não invalida o emprego dos dois outros índices caso não seja possível construí-lo por ausência de softwares adequados, por exemplo, ou ainda, quando se deseja um instrumento mais preciso. De fato, quando se analisa a correlação de Pearson entre os três índices, encontram-se os valores de 0,963 para a correlação entre o Índice_1 e o Índice_2, 0,944 entre o Índice_1 e o Índice_3 e, de 0.968 entre o Índice_2 e o Índice_3, indicando grande proximidade entre os escores produzidos. Por outro lado, a distribuição segundo os valores percentis para os três índices foi a seguinte:

Novamente, a distribuição dos índices segundo os valores percentis indicam pouca diferença entre os 3 índices. Assim, se o objetivo da análise é a de produzir indicadores para agregados de indivíduos, qualquer um dos índices, provavelmente, será muito bom. No entanto, se o objetivo é produzir um indicador por indivíduo, claro que a preferência deve recair-se sobre aquele que apresenta maior informação.

Um índice sócio-econômico pode ser construído para diversas finalidades. Entre elas, no caso de avaliações educacionais, a mais comum, talvez, seja a de avaliar o efeito que este apresenta sobre a proficiência do aluno. Freqüentemente, deseja-se que essa variável sirva de controle quando se está interessado em avaliar o efeito que outras variáveis possam exercer sobre a proficiência. Vai-se, então, comparar os três índices acima através do efeito que apresentam sobre a proficiência através de modelos de regressão hierárquicos (ver, por exemplo, Barbosa & Fernandes, 2001; Soares, 2003). No presente estudo, foram considerados modelos de três níveis hierárquicos, isto é, aluno turma e escola. Por esse motivo o universo em estudo consiste das escolas com três ou mais turmas de quarta série. Três modelos diferentes foram então produzidos para avaliar o efeito de cada um dos três índices sócio-econômico sobre a proficiência do aluno. O modelo utilizado (cf. Bryk & Raudenbush, 1992) pode ser representado por:

onde Y_ijkrepresenta a proficiência do i-ésimo aluno da j-ésima turma da k-ésima escola e X_1ijkrepresenta o escore sócio-econômico do aluno. As hipóteses adotadas em modelo com dois níveis são mantidas, isto é, . Os erros do modelo são todos supostos normais., são as variâncias dos parâmetros aleatórios do modelo, também, são denominadas como as componentes aleatórias do modelo. Os parâmetros p_fst são os parâmetros fixos do modelo. Os modelos estimados para todos os índices foram os seguintes:

Conclui-se dos resultados apresentados na tabela acima que tendo em vista o objetivo de se avaliar a influência do escore sócio-econômico sobre a proficiência em teste de avaliação educacional para o aluno, praticamente, todos os itens conduzem a resultados bastante semelhantes. Como o escore sócio-econômico é estimado, idealmente, o modelo deveria levar em consideração o erro de medida dessa variável. No presente estudo, como os diversos índices apresentam níveis de informação aproximados, provavelmente, os efeitos dos erros de medidas nos diferentes modelos devem ser muito próximos. Isso pode ser observado, por exemplo, pela proximidade dos valores estimados para o coeficiente p₁₀₀.

6. Conclusões

Neste trabalho foram comparados três tipos de indicadores, produzidos através de modelos da teoria da resposta ao item, para a condição sócio-econômica familiar de alunos que participaram de programas de avaliação educacional no estado de Minas Gerais. A finalidade do estudo foi, primeiramente, orientar a produção desse tipo de indicador no âmbito do programa de avaliação. Segundo, o de tentar encontrar o mínimo possível de variáveis a serem introduzidas no questionário que conduziriam a um indicador satisfatório. Sob esse aspecto, o trabalho demonstrou que de um total de 20 variáveis originalmente disponíveis, apenas 13 ou 14 delas podem ser empregadas para produzir o índice com qualidade. Por outro lado, demonstrou-se que, pelo menos para o tipo de aplicação e finalidade aqui apresentado, praticamente é indiferente o fato de se empregar um modelo de dois parâmetros ou um modelo mais geral de repostas graduadas, o que permite utilizar questões mais simplificadas na elaboração do instrumento. Esteja claro, no entanto, que se for apenas uma questão de escolha, ou ainda, se o objetivo for produzir uma medida para o indivíduo em si, o modelo mais geral deve ter, naturalmente, a preferência, pois permite um melhor aproveitamento da informação dos dados e, conseqüentemente, maior precisão nas estimativas dos índices calculados para os indivíduos.

Estudos futuros devem enfocar a comparação do critério Brasil com os indicadores produzidos através dos modelos da TRI. Parece claro, que há muitas vantagens destes últimos, resta saber se essas vantagens justificam a maior complexidade metodológica em aplicações práticas.

Agradecimentos

O autor agradece ao Caed e à Secretaria de Educação do Estado de Minas Gerais pela cessão dos dados e apoio ao trabalho. Agradece, em especial, ao Professor Manuel Palácios, Diretor do CAEd, pelas sugestões ao trabalho. Agradece, ainda, aos comentários e sugestões dos três revisores anônimos.

Recebido em 03/2004; aceito em 01/2005

Received March 2004; accepted January 2005

Thumbnail

(1) Andrade, D.F.; Tavares, H.R. & Valle, R.C. (2001). Teoria da Resposta ao Item: Conceitos e Aplicações ABE Associação Brasileira de Estatística, 2000, São Paulo.
(2) Backer, F.B. (1992). Item Response Theory STATISTICS: Textbooks and Monographs, vol. 129. Marcel Dekker, Inc., New York, USA.
(3) Barbosa, M.E. & Fernandes, C. (2000). Modelo multinível: uma aplicação a dados de avaliação educacional. Estudos em Avaliação Educacional: Fundação Carlo Chagas, 22, 135-153.
(4) Birnbaum, A. (1968). Some Latent Traits Models and Their Use in Inferring na Examinee's Ability. In: Statistical Theories of Mental Test Scores [edited by F.M. Lord and M.R. Novick], 397-472. Addison-Wesley, Reading, MA.
(5) Bock, R.D. & Aitikin, M. (1981). Marginal Maximum Likelihood Estimation of Item Parameters: Application of an EM Algorithm. Psychometrika, 46, 443-459.
(6) Bock, R.D.; Gibbons, R.D. & Muraki, E. (1988). Full-Information Factor Analysis. Applied Psychological Measurement, 12, 261-280.
(7) Bock, R.D. & Lieberman, D. (1970). Fitting a response model for n dichotomously scored items. Psychometrika, 35, 179-197.
(8) Bryk, S.A. & Raudenbush, W. (1992). Hierarchical Linear Models Sage Publications, Inc., Newbury Park, Califórnia.
(9) Dempster, A.P.; Laird, N.M. & Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of Royal Statistics Society B, 39, 1-38.
(10) Divgi, D.R. (1979). Calculation of the tetrachoric correlation coefficient. Psycometrika, 44, 169-172.
(11) Fletcher, P.R. (1998). À Procura do Ensino Eficaz. Ministério da Educação e Cultura, Departamento da Avaliação da Educação Básica, Rio de Janeiro.
(12) Hambleton, R.K.; Swaninathan, H. & Rogers, H (1991). Fundamentals of Item Response Theory Sage Publications, Inc., Newbury Park, Califórnia.
(13) Lord, F.M. (1952). A Theory of Test Scores. Psychometric Monograph, 7
(14) Minoux, M. (1986). Mathematical Programming: Theory and Algorithms John Wiley & Sons Ltd., Norwich, UK.
(15) Muraki, E. & Engelhard, G. (1985). Full Information Item Factor Analysis: applications of EAP scores. Applied Psychological Measurement, 9, 417-430.
(16) Muraki, E. & Bock, R.D. (1995). PARSCALE: Parameter Scaling of Rating Data [Computer Program]. Scientific Software, Inc., Chicago, Il.
(17) Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Institute for Educational Research, Copenhagen, Danish.
(18) Samejima, F. (1997). Graded Response Model. In: Handbook of Modern Item Response Theory [edited by W. Van der Liden and R. Hambleton]. Springer-Verlag, New York.
(19) Soares, F.J. & Mambrini, J. (2003). Medida do Nível Socioeconômico de Estudantes em Pesquisas Educacionais. Anais da 35Ş Reunião Regional da ABE e Reunião Regional da SOBRAPO. Florianópolis, SC, maio 2003.
(20) Soares, T.M. (2003). Influência do Professor e do Ambiente em Sala de Aula Sobre a Proficiência Alcançada Pelos Alunos Avaliados no SIMAVE-2002. Estudos em Avaliação Educacional Fundação Carlos Chagas. Jul/Dez, 28
(21) Spector, P.E. (1992). Summated Rating Scale Construction: An Introduction Series: Quantitative Applications in the Social Sciences. Sage Publications, London.
(22) Thissen, D. & Wainer, H. (2001). Test Scoring Lawrence Erlbaum Associates Pub, Mahwah, New Jersey.
(23) Wilson, D.T.; Wood, R. & Gibbons, R. (1998). Testfact: Test Socring, and Item Factor Analysis Scientific Software International, Inc., Lincolnwood, Illinois.

anexo

Datas de Publicação

Publicação nesta coleção
05 Jul 2005
Data do Fascículo
Abr 2005

Histórico

Aceito
Jan 2005
Recebido
Mar 2004

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

[1] (1) Andrade, D.F.; Tavares, H.R. & Valle, R.C. (2001). Teoria da Resposta ao Item: Conceitos e Aplicações ABE Associação Brasileira de Estatística, 2000, São Paulo.

[2] (2) Backer, F.B. (1992). Item Response Theory STATISTICS: Textbooks and Monographs, vol. 129. Marcel Dekker, Inc., New York, USA.

[3] (3) Barbosa, M.E. & Fernandes, C. (2000). Modelo multinível: uma aplicação a dados de avaliação educacional. Estudos em Avaliação Educacional: Fundação Carlo Chagas, 22, 135-153.

[4] (4) Birnbaum, A. (1968). Some Latent Traits Models and Their Use in Inferring na Examinee's Ability. In: Statistical Theories of Mental Test Scores [edited by F.M. Lord and M.R. Novick], 397-472. Addison-Wesley, Reading, MA.

[5] (5) Bock, R.D. & Aitikin, M. (1981). Marginal Maximum Likelihood Estimation of Item Parameters: Application of an EM Algorithm. Psychometrika, 46, 443-459.

[6] (6) Bock, R.D.; Gibbons, R.D. & Muraki, E. (1988). Full-Information Factor Analysis. Applied Psychological Measurement, 12, 261-280.

[7] (7) Bock, R.D. & Lieberman, D. (1970). Fitting a response model for n dichotomously scored items. Psychometrika, 35, 179-197.

[8] (8) Bryk, S.A. & Raudenbush, W. (1992). Hierarchical Linear Models Sage Publications, Inc., Newbury Park, Califórnia.

[9] (9) Dempster, A.P.; Laird, N.M. & Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of Royal Statistics Society B, 39, 1-38.

[10] (10) Divgi, D.R. (1979). Calculation of the tetrachoric correlation coefficient. Psycometrika, 44, 169-172.

[11] (11) Fletcher, P.R. (1998). À Procura do Ensino Eficaz. Ministério da Educação e Cultura, Departamento da Avaliação da Educação Básica, Rio de Janeiro.

[12] (12) Hambleton, R.K.; Swaninathan, H. & Rogers, H (1991). Fundamentals of Item Response Theory Sage Publications, Inc., Newbury Park, Califórnia.

[13] (13) Lord, F.M. (1952). A Theory of Test Scores. Psychometric Monograph, 7

[14] (14) Minoux, M. (1986). Mathematical Programming: Theory and Algorithms John Wiley & Sons Ltd., Norwich, UK.

[15] (15) Muraki, E. & Engelhard, G. (1985). Full Information Item Factor Analysis: applications of EAP scores. Applied Psychological Measurement, 9, 417-430.

[16] (16) Muraki, E. & Bock, R.D. (1995). PARSCALE: Parameter Scaling of Rating Data [Computer Program]. Scientific Software, Inc., Chicago, Il.

[17] (17) Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Institute for Educational Research, Copenhagen, Danish.

[18] (18) Samejima, F. (1997). Graded Response Model. In: Handbook of Modern Item Response Theory [edited by W. Van der Liden and R. Hambleton]. Springer-Verlag, New York.

[19] (19) Soares, F.J. & Mambrini, J. (2003). Medida do Nível Socioeconômico de Estudantes em Pesquisas Educacionais. Anais da 35Ş Reunião Regional da ABE e Reunião Regional da SOBRAPO. Florianópolis, SC, maio 2003.

[20] (20) Soares, T.M. (2003). Influência do Professor e do Ambiente em Sala de Aula Sobre a Proficiência Alcançada Pelos Alunos Avaliados no SIMAVE-2002. Estudos em Avaliação Educacional Fundação Carlos Chagas. Jul/Dez, 28

[21] (21) Spector, P.E. (1992). Summated Rating Scale Construction: An Introduction Series: Quantitative Applications in the Social Sciences. Sage Publications, London.

[22] (22) Thissen, D. & Wainer, H. (2001). Test Scoring Lawrence Erlbaum Associates Pub, Mahwah, New Jersey.

[23] (23) Wilson, D.T.; Wood, R. & Gibbons, R. (1998). Testfact: Test Socring, and Item Factor Analysis Scientific Software International, Inc., Lincolnwood, Illinois.