Acessibilidade / Reportar erro

Classificação de pessoas na prova tuberculínica: aplicação de um modelo estatístico quando a distribuição de freqüências da induração é uma mistura de componentes normais

Classification of subjects in the tuberculin test: application of a statistical model when the frequency distribution of the induration is a mixture of normal components

Resumos

O problema de classificar pessoas de acordo com o tamanho da induração, na prova tuberculínica segundo a técnica de Mantoux, é resolvido, para um conjunto de dados obtidos em uma população genérica, utilizando-se o critério estatístico de "melhores regiões possíveis de classificação". São obtidas estimativas das probabilidades de classificação errada.

Teste tuberculínico; Induração; Mistura de distribuições normais; Regiões de classificação; Probabilidade de classificação errada


The classification problem in the tuberculin test was studied. A sample of induration data from a generic population was used and the "best possible regions" criterion was applied. Estimates of classification regions and estimates of probabilities of misclassification were obtained.

Tuberculin test; Induration; Mixture of normal distributions; Classification regions; Misclassification probability


ARTIGO ORIGINAL

Classificação de pessoas na prova tuberculínica: aplicação de um modelo estatístico quando a distribuição de freqüências da induração é uma mistura de componentes normais

Classification of subjects in the tuberculin test: application of a statistical model when the frequency distribution of the induration is a mixture of normal components

Odécio Sanches

Da Escola de Enfermagem de Ribeirão Preto da USP – Campus de Ribeirão Preto, SP – Brasil

RESUMO

O problema de classificar pessoas de acordo com o tamanho da induração, na prova tuberculínica segundo a técnica de Mantoux, é resolvido, para um conjunto de dados obtidos em uma população genérica, utilizando-se o critério estatístico de "melhores regiões possíveis de classificação". São obtidas estimativas das probabilidades de classificação errada.

Unitermos: Teste tuberculínico. Induração. Mistura de distribuições normais. Regiões de classificação. Probabilidade de classificação errada.

SUMMARY

The classification problem in the tuberculin test was studied. A sample of induration data from a generic population was used and the "best possible regions" criterion was applied. Estimates of classification regions and estimates of probabilities of misclassification were obtained.

Uniterms: Tuberculin test. Induration. Mixture of normal distributions. Classification regions. Misclassification probability.

1. INTRODUÇÃO

Em publicação anterior. Sanches4 (1975), utilizando um método gráfico aproximado, discutiu-se a possibilidade de se decompor, em componentes normais, uma distribuição de freqüências de medidas de induração ou de eritema, na prova tuberculínica segundo a técnica de Mantoux, obtidas em uma população genérica, objetivando a posterior solução do problema de classificação segundo o tamanho da reação.

O objetivo do presente trabalho é uma complementação do anterior, isto é, utilizando os resultados anteriormente obtidos, relativamente à variável induração, mostrar que é possível estabelecer estimativas das regiões de classificação para cada um dos grupos componentes, segundo um modelo estatístico estabelecido na literatura, assim como determinar as estimativas das probabilidades de classificação errada.

2. CONSIDERAÇÕES SOBRE O PROBLEMA DE CLASSIFICAÇÃO EM UM ENTRE k GRUPOS COMPONENTES DE UMA MISTURA DE DISTRIBUIÇÕES NORMAIS

O que segue tem a finalidade de colocar o leitor interessado, não especialista em Estatística, em contacto com o modelo de classificação a ser utilizado. O assunto, no entanto, é discutido de forma ampla e exaustiva em quaisquer textos de análise multivariada.

Consideremos uma mistura de k distribuções normais, univariadas, de médias [mi] e variâncias [si2 ], sendo pi as proporções da mistura, i = 1, 2,. . ., k.

O problema geral consiste em classificar um elemento desta mistura, retirado ao acaso, como pertencente a um dos k grupos componentes. Nas condições consideradas, cada elemento é representado por um ponto de um espaço unidimensional. Assim, o problema de classificação é equivalente ao de dividir o espaço unidimensional referido em k regiões R1, R2, ..., Rk, mutuamente exclusivas, de tal modo que permita colocar no imo grupo componente, um elemento representado por um ponto de Ri, i = l, 2, ..., k.

Se um elemento do imo grupo tem uma probabilidade bi de pertencer a Ri ,então o valor esperado da proporção de classificações erradas é:

A questão é escolher as regiões de tal modo que a seja mínima, isto é,

Tais regiões, quando existem, são denominadas "melhores regiões possíveis de classificação". Rao2 (1952) e Anderson1 (1958) demonstram que regiões definidas por:

satisfazem o critério de melhores regiões possíveis (fi (x) é a função densidade de probabilidade da ima componente da mistura).

Para o caso em consideração as desigualdades contidas em (2.1) podem ser escritas, explicitamente:

Se uma ou mais componentes são truncadas, é suficiente introduzir, em (2.1), a correção para o truncamento. Assim, apenas para fixar idéias, suponhamos a ima componente truncada, à esquerda, no ponto [xli,] suposto conhecido. Nestas condições a desigualdade (2.2) se escreve:

onde Kie é o fator de correção para o truncamento,

Se , e são estimativas de [mi], e pi, a sua substituição em (2.2) ou (2.2a) fornece estimativas de Ri; i = 1, 2, ..., k.

As probabilidades de classificar erradamente como pertencentes ao imo grupo elementos pertencentes aos (k–1) grupos restantes são dadas por:

as quais são estimadas por:

sendo [f *j ] (x) uma estimativa de fj (x).

3. CLASSIFICAÇÃO DE PESSOAS, EM UMA POPULAÇÃO GENÉRICA, SEGUNDO DIÂMETROS DA INDURAÇÃO NA PROVA TUBERCULÍNICA

Utilizando-nos de dados obtidos por Ruffino Netto3 (1970), Sanches4 (1975) mostra que a distribuição de freqüências para as medidas de induração podiam ser decompostas em três grupos componentes, com distribuições normais, sendo a primeira componente, por decisão do autor, truncada à esquerda no ponto correspondente à medida de 2 mm.

A Tabela 1 apresenta a distribuição de freqüências observadas e as distribuições componentes normais esperadas, referentes às medidas de diâmetros de induração, estudadas no trabalho acima citado, enquanto que a Tabela 2 apresenta as estimativas dos parâmetros obtidas para tais componentes.

De (2.2) e (2.2a), utilizando os dados da Tabela 2, obtemos as estimativas para as regiões de classificação dos três grupos componentes:

Com tais estimativas, a partir de (2.3a), utilizando-nos de uma tabela da N (0;1) obtemos as estimativas das probabilidades de classificação errada:

4. DISCUSSÃO E CONCLUSÃO

Se uma distribuição de freqüências observada, de medidas de induração na prova tuberculínica, mostra-se decomponível em componentes normais, é possível a aplicação do critério estatístico de "melhores regiões possíveis" para estabelecer estimativas das regiões de classificação das pessoas pertencentes aos distintos grupos componentes, assim como estimativas das probabilidades de classificação errada.

Isto é interessante pois que o citado critério leva em consideração as proporções com que cada grupo entra na mistura. Ora, se estas proporções podem variar em função de alguns fatores como área geográfica considerada, grupos etários considerados, raça etc., há interesse buscar, em função de tais fatores, as regiões de classificação e estudá-las, em diferentes épocas, para se aquilatar de possíveis modificações nos seus valores.

A possibilidade do cálculo das estimativas das probabilidades de classificação errada permite ao pesquisador decidir se o critério estatístico de "melhores regiões possíveis" atendam ou não aos objetivos médicos.

Assim, com os dados utilizados, as maiores probabilidades de classificação errada foram:

a (i = 0,0400, isto é, a probabilidade de classificar, erradamente, como pertencente ao segundo grupo, um elemento do terceiro grupo é de 4 em 100.

ii) = 0.0267, isto é. a probabilidade de classificar, erradamente, como pertencente ao terceiro grupo, um elemento pertencente ao segundo grupo é de, aproximadamente, 3 em 100.

iii) = 0.0222, isto é. a probabilidade de classificar, erradamente, como pertencente ao segundo grupo, um elemento do primeiro grupo é de, aproximadamente, 2 em 100.

Se tais estimativas forem consideradas elevadas, segundo os objetivos do pesquisador, é possível fixar uma probabilidade de classificação errada tão pequena quanto se deseje e, em função desta probabilidade pré-fixada, determinar novas regiões de classificação tentando diminuir, é claro, o custo da classificação errada. Procedimentos deste tipo são discutidos, por exemplo, em Rao2 (1952), os quais, no entanto, não mais satisfazem o critério estatístico de "melhores regiões possíveis".

Finalmente, é interessante confrotar os resultados por nós obtidos com aqueles estabelecidos pela Comissão Nacional contra a Tuberculose. Esta. em sua 2.a Recomendação (1968). considerando a dose de 2 T.U de Rt 23, estabelece que "até que seja possível fixar o exato tamanho em milímetros, acima e abaixo do qual devam as reações ser consideradas específicas (positivas) e inespecíficas (negativas) deve-se adotar o seguinte critério de interpretação dos resultados da prova Tuberculínica Padronizada:

Utilizando a nomenclatura acima, e arredondando-se para o número inteiro de milímetros mais próximo, o critério de classificação por nós utilizado, para os dados considerados, permite a seguinte classificação:

Recebido para publicação em 22/03/1976

Aprovado para publicação em 14/06/1976

  • 1. ANDERSON, T. W An introduction to multivariate statistical analysis. New York, John Wiley & Sons, 1958.
  • 2. RAO, C. R. Advanced statistical methods in biometric research. New York, John Wiley & Sons, 1952.
  • 3. RUFFINO NETTO, A. Epidemiologia da tuberculose: estudo de alguns aspectos mensuráveis na prova tuberculínica. Ribeirão Preto, 1970. [Tese de Doutoramento Faculdade de Medicina de Ribeirão Preto da USP].
  • 4. SANCHES, O. Distribuição das medidas de induração e eritema na prova tuberculínica: aplicação de um método gráfico de decomposição de uma distribuição de freqüências em componentes normais. Rev. Saúde públ., S. Paulo, 9:15-24, 1975.

Datas de Publicação

  • Publicação nesta coleção
    28 Jun 2006
  • Data do Fascículo
    Dez 1976

Histórico

  • Recebido
    22 Mar 1976
  • Aceito
    14 Jun 1976
Faculdade de Saúde Pública da Universidade de São Paulo Avenida Dr. Arnaldo, 715, 01246-904 São Paulo SP Brazil, Tel./Fax: +55 11 3061-7985 - São Paulo - SP - Brazil
E-mail: revsp@usp.br