Acessibilidade / Reportar erro

Modelagem conjunta da média e dispersão de Nelder e Lee como alternativa aos métodos de Taguchi

Resumos

Nos últimos anos, uma coleção de técnicas para a melhoria da qualidade foi desenvolvida, no Japão, por Genichi Taguchi no planejamento, na evolução e na fabricação de produtos industrializados. Esta revolução no campo da qualidade despertou o interesse, no mundo inteiro, de vários engenheiros e estatísticos, que propuseram vários métodos alternativos, mais claros e eficientes do que aqueles propostos por Taguchi. Nelder e Lee observaram que a metodologia de Taguchi conduz a um modelo conjunto para a média e dispersão, usando modelos lineares generalizados. Eles mostraram como esta classe é geral e suficiente para a análise desses modelos. O objetivo deste artigo é fazer uma síntese da modelagem conjunta da média e dispersão, proposta por Nelder e Lee, explicitando, de uma forma concisa, os principais pontos da teoria.

modelagem conjunta da média e dispersão; quase verossimilhança estendida; métodos de Taguchi


In the last years, in Japan, Genichi Taguchi developed some techniques to improve the quality of the products during its design, evolution and manufacture. His ideas have raised the attention of engineers and statisticians around the world who have proposed some alternative methods that are simpler and more efficient than Taguchi's methods. Nelder and Lee observed that Taguchi's methodology lead up to a joint model for the mean and dispersion employing generalized linear models. They showed that this class is general and sufficient to analyze Taguchi's Models. The purpose of this work is to describe joint modeling of mean and dispersion that was proposed by Nelder and Lee and the key points of the theory in a concise manner.

joint modeling of mean and dispersion; extended quasi-likelihood; Taguchi's methods


Modelagem conjunta da média e dispersão de Nelder e Lee como alternativa aos métodos de Taguchi

Edmilson Rodrigues Pinto * Corresponding author / autor para quem as correspondências devem ser encaminhadas I,* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Antônio C. M. Ponce de LeonII

IFaculdade de Matemática Universidade Federal de Uberlândia (UFU) Uberlândia – MG edmilson@famat.ufu.br

IIInstituto de Medicina Social Universidade do Estado do Rio de Janeiro (UERJ) Rio de Janeiro – RJ ponce@ims.uerj.br

RESUMO

Nos últimos anos, uma coleção de técnicas para a melhoria da qualidade foi desenvolvida, no Japão, por Genichi Taguchi no planejamento, na evolução e na fabricação de produtos industrializados. Esta revolução no campo da qualidade despertou o interesse, no mundo inteiro, de vários engenheiros e estatísticos, que propuseram vários métodos alternativos, mais claros e eficientes do que aqueles propostos por Taguchi. Nelder e Lee observaram que a metodologia de Taguchi conduz a um modelo conjunto para a média e dispersão, usando modelos lineares generalizados. Eles mostraram como esta classe é geral e suficiente para a análise desses modelos. O objetivo deste artigo é fazer uma síntese da modelagem conjunta da média e dispersão, proposta por Nelder e Lee, explicitando, de uma forma concisa, os principais pontos da teoria.

Palavras-chave: modelagem conjunta da média e dispersão; quase verossimilhança estendida; métodos de Taguchi.

ABSTRACT

In the last years, in Japan, Genichi Taguchi developed some techniques to improve the quality of the products during its design, evolution and manufacture. His ideas have raised the attention of engineers and statisticians around the world who have proposed some alternative methods that are simpler and more efficient than Taguchi's methods. Nelder and Lee observed that Taguchi's methodology lead up to a joint model for the mean and dispersion employing generalized linear models. They showed that this class is general and sufficient to analyze Taguchi's Models. The purpose of this work is to describe joint modeling of mean and dispersion that was proposed by Nelder and Lee and the key points of the theory in a concise manner.

Keywords: joint modeling of mean and dispersion; extended quasi-likelihood; Taguchi's methods.

1. Introdução

A intensa competição existente no mercado internacional tem revelado que a qualidade dos produtos é a chave para o sucesso das indústrias. Nos últimos anos Taguchi introduziu uma nova filosofia de qualidade. Esta filosofia tem produzido uma única e poderosa disciplina de melhoramento da qualidade, que difere das práticas tradicionais. A contribuição no campo do controle de qualidade é um dos desenvolvimentos mais significantes das últimas décadas (Phadke, 1989). O objetivo da teoria proposta por Taguchi é o desenvolvimento de produtos que sejam robustos, isto é, que sejam pouco afetados por variações inevitáveis que venham a ocorrer em seus componentes, nas condições de fabricação ou no ambiente em que serão usados. Contrariamente à situação de experimentos clássicos, em que os fatores são fixos durante e no decorrer do experimento, Taguchi introduziu os chamados fatores de ruído. Os fatores de ruído são fixados durante o experimento, mas variam aleatoriamente fora do contexto experimental. A idéia, por trás da metodologia de Taguchi, é minimizar a variabilidade da média de alguma característica de interesse do produto em relação ao seu valor ideal. Essa variabilidade pode ser causada por três tipos de ruídos:

  1. Ruído externo: causado por condições ambientais, como temperatura e umidade;

  2. Ruído interno: causado pela deterioração por uso ou por armazenagem;

  3. Ruído de fabricação: causado por imperfeições no processo de manufatura.

A fim de encontrar um produto que seja insensível aos ruídos, de modo que a média da característica de interesse fique próxima a um valor pré-especificado, os fatores são classificados em dois grupos:

–

Fatores de controle da variabilidade (FCV): os quais afetam a variabilidade e, possivelmente, a média da característica de interesse do produto.

–

Fatores de controle do alvo (FCA): os quais afetam somente a média da característica de interesse do produto.

A meta dos planejamentos robustos de Taguchi é identificar uma combinação dos níveis de FCV, que minimize a variabilidade, juntamente com uma combinação dos níveis de FCA, que assegure a média da característica de interesse próxima a um valor ideal. FCA são chamados fatores de ajustamento, pois são usados para ajustar a média da característica de interesse do produto próxima a um valor alvo, depois que uma combinação ótima de FCV já tiver sido escolhida.

Ninguém discorda ser de fundamental importância a metodologia proposta por Taguchi, para se ter uma excelente prática industrial (Guedes, 1996). Entretanto, as técnicas utilizadas por ele vêm sofrendo diversas críticas, e procedimentos alternativos têm sido desenvolvidos. Uma discussão editada por Nair (1992) dá uma visão geral sobre esta controvérsia.

Nelder & Lee (1991) introduziram uma modelagem conjunta da média e dispersão, usando Modelos Lineares Generalizados (MLG), com o intuito de dar uma abordagem geral ao tema proposto por Taguchi, baseada em uma sólida teoria estatística. Nesta abordagem são necessários dois MLG interligados, um para a média, outro para a dispersão.

A modelagem conjunta da média e dispersão é um assunto recente e tem atraído a atenção de muitos pesquisadores. Dentre os principais trabalhos nesta área podemos citar: Aitkin (1987), que considerou modelos gaussianos e empregou um modelo de regressão log-linear para a variância; Nelder & Pregibon (1987), que introduziram a quase verossimilhança estendida; Smyth (1989), que obteve expressões para as equações de verossimilhança, testes assintóticos e algoritmos de estimação para MLG com parâmetro de dispersão variável; Nelder & Lee (1991), que introduziram a modelagem conjunta da média e dispersão para os modelos de Taguchi, usando a quase verossimilhança estendida; Verbyla (1993), que considerou modelos normais heterocedásticos, usando a máxima verossimilhança restrita, e para os quais a variância possuía uma dependência log-linear em relação às covariáveis; Engel & Huele (1996), que propuseram a modelagem simultânea da superfície de resposta para a média e para a variância, usando MLG sob a hipótese de erros normais; Smyth & Verbyla (1996), que forneceram uma abordagem de verossimilhança condicional, para a máxima verossimilhança restrita em MLG com parâmetro de dispersão variável e ligação canônica; Dey, Gelfand & Peng (1997), que consideraram MLG com super-dispersão, usando a família exponencial dupla, e uma abordagem bayesiana; Lee & Nelder (1998), que introduziram o ajustamento para a máxima verossimilhança restrita na análise de dispersão; Smyth & Verbyla (1999), que introduziram métodos ajustados para a verossimilhança na modelagem da dispersão em MLG; Lee & Nelder (2000), que verificaram o relacionamento entre a família exponencial dupla e a quase verossimilhança estendida, e mostraram que elas geram inferências idênticas; Smyth, Huele & Verbyla (2001), que compararam a máxima verossimilhança restrita exata e aproximada para modelos de regressão heterocedásticos, usando os métodos propostos por Lee & Nelder (1998) e Smyth & Verbyla (1999); Cuervo (2001), que introduziu uma abordagem bayesiana à metodologia de modelagem conjunta da média e dispersão; Smyth (2002), que propôs um algoritmo para a máxima verossimilhança restrita em modelos de regressão heterocedásticos; Lee & Nelder (2003), que fizeram uma explanação sobre planejamentos robustos, usando transformação para os dados e usando MLG; e que também mostraram que MLG fornecem uma extensão para a metodologia de superfície de resposta. Neste artigo usaremos a abordagem proposta por Lee & Nelder (1998).

Na seção 2, é apresentada uma breve revisão sobre os conceitos básicos de MLG e sobre Modelagem Conjunta da Média e Dispersão (MCMD). Na seção 3, é mostrado como os problemas propostos por Taguchi podem ser resolvidos usando a MCMD. Na seção 4, a teoria, apresentada nas seções 2 e 3, é ilustrada através de dois exemplos. No primeiro exemplo foram considerados dados contínuos, enquanto que no segundo foram considerados dados de contagem. Finalmente, na seção 5, são feitas considerações finais sobre a MCMD.

2. Modelos Lineares Generalizados

A classe de modelos lineares generalizados é uma extensão da classe de modelos lineares, que permite que os erros venham de várias distribuições de probabilidade ao invés de somente da distribuição normal. Esta classe de distribuições de probabilidade, conhecida pelos estatísticos como família exponencial de distribuições, inclui algumas das principais distribuições de probabilidade como: normal, Poisson, binomial, multinomial, Gama, binomial negativa e a inversa gaussiana. MLG geram uma escala aditiva para o componente sistemático do modelo, proveniente das variáveis explicativas. A escala, na qual os efeitos são assumidos aditivos, é relacionada à média da distribuição da variável aleatória por uma função de ligação. Usando MLG não há necessidade de transformar os dados para obter aditividade. Muitas características dos modelos lineares clássicos são imediatamente estendidas com MLG, entre elas a estrutura do preditor linear, a tabela ANOVA e as idéias de diagnósticos de modelos por meio de análise de resíduos, efeito de alavanca, influência, e assim por diante. Além disso, um algoritmo razoavelmente simples, uma versão do Algoritmo Iterativo de Mínimos Quadrados Ponderados, ajusta todos os MLG.

Sejam y1,...,yn, n observações independentes da variável resposta Y, e sejam x1, x2, ..., xk, k covariáveis, cujos efeitos combinam aditivamente para produzir um preditor linear , onde b1, b2,..., bk representam os parâmetros desconhecidos do modelo.

De acordo com McCullagh & Nelder (1989), um MLG é caracterizado por três componentes:

  1. O componente aleatório, cuja esperança é denotada por

    E(

    Y) =

    µ;

  2. O componente sistemático

    ;

  3. A ligação entre os componentes aleatório e sistemático, dada pela função

    h =

    g(

  4. µgg

O logaritmo da função de verossimilhança para um conjunto de y1,...,yn observações independentes é

Na equação (1) q é o parâmetro canônico, a(f) tem a forma de f / m, onde f é o parâmetro de dispersão e m é o peso a priori. Baseado em dois resultados bem conhecidos, i.e. e , pode-se mostrar que e , onde V (µ) é a função de variância. Uma propriedade importante dos MLG é a forma da variância, isto é, Var(Y) = fV(µ), ou seja, a variância é caracterizada por dois componentes: , a parte independente da média e , que descreve como a variância varia com a média.

Para uma observação yi e considerando f fixado, as equações de máxima verossimilhança para bj, com j = 1,...,k , são independentes de f e dadas por:

onde, é o peso relacionado à i-ésima observação. O conjunto de equações (2) pode ser ajustado pelo Método Iterativo de Mínimos Quadrados Ponderados, usando a variável dependente Z, cujos valores são iguais a e cujos respectivos pesos são wi.

Uma medida de discrepância para os MLG, que generaliza a soma de quadrados dos resíduos do modelo normal, é a função desvio (deviance), D, dada pela expressão:

onde, , expresso em função de , é o máximo do logaritmo da função de verossimilhança, com média µ e parâmetro de dispersão f fixo; e l(y,f;y) é o máximo da função logarítmica da verossimilhança para o modelo completo, isto é, com n parâmetros, onde n é o número de observações. (Para maiores detalhes, veja McCullagh & Nelder, 1989, pág. 33). D é uma função somente das observações, e para observações independentes a equação (3) pode ser escrita simplesmente como ; onde

Na equação (4) di é o componente do desvio para a i-ésima observação e corresponde ao quadrado do resíduo no modelo normal. Portanto, o resíduo do desvio é definido como . Outro tipo de resíduo, freqüentemente usado, é o chamado resíduo de Pearson, definido como:

2.1 Modelagem conjunta da média e dispersão

Na abordagem de Lee & Nelder (1998), quando média e dispersão são modeladas simultaneamente, dois MLG são necessários, um para a média µ e outro para a dispersão f . Da mesma forma como no modelo da média, o modelo para a dispersão consiste da variável resposta e os três componentes próprios dos MLG. Para a variável resposta pode-se empregar di, o componente do desvio (para o deviance), dado na equação (4), ou , o desvio generalizado de Pearson, com rpidado na equação (5); ambos obtidos para cada observação yi. Sejam u1,u2,...,ul as covariáveis que afetam a dispersão, z = h(f) a função de ligação, e o preditor linear, para o qual g1,g2,...,gl são os parâmetros desconhecidos. Uma escolha natural para a distribuição do erro é a distribuição Gama (particularmente, quando o componente do desvio é usado como resposta). A função logarítmica é adequada para fazer a ligação entre os componentes sistemático e aleatório no modelo da dispersão, por mapear o intervalo em . Contudo, outras escolhas também são possíveis.

Considerando y1,y2,...,ynn observações independentes da variável resposta Y, x1,x2,...xk as covariáveis que afetam o modelo da média e u1,u2,...,ul as covariáveis que afetam o modelo da dispersão. Os modelos para a média e para a dispersão são construídos da seguinte forma.

Modelo para a média (µi)

Modelo para a dispersão (fi)

No modelo para a dispersão, a média é f, t representa o parâmetro de dispersão e VD(f) é a função de variância. No caso da distribuição normal para o modelo da média, com f = s2 e V(µ)=1; o modelo da dispersão terá uma distribuição Gama com t = 2 e VD(f)=f2 . Veja McCullagh & Nelder (1989).

Sejam X e U as matrizes experimentais dos modelos da média e da dispersão, respectivamente. Note que as covariáveis {ui :i = l,...,l} não são, necessariamente, um subconjunto das covariáveis {xi :i = l,...,l}. Desta forma, os fatores experimentais podem ocorrer em X, em U ou em ambas. Usando os fatores experimentais ocorrendo em U (ou em ambas X ou U), procura-se um conjunto de fatores e níveis que minimizem a variância. Usando os fatores ocorrendo somente em X, pode-se ajustar a média próxima a um valor preestabelecido, sem afetar a variância.

Para a estimação conjunta dos parâmetros da média e da dispersão Nelder & Lee (1991) propuseram o uso da Quase Verossimilhança Estendida (QVE). (Introduzida por Nelder & Pregibon, 1987).

2.2 A quase verossimilhança e quase verossimilhança estendida

Wedderburn (1974) propôs a Quase Verossimilhança (QV) quando, dado V (µ), não existe uma distribuição na família exponencial para a variável resposta. A QV, definida por:

é usada, freqüentemente, para fazer inferência no modelo da média (utilizando f como constante), mas não pode ser usada para fazer inferência no modelo da dispersão.

Supondo que a distribuição de Y seja pertencente à família exponencial, o logaritmo da função de quase verossimilhança é uma função, cuja derivada em relação à média µ, é igual à mesma derivada do logaritmo da função de verossimilhança, isto é, .

A QV pode ser entendida como uma forma de definir, aproximadamente, distribuições na família exponencial, quando a função de variância não permite uma forma exata. A QV será uma verdadeira verossimilhança, se a distribuição da variável resposta Y pertencer à família exponencial e se Var (Y) = fV (µ). Seu uso como um critério de ajustamento, permite estender a classe de MLG para modelos definidos somente pelas propriedades dos dois primeiros momentos.

Quase verossimilhanças permitem dois tipos de extensões de MLG. Na primeira, MLG com f=1, fixo, podem ser estendidos para admitirem variável; por exemplo, os modelos log-lineares de Poisson, para os quais Var(Y)=µ, podem ser expandidos para admitirem super-dispersão com Var(Y)= e f>1. Na segunda extensão, V(µ) pode tomar uma forma que não corresponde àquela, própria de um MLG padrão, por exemplo, V(µ) = µa , com a variável e a ¹ 0,1,2,3. (Nelder & Lee, 1991).

A quase verossimilhança tem as mesmas equações de estimação que os MLG, gerando estimativas de máxima quase verossimilhança no lugar de estimativas de máxima verossimilhança; e também produzindo um desvio (deviance) e um resíduo de Pearson. Os modelos de quase verossimilhanças são muito úteis para modelar quantidades e proporções superdispersas.

McCullagh (1983) mostrou que o estimador de quase verossimilhança, , para o vetor de parâmetros, b, do modelo, é assintoticamente normal com média b, e que as covariâncias assintóticas podem ser obtidas na forma usual, através da segunda derivada de Q. Adicionalmente, se H0 e Ha e são as hipóteses associadas a dois modelos encaixados de dimensões p e q, respectivamente, com p < q, então, sob , a mudança no quase desvio tem uma distribuição assintótica ; onde

Em MLG a função desvio é usada para medir a discrepância de um ajuste, e também pode ser usada para comparar modelos com diferentes preditores lineares e/ou funções de ligação. A função desvio não pode, contudo, ser usada para comparar modelos com diferentes funções de variância ou diferentes estruturas de dispersão, que aparecem na modelagem conjunta da média e dispersão. Um critério apropriado para este tipo de problema é a Quase Verossimilhança Estendida (QVE), Q+.

A função Q+, para uma simples observação yi, com média µi e variância Var (Yi) = fiV(µi), é definida por:

onde di(yi,µi) é dado em (4). Para y1,y2,...,yn, n observações independentes da variável resposta Y, o quase desvio estendido, QD+, é dado por:

Note que Q+, assim como Q, não pressupõe uma distribuição completa para Y, mas somente o tipo de relação existente entre a média e a variância das observações. As estimativas dos parâmetros, obtidas pela maximização de Q+, são iguais àquelas obtidas maximizando Q (Nelder & Pregibon, 1987).

Quando existe uma distribuição na família exponencial, com uma dada função de variância, a QVE é uma aproximação para o ponto de sela desta distribuição. Para maiores detalhes veja Jorgensen (1987) e (1992).

A quase verossimilhança requer o conhecimento da função de variância multiplicada por uma constante. Usando Q+, este requerimento pode ser relaxado. Em certas aplicações f pode não ser constante e o interesse pode residir em modelar f como uma função de covariáveis conhecidas. Neste caso, a quase verossimilhança estendida fornece uma estrutura sobre a qual semelhante análise pode ser feita. Pode-se considerar também a variância pertencente a uma família de funções indexadas por um parâmetro desconhecido l. Uma família, muito útil, é obtida considerando potências de µ:Vl(µ)=µl (Nelder & Pregibon, 1987). Os valores mais comuns de l são: 0,1,2 e 3; os quais correspondem às funções de variâncias associadas com as distribuições normal, Poisson, Gama e inversa Gaussiana, respectivamente. Para essa família de funções de variância, o desvio é dado por:

Outro tipo de função de variância que pode ser usada é a família Vl(µ)=µl(1–µ)l (Nair & Pregibon, 1988), onde para tem-se a variância constante e para tem-se uma função de variância do tipo binomial.

Para um dado fi, a menos de uma constante, a QVE é a QV para um modelo com a função de variância V(µi). Desta forma, maximizando Q+, com respeito ao vetor de parâmetros b, dará os mesmos estimadores da QV, com pesos 1/fi, satisfazendo: , para j=1,...,p, onde p é o número de parâmetros no modelo da média. A QVE fornece um desvio padronizado, o qual pode ser usado como uma medida de discrepância (Lee & Nelder, 1998).

Agora, para um dado µi, a QVE toma a forma de uma verossimilhança para a distribuição Gama, com variável resposta di. Desta forma: . A justificativa para fixar o modelo para a dispersão como Gama é que o desvio tem uma distribuição próxima da distribuição Gama até mesmo quando Y não tem uma distribuição normal (Nair, 1992). Note que a distribuição para dispersão é Gama exata se Y tem uma distribuição normal. No modelo da dispersão é comum tomar a função de ligação logarítmica. Analogamente ao modelo da média, maximizando Q+, com respeito ao vetor de parâmetros g, as equações de estimação desses parâmetros serão dadas por , para j=1,...,q, onde q é o número de parâmetros no modelo da dispersão. Lee & Nelder (1998) sugeriram o ajustamento da máxima verossimilhança restrita em experimentos altamente fracionados, onde o número de parâmetros no modelo da média é uma grande fração do tamanho da amostra. Para esses experimentos os estimadores dos parâmetros do modelo da dispersão podem ser altamente viesados.

A técnica de máxima verossimilhança restrita, desenvolvida para fazer o ajustamento de graus de liberdade para modelos lineares mistos, foi estendida por Cox & Reid (1987) para uma ampla classe de modelos através de uma QVE-ajustada. Lee & Nelder (1998) afirmam que a QVE-ajustada, proposta por Cox & Reid (1987), envolve uma pesada computação com baixa convergência. Assim, eles sugerem estimar g minimizando o quase desvio estendido ajustado, QD+A, dado por:

onde, , sendo o i-ésimo elemento da diagonal da matriz H=W1/2X(XTWX)–1XW1/2, a matriz de projeção do estimador de mínimos quadrados ponderados iterativos de b, onde W é uma matriz diagonal com entradas . Lee & Nelder (1998) afirmam que a minimização de QD+A é rápida e pode ser feita ajustando um MLG para o modelo da dispersão, assumido ter distribuição Gama, com como resposta. Nesse caso, .

Outros tipos de ajustamentos também são possíveis. McCullagh & Nelder (1989) sugerem ajustamentos para diferentes situações dos modelos. Para uma exposição detalhada da teoria de MLG consulte os livros de Cordeiro (1986), McCullagh & Nelder (1989), Dobson (1990) ou Myers, Montgomery & Vining (2002).

3. Aplicação da Modelagem Conjunta da Média e Dispersão aos Modelos Propostos por Taguchi

Em MLG, f e µ são medidas de desempenho para o ruído e para a média, respectivamente. A dependência funcional entre a média e a variância é eliminada através de uma escolha apropriada da função de variância V(µ). As medidas de desempenho do alvo, MDA( µ ), e de desempenho do ruído MDR( f ), são modeladas através de especificações apropriadas para as funções de ligação da média e da dispersão. Neste estágio, o importante é encontrar modelos aditivos simples para a média e para a dispersão.

Box (1988) considera dois critérios para análise de dados, em experimentos para melhoramento da qualidade, como sendo de grande importância, separação e parcimônia. Separação é a eliminação de algumas complicações desnecessárias no modelo, devido à dependência funcional entre a média e a variância; e parcimônia é a provisão de um modelo aditivo mais simples possível. O critério de separação de Box pode ser obtido por MLG através da descoberta de uma função apropriada para a variação dos dados. De maneira similar, a modelagem da variância é generalizada pela modelagem da dispersão. Variância e dispersão são iguais somente para erros normais. O segundo critério de Box, parcimônia, é interpretado como a descoberta de uma função de ligação apropriada para produzir aditividade dos efeitos das covariáveis, juntamente com um conjunto parcimonioso de covariáveis, que têm poder explicativo sobre a variável resposta.

Uma covariável de dispersão pode ou não ser a mesma que uma covariável para a média. Com isto, na formulação do MLG, as duas metas: separação e parcimônia, são interpretadas da seguinte forma:

  • Separação: será encontrada escolhendo a função de variância correta para a média, de modo que f fique livre das influências de

    µ;

  • Parcimônia: será encontrada escolhendo corretamente a função de ligação e o preditor linear para os modelos da média e da dispersão.

Usando a QVE, como critério de otimização, necessita-se conhecer somente as expressões da E (Y) = µ e da Var (Y) = fV(µ). A Tabela 1 dá um resumo da modelagem conjunta da média e da dispersão.

Nelder & Lee (1991) sugerem os seguintes passos para a modelagem conjunta da média e dispersão.

  • Passo 01: Identificação de V(

    µ)

    Neste estágio o critério de separação deve ser o mais importante. Separação é interpretada como a descoberta de uma função de variância apropriada para a média.

  • Passo 02: Modelagem conjunta da média e dispersão

    Modelos saturados são ajustados para a média e a dispersão; e procura-se por um máximo da quase verossimilhança estendida. Neste estágio o critério de parcimônia é mais importante, e pode ser encontrado, escolhendo, para cada modelo, uma função de ligação apropriada, juntamente com um conjunto parcimonioso de covariáveis no preditor linear.

  • Passo 03: Verificação do modelo

    Verifique o ajuste dos modelos (veja McCullagh & Nelder, 1989). Se a verificação do ajuste é satisfatória, isto é, se os modelos estão bem ajustados, vá ao passo 04. Caso contrário, volte para o passo 01.

  • Passo 04: Predição dos modelos

    Primeiro, minimize a variabilidade, encontrando um conjunto ótimo de níveis dos fatores de controle da variabilidade. Depois ajuste a média próxima ao valor alvo, escolhendo um conjunto apropriado de níveis dos fatores de controle da média.

3.1 Método iterativo para a modelagem conjunta da média e dispersão

• Modelo para a média

Sejam y1,...,yn, n observações independentes da variável resposta YT = (Y1,...,Yn), x1,x2,...xp, as p covariáveis que afetam a média e os parâmetros desconhecidos do modelo. Considere que µT =(µ1,...,µn), fT =(f1,...,fn) e suponha as expressões da E(Yi)=µi e da Var(Yi) = fi V(µi)conhecidas. Assuma k=1,. Agora, o método iterativo dos mínimos quadrados ponderados pode ser usado para obter , um vetor (p´1), sendo X a matriz de planejamento para o modelo da média, de dimensão (n´p); W(j–1)=Diag(w(j–1),...,w(j–1)n), a matriz (n´n) dos pesos para o MLG, onde Diag(w(j–1)1,...,w(j–1)n) representa uma matriz diagonal com as entradas na diagonal, e um vetor (n´1), com , para i=1,...,n e j=1,2,....

Em cada iteração j (j=1,2,...) um novo b(j) é obtido e o processo continua até que um critério de convergência seja satisfeito. Um possível critério de convergência pode ser: representa a norma de um vetor e d Î .

Após a convergência ter sido encontrada, faça Wk=W(j–1), guarde o último b(j) como bk, e utilize-o para o cálculo do vetor (n´1) da média µk, isto é, é uma função conhecida que possui inversa. Com o valor estimado de µk, calcula-se o vetor , com , onde e hki é o i-ésimo elemento da diagonal de . De posse do vetor ajuste o modelo da dispersão, considerando pesos iguais a 1–hki para cada valor .

• Modelo para a dispersão

Dados . Sejam , u1,u2,...,uq, as q covariáveis que afetam a dispersão e g1,g2,...,gq os parâmetros desconhecidos do modelo. Considerando uma distribuição Gama para o modelo da dispersão e usando o método iterativo de mínimos quadrados, obtém-se , um vetor (q´1), sendo U a matriz de planejamento para o modelo da dispersão, de dimensão (n´q); V(j-1) = Diag(n(j-1)l,...,n(j-1)n), a matriz (n ´ n) dos pesos para o MLG, representando uma matriz diagonal com as entradas na diagonal, e , um vetor (n´1), com , para i=1,...,n e j = 1,2,....

Da mesma forma como feito no modelo da média, em cada iteração j (j = 1,2,...) um novo g(j) é obtido e o processo continua até que um critério de convergência seja satisfeito. Após a convergência, o último g(j) é guardado como gk e é utilizado para o cálculo da média fk, isto é, , onde gd é uma função conhecida que possui inversa. No caso do modelo da dispersão, gd é, geralmente, tomada como a função logarítmica.

Agora, com o valor de fk =(fk1,...,fkn) estimado, volta-se para o modelo da média e usa-se, novamente, o método iterativo dos mínimos quadrados ponderados, agora com os novos pesos ;desta forma, no modelo da média, para cada j - 1, as entradas da matriz diagonal W(j - 1) serão . Assim, alterna-se entre os modelos da média e da dispersão até que um critério de convergência seja satisfeito, por exemplo,

com , onde é o valor do quase desvio estendido ajustado obtido no k-ésimo ciclo e representa o operador valor absoluto. Considere .

Observe que no k-ésimo ciclo deve-se averiguar se o modelo para a média ou para a dispersão está bem ajustado, bem como se algum parâmetro no modelo da média, ou no modelo da dispersão, deve ou não ser excluído do modelo conjunto. Para a seleção dos parâmetros no modelo da média pode-se usar a estatística , onde cjj é o elemento pertencente à diagonal da matriz ; considerando que um valor de indica que o parâmetro deve ser significativo e que um valor de indica que o parâmetro não deve ser significativo (Vieira, 2004). Para valores de deve-se verificar o quase desvio estendido, ajustado com e sem este parâmetro, e se houver uma diferença desses quase desvios , o parâmetro será considerado significativo. No modelo da dispersão pode-se usar o mesmo procedimento, mas agora com e com bjj o elemento pertencente à diagonal da matriz . O teste da estatística t serve para fazer uma filtragem no número de parâmetros, fornecendo uma indicação dos parâmetros que devem ou não ser verificados na análise do quase desvio estendido.

No último ciclo, isto é, quando a convergência tiver sido alcançada, o vetor de parâmetros b, que interfere na média, e o vetor de parâmetros g, que interfere na dispersão, terão sido encontrados.

O próximo passo agora é verificar quais são os melhores níveis das covariáveis para os parâmetros no vetor g, de modo que a variância da resposta seja mínima; depois verificar quais são os melhores níveis das covariáveis para os parâmetros no vetor b, de modo que o valor da média fique o mais próximo possível do valor de interesse pré-especificado (valor alvo). O algoritmo para a modelagem conjunta da média e dispersão é mostrado no apêndice A Apêndice A – Algoritmo para a Modelagem conjunta da média e dispersão .

4. Exemplos Numéricos

A seguir são dados dois exemplos numéricos para ilustrar a teoria descrita nas seções anteriores. O primeiro exemplo trata de dados contínuos, enquanto que o segundo, considera dados de contagem.

4.1 Mistura para bolo

Este exemplo, retirado de Atkinson & Donev (1992), concentra-se no desenvolvimento de uma nova mistura para bolo a ser apresentada no mercado. O produto necessita ser robusto às condições inadequadas de cozimento, representadas pelos fatores ambientais, como temperatura do forno, x4, e tempo em que o bolo permanece assando, x5. Os três fatores sob controle do fabricante são: a quantidade de farinha, de açúcar e de ovo, denotadas, respectivamente, por x1, x2 e x3. O planejamento experimental, dado na Tabela 2, consiste de um fatorial 23, com ponto central nos fatores de planejamento, cruzado com um fatorial 22, mais o ponto central nos fatores ambientais. Os níveis dos fatores, iguais a zero, correspondem à composição pretendida da mistura e às condições ideais de cozimento sugeridas pelo fabricante. A resposta é um índice de predileção, isto é, uma nota variando de 0,0 a 10,0 e, obviamente, quanto maior melhor.

Inspecionando os resultados da Tabela 2 pode-se notar que os ensaios 7 e 9 produzem misturas que são menos suscetíveis às variações nos fatores ambientais x4 e x5, mas o ensaio 7 tem a média mais alta e assim deve ser a melhor mistura para o mercado. Esta análise informal dos resultados deste experimento é suficiente para extrair informação relevante. Contudo, em experimentos mais complicados, uma análise mais sofisticada seria necessária.

Para este exemplo, seguiu-se o procedimento descrito em Engel & Huele (1996), isto é, considerou-se: y1,y2,...,yn, n observações independentes da variável resposta Y; sT=(s1,...,sk) k fatores de planejamento, e rT =(r1,...,rl), l fatores de ruído. Neste exemplo k=3 e l=2. Seja xT=(x1,...,xp) o vetor contendo as p covariáveis que afetam o modelo da média e que uT=(u1,...,uq) é o vetor com as q covariáveis que afetam o modelo da dispersão. Os fatores ocorrendo em xT e uT podem ser efeitos lineares, quadráticos ou interações dos fatores de sT e rT.

O objetivo em um problema de planejamento robusto é obter um modelo para E(Y) e para Var(Y), a média e a variância do processo, respectivamente. Durante o experimento, os valores das respostas são observados condicionalmente aos níveis dos fatores de ruído, desta forma, define-se e , onde é a i-ésima linha da matriz R(n´1) dos fatores de ruído. O modelo proposto para o problema em questão foi: , sendo e ; onde , com a i-ésima linha da matriz de planejamento X(n´p), do modelo da média, e b o vetor (p´1); , com a i-ésima linha da matriz de planejamento U (n´p), do modelo da dispersão; e g o vetor (q´1).

Para aplicar a modelagem conjunta da média e dispersão aos dados da Tabela 2, suponha V(µi)=1, função de ligação identidade para o modelo da média e distribuição Gama com função de ligação logarítmica para o modelo da dispersão. Note que não está sendo suposto que o modelo da média é conhecido, pois para usar a modelagem conjunta da média e dispersão necessita-se somente do conhecimento das funções de variância e de ligação. Observe também que outras funções de variância e de ligação, para o modelo da média, poderiam ter sido usadas. Para as principais distribuições conhecidas, pertencentes à família exponencial, existem funções de ligação e de variância apropriadas, entretanto podem existir situações em que não se está certo sobre qual distribuição usar, ou seja, não se sabe qual a distribuição correta. Nessas situações podem-se usar as funções de ligação e de variância conhecidas (veja McCullagh & Nelder, 1989); sendo as melhores aquelas que fornecerem o melhor ajuste aos dados, ou seja, que gerarem o menor quase desvio estendido.

Voltando ao exemplo, como , tem-se o valor esperado da resposta condicional aos fatores de ruído. Da mesma forma , é uma resposta para a variância, também condicional aos fatores de ruído. Assim, pode-se encontrar e da seguinte forma: e .

Para o problema da mistura de bolo, o que interessa são os efeitos principais e as interações de primeira ordem, exceto a interação entre os dois fatores de ruído, x4x5. As matrizes de planejamento X, para o modelo da média, e U, para o modelo da dispersão, foram consideradas iguais e estão mostradas no apêndice B apêndice B .

O programa da modelagem conjunta da média e dispersão convergiu, usando o critério de convergência dado na equação (6), após 6 iterações e o resultado para os modelos da média e da dispersão, após os testes para verificação da significância dos parâmetros, é mostrado na Tabela 3.

No modelo da média, o parâmetro b2, correspondente à variável x2, não foi significativo, entretanto, decidiu-se deixá-lo no modelo, pois uma interação desta covariável com a covariável x3 foi significativa. Assim,

pois nenhuma interação com os fatores de ruído foi significativa, em nenhum dos modelos. Caso algum fator de ruído fosse considerado significativo, ter-se-ia que assumir uma média, possivelmente zero, e uma variância para este fator, pois os fatores de ruído são considerados variáveis aleatórias e não podem ser controlados. (para maiores detalhes, veja Engel & Hule, 1996). Na equação (7), para que a variância seja mínima, deve-se ter x1 = 1 (nível alto de farinha) e para que a média fique a mais alta possível, deve-se ter x2 =–1 (nível baixo de açúcar) e x3 =1(nível alto de ovo). Logo, a melhor combinação possível é: 1, -1 e 1, correspondendo, exatamente, à linha 7 da Tabela 2; como era esperado.

Atkinson & Donev (1992), utilizando modelos separados para a média e para a dispersão, obtiveram os mesmos resultados, com relação à escolha dos fatores, e valores praticamente idênticos em relação às estimativas dos parâmetros. Vale ressaltar também que usando a análise de Taguchi (não mostrada), a qual procura o máximo de uma relação Sinal Ruído (SR), o ensaio 7, na Tabela 2, é o melhor, pois possui o maior valor de SR. Para esse experimento simples, a escolha dos níveis dos fatores seria a mesma, tanto usando a razão sinal ruído de Taguchi, quanto usando MLG. Entretanto, não se teria um modelo para a média da resposta nem para a dispersão e, portanto, não se saberia quais fatores afetam a média e quais afetam a variância; informação que pode ser muito importante num processo de produção. Neste artigo, não se quer entrar em detalhes nem fazer críticas sobre métodos de Taguchi, o que se pretende é apresentar uma teoria alternativa, com uma sólida base estatística.

4.2 Análise de contagem usando MLG com parâmetro de dispersão variável

A título de ilustração da teoria para dados discretos serão gerados dados de contagem de uma distribuição discreta com parâmetro de dispersão variável. A modelagem conjunta da média e dispersão será aplicada a esses dados a fim de verificar se essa abordagem é capaz de identificar as covariáveis que afetam os modelos da média e da variância e se os valores encontrados para os parâmetros, correspondentes às covariáveis selecionadas, são próximos aos usados inicialmente para gerar os dados.

Em analogia ao exemplo 4.1, considere as covariáveis x1, x2 e x3 como fatores de controle, de modo que x2 e x3 afetam a média e que somente x1 afeta a dispersão. Não serão considerados fatores de ruído afetando a média ou a dispersão. Desta forma, será considerado o preditor linear para o modelo da média como h(µ)=2,2+0,46x3 - 0,63x2x3, e para o modelo da dispersão z(f)=-0,74x1. Observe que o valor 4,7, na equação (7), foi trocado por 2,2. Isto foi feito apenas para que os valores gerados para a resposta não fossem valores grandes, ou seja, maiores que 100. Note também que a covariável x2 não foi colocada no modelo da média, embora ela seja importante (veja seção 4.1). Optou-se por não colocá-la, pois, a título de ilustração, o que se quer é apenas testar se o algoritmo funciona para o modelo usado para gerar os dados, independente de x2 estar ou não no modelo. Suponha também que a função de variância seja V(µ)=µi, desta forma, os dados de contagem serão gerados de modo que:

Será considerado também que ambas as funções de ligação, para a média e para a variância, sejam a função logarítmica. Assim, fi =exp(-0,74x1) e µi =exp(2,2+0,46x3 – 0,63x2x3).

A geração dos dados foi adaptada de McCullagh & Nelder (1989), página 198. Considere a variável aleatória Y|N = Z1+...+ZN, onde Zi são variáveis aleatórias independentes e identicamente distribuídas; e N é uma variável aleatória com distribuição de Poisson, independente de Zi, para i=1,...,N. Logo,

Seja E(Zi)= Vi, então, para que se tenha E(Yi) = µi na equação (9), deve-se fazer E(Ni)=µi/Vi. Desta forma, deve-se gerar Ni ~ Poisson (µi/Vi). Da equação (8) sabe-se que ; neste caso, tomando Zi ~ Poisson (Vi), e Vi=|fi–1|, pois Vi>0. Portanto, se gerar Ni ~ Poisson (µi/Vi) e com o valor Ni gerado, somar Ni distribuições de Poisson com parâmetro Vi, garante-se, por construção, que E(Yi)= µi e Var(Yi)=µifi. Note que, por estar usando a quase verossimilhança estendida, não é preciso conhecer a distribuição de Y. A Tabela 4 mostra os valores de Vi e µi/Vi usados para gerar os dados.

As observações foram geradas uma única vez e para cada linha da Tabela 4, geraram-se 5 resultados, num total de 45 observações. Os dados gerados foram usados como resposta para a modelagem conjunta da média e dispersão, considerando o modelo para a média com ligação logarítmica e função de variância V (µ) = µ. O modelo para a dispersão foi considerado Gama com função de ligação também logarítmica. A matriz de planejamento, considerada tanto para o modelo da média, quanto para o modelo da dispersão, foi a mesma do exemplo 4.1 e é mostrada no apêndice B apêndice B .

O programa convergiu, usando o critério de convergência, dado na equação (6), após 4 iterações, e o resultado para os modelos da média e da dispersão, depois de realizados os testes para verificação da significância dos parâmetros, é mostrado na Tabela 5.

Assim, e . Observe que a modelagem conjunta da média e da dispersão conseguiu identificar as covariáveis que afetam a média e a dispersão. Além disso, as estimativas dos parâmetros encontradas foram próximas dos valores usados para gerar os dados. Vale salientar que, nesse exemplo, o objetivo não foi fazer um estudo de simulação, mas apenas aplicar a MCMD a um conjunto de dados, gerados a partir das hipóteses de interesse.

5. Considerações Finais

Nelder & Lee (1991) afirmam que a modelagem conjunta da média e dispersão é geral e suficiente para ajustar os modelos de Taguchi. Usando MLG não é preciso usar transformação para os dados. Modelos com resposta contínua, ou na forma de contagem e proporção, podem ser ajustados usando o mesmo algoritmo. Além disso, o critério de separação pode ser satisfeito pela especificação correta da função de variância no MLG; e parcimônia pode ser encontrada escolhendo funções apropriadas de ligação e covariáveis para os parâmetros dos modelos da média e da dispersão, respectivamente.

Um outro aspecto muito importante da modelagem conjunta da média e dispersão é que esta abordagem permite encontrar, além dos fatores que afetam a média, aqueles que afetam a dispersão. Dessa forma, pode-se escolher valores das covariáveis de modo que a resposta para o modelo da dispersão seja mínima.

AGRADECIMENTOS

Os autores agradecem as críticas e sugestões de um revisor anônimo, que possibilitaram melhorar sobremaneira a qualidade e a objetividade deste artigo.

Recebido em 12/2003; aceito em 05/2006 após 2 revisões

Received December 2003; accepted May 2006 after 2 revisions

O método iterativo da modelagem conjunta da média e dispersão pode ser resumido no seguinte algoritmo. Considere as suposições e definições apresentadas na seção 3.1.

Inicie

Coloque k=1

Faça

Enquanto a convergência não for satisfeita (modelo conjunto)

Coloque j=1

Enquanto a convergência não for satisfeita (modelo da média)

Calcule

Se , pare (convergência satisfeita)

Faça

Senão

Faça j=j+1

Fim Se

Fim Enquanto

Calcule

Faça

Coloque j=1

Enquanto a convergência não for satisfeita (modelo da dispersão)

Calcule

Se , pare (convergência satisfeita)

Faça

Senão

Faça j=j+1

Fim Se

Fim Enquanto

Faça

Se < e, pare (convergência atingida).

Senão

Faça k=k+1

Fim Se

Fim Enquanto.

Faça

Fim

A listagem do programa para a modelagem conjunta da média e dispersão, em linguagem de programação FORTRAN 90, é dada em Pinto (2005).

Apêndice B

apêndice B

Apêndice B - clique aqui para ampliar

  • (1) Aitkin, M. (1987). Modelling variance heterogeneity in normal regression using GLIM. Applied Statistics, 36, 332-339.
  • (2) Atkinson, A.C. & Donev, A.N. (1992). Optimum experimental designs Oxford Science Publications, Clarendon Press, UK.
  • (3) Box, G.E.P. (1988). Signal to noise, performance criteria and transformations. Technometrics, 30, 1-17.
  • (4) Cuervo, E.C. (2001). Modelagem da variabilidade em modelos lineares generalizados. Tese de D. Sc., IM UFRJ, Rio de Janeiro, RJ, Brasil.
  • (5) Cordeiro, G.M. (1986). Modelos lineares generalizados VII SINAPECampinas SP.
  • (6) Cox, D.R. & Reid, N. (1987). Parameter orthogonality and approximate conditional inference. Journal of The Royal Statistical Society Serie B, 49(1), 1-39.
  • (7) Dey, K.D.; Gelfand, A.E. & Peng, F. (1997). Overdispersed generalized linear models. Journal of Statistical Planning and Inference, 64, 93-107.
  • (8) Dobson, A.J. (1990). An introduction to generalized linear models Chapman & Hall, New York.
  • (9) Engel, J. & Huele, A.F. (1996). A generalized linear modeling approach to robust design. Technometrics, 38(4), 365-373.
  • (10) Guedes, T.A. (1996). Procedimentos de otimização no planejamento e controle da qualidade de produtos e processos. Tese de D. Sc., Depto. de Engenharia de Produção UFSC, Florianópolis, SC, Brasil.
  • (11) Jorgensen, B. (1987). Exponential dispersion models (with discussion). Journal of The Royal Statistical Society Serie B, 49(2), 127-162.
  • (12) Jorgensen, B. (1992). The theory of exponential dispersion models and analysis of deviance. Monografia de Matemática, nş 51 IMPA.
  • (13) Lee, Y. & Nelder, J.A. (1998). Generalized linear models for analysis of quality improvement experiments. The Canadian Journal of Statistics, 26(1), 95-105.
  • (14) Lee, Y. & Nelder, J.A. (2000). The relationship between double-exponential families and extended quasi-likelihood families, with application to modelling Geissler's human Sex ratio data. Applied Statistics, 49(3), 413-419.
  • (15) Lee, Y. & Nelder, J.A. (2003). Robust design via generalized linear models. Journal of Quality Technology, 35(1), 2-12.
  • (16) McCullagh, P. (1983). Quasi-likelihood functions. The Annals of Statistics, 11(1), 59-67.
  • (17) McCullagh, P. & Nelder, J.A. (1989). Generalized linear models 2Ş edição, Chapman & Hall, Londres.
  • (18) Myers, R.H.; Montgomery, D.C. & Vining, G.G. (2002). Generalized linear models with applications in engineering and the sciences Wiley, New York.
  • (19) Nair, V.N. (1992). Taguchi's parameter design: a panel discussion. Technometrics, 34(2), 127-161.
  • (20) Nelder, J.A. & Lee, Y. (1991). Generalized linear models for the analysis of Taguchi-type experiments. Applied Stochastic Models and Data Analysis, 7, 107-120.
  • (21) Nelder, J.A. & Pregibon, D. (1987). An extended quasi-likelihood function. Biometrika, 74, 221-232.
  • (22) Phadke, M.S. (1989). Quality engineering using robust design Prentice-Hall, Englewood Cliffs, New Jersey.
  • (23) Pinto, E.R. (2005). Planejamento de experimentos ótimos para modelos lineares generalizados com parâmetro de dispersão variando. Tese de D. Sc. COPPE UFRJ, Rio de Janeiro, RJ, Brasil.
  • (24) Smyth, G.K. (1989). Generalized linear models with varying dispersion. Journal of The Royal Statistical Society Serie B, 51(1), 47-60.
  • (25) Smyth, G.K. (2002). An efficient algorithm for REML in heteroscedastic regression. Journal of Graphical and Computational Statistics, 11, 15-27.
  • (26) Smyth, G.K.; Huele, A.F. & Verbyla, A.P. (2001). Exact and approximate REML for heteroscedastic regression. Statistical Modelling, 1, 161-175.
  • (27) Smyth, G.K. & Verbyla, A.P. (1996). A conditional likelihood approach to REML in generalized linear models. Journal of the Royal Statistical Society Series B, 58, 565-572.
  • (28) Smyth, G.K. & Verbyla, A.P. (1999). Adjusted likelihood methods for modeling dispersion in generalized linear models. Environmetrics, 10, 696-709.
  • (29) Vieira, A.F.C. (2004). Análise da média e dispersão em experimentos fatoriais não replicados para otimização de processos industriais. Tese de D. Sc. Depto. de Engenharia de Produção PUC Rio, Rio de Janeiro, Brasil.
  • (30) Verbyla, A.P. (1993). Modelling variance heterogeneity: residual maximum likelihood and diagnostics. Journal of the Royal Statistical Society Series B, 55, 493-508.
  • (31) Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika, 61, 439-447.

apêndice B

Apêndice A – Algoritmo para a Modelagem conjunta da média e dispersão

  • *
    Corresponding author / autor para quem as correspondências devem ser encaminhadas
  • Datas de Publicação

    • Publicação nesta coleção
      26 Set 2006
    • Data do Fascículo
      Ago 2006

    Histórico

    • Aceito
      Maio 2006
    • Recebido
      Dez 2003
    Sociedade Brasileira de Pesquisa Operacional Rua Mayrink Veiga, 32 - sala 601 - Centro, 20090-050 Rio de Janeiro RJ - Brasil, Tel.: +55 21 2263-0499, Fax: +55 21 2263-0501 - Rio de Janeiro - RJ - Brazil
    E-mail: sobrapo@sobrapo.org.br