Acessibilidade / Reportar erro

Modelagem da fração de não-conformes em processos industriais

Resumos

Em qualquer processo industrial, pode ser definido um conjunto de causas ou fatores que produzem determinado efeito sobre uma ou mais características de qualidade de um produto que pode ou não satisfazer às especificações do cliente, gerando a produção de produtos não-conformes. A modelagem da proporção ou fração de produtos não-conformes utilizando-se o modelo de regressão linear não é adequada por pelo menos duas razões: (i) pressupõe que as proporções seguem a distribuição normal, que não é correto; e (ii) possibilita a previsão de valores fora do intervalo [0,1]. Alternativas à modelagem da proporção de não-conformes são os Modelos Lineares Generalizados e os Modelos de Regressão Beta. O objetivo deste artigo é modelar a fração de não-conformes às especificações de uma indústria curtidora com enfoque nos Modelos de Regressão Beta e Modelo Linear Generalizado. Esses modelos podem ser estendidos a processos industriais que envolvam a produção de produtos não-conformes às especificações de manufatura.

modelo linear generalizado; modelo de regressão beta; fração de não-conformes


In any industrial process, one can enumerate causes or factors that act on one or more quality characteristics of the resulting product such that they fail to meet customers' specifications, generating items deemed as nonconforming. Modeling the fraction or proportion of nonconforming items using linear regression models is not adequate for at least two reasons: (i) proportions are assumed to follow a Normal distribution, which is not correct, and (ii) predicted responses will not necessarily be confined in the [0,1]-interval. Alternative approaches to the modeling of nonconforming proportions are based on Generalized Linear Models and Beta Regression Models. In this paper we present a case study where the objective is to model the nonconforming fraction of items emerging from a tanning process; our analysis uses Generalized Linear Models and Beta Regression Models. The developments presented in the paper may be extended to other industrial process where the proportion of nonconforming items is easily accessible.

generalized linear model; beta regression model; fraction nonconforming


Modelagem da fração de não-conformes em processos industriais

Ângelo Márcio Oliveira Sant'Anna* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Carla Schwengber ten Caten

Programa de Pós-graduação em Engenharia de Produção / Universidade Federal do Rio Grande do Sul (UFRGS) Porto Alegre - RS; gelo@producao.ufrgs.br, tencaten@producao.ufrgs.br

RESUMO

Em qualquer processo industrial, pode ser definido um conjunto de causas ou fatores que produzem determinado efeito sobre uma ou mais características de qualidade de um produto que pode ou não satisfazer às especificações do cliente, gerando a produção de produtos não-conformes. A modelagem da proporção ou fração de produtos não-conformes utilizando-se o modelo de regressão linear não é adequada por pelo menos duas razões: (i) pressupõe que as proporções seguem a distribuição normal, que não é correto; e (ii) possibilita a previsão de valores fora do intervalo [0,1]. Alternativas à modelagem da proporção de não-conformes são os Modelos Lineares Generalizados e os Modelos de Regressão Beta. O objetivo deste artigo é modelar a fração de não-conformes às especificações de uma indústria curtidora com enfoque nos Modelos de Regressão Beta e Modelo Linear Generalizado. Esses modelos podem ser estendidos a processos industriais que envolvam a produção de produtos não-conformes às especificações de manufatura.

Palavras-chave: modelo linear generalizado; modelo de regressão beta; fração de não-conformes.

ABSTRACT

In any industrial process, one can enumerate causes or factors that act on one or more quality characteristics of the resulting product such that they fail to meet customers' specifications, generating items deemed as nonconforming. Modeling the fraction or proportion of nonconforming items using linear regression models is not adequate for at least two reasons: (i) proportions are assumed to follow a Normal distribution, which is not correct, and (ii) predicted responses will not necessarily be confined in the [0,1]-interval. Alternative approaches to the modeling of nonconforming proportions are based on Generalized Linear Models and Beta Regression Models. In this paper we present a case study where the objective is to model the nonconforming fraction of items emerging from a tanning process; our analysis uses Generalized Linear Models and Beta Regression Models. The developments presented in the paper may be extended to other industrial process where the proportion of nonconforming items is easily accessible.

Keywords: generalized linear model; beta regression model; fraction nonconforming.

1. Introdução

O cenário mundial atual é de intensa competitividade devido ao desenvolvimento tecnológico rápido de produtos e processos, visando buscar produtos que tenham características de qualidade sem defeito. Em processos de manufatura, a implementação de técnicas estatísticas permite eliminar desperdícios, reduzir os índices de produtos refugados, diminuir a necessidade da realização de inspeção e aumentar a satisfação dos clientes.

Em um processo industrial, pode ser definido um conjunto de causas ou fatores que produzem determinado efeito sobre uma ou mais características de qualidade de produtos que podem ou não satisfazer às especificações preestabelecidas pelo cliente. Muitas vezes não se consegue controlar todas as causas de variação, pois certas causas são inerentes ao processo (Montgomery, 2001). As causas de variação que podem ser controladas, também chamadas de fatores controláveis, podem interferir em um processo podendo gerar a produção de produtos com características de qualidade não-conformes às especificações preestabelecidas, os quais podem ser mensurados através da proporção ou fração de produtos não-conformes.

Segundo Montgomery et al. (2006), modelos de regressão consistem numa técnica estatística de modelagem e investigação que relaciona uma ou mais características de qualidade do produto, chamadas de variável dependente, com os fatores controláveis que podem afetá-las, chamados de variáveis independentes. Conforme Hamada & Nelder (1997), um modelo de regressão que apresenta um bom ajuste usualmente permite gerar boas estimativas dos efeitos dos fatores, consistindo numa estratégia eficiente de otimização, pois é possível prever a variável dependente fração de não-conformes em função do ajuste das variáveis independentes ou fatores controláveis.

Segundo Cox (1996), a modelagem da proporção em um determinado conjunto de observações, por meio de um modelo de regressão linear, nem sempre é recomendada, uma vez que este modelo requer a suposição de que as proporções seguem a distribuição normal. Segundo Kieschnick & McCullogh (2003), o uso do modelo de regressão linear na modelagem de proporções ou frações como variável dependente, é um modelo falho, pois possibilita a previsão de valores fora do limite do intervalo [0,1]. Alternativas para a modelagem da fração de produtos não-conformes são os Modelos Lineares Generalizados (MLG) e os Modelos de Regressão Beta (MRB).

Conforme Myers et al. (2002), a teoria dos MLG apresenta opções para a distribuição da variável dependente, permitindo que dados provenientes de uma distribuição de probabilidade Binomial possam ser modelados usando a distribuição original dos dados, sem a necessidade de realizar transformações nos dados.

Outra forma de relacionar a variável dependente e demais variáveis independentes, num processo de investigação e modelagem de dados, foi proposta por Ferrari & Cribari-Neto (2004), cuja estrutura do modelo de regressão baseia-se na suposição de que os dados mensurados em proporção seguem a distribuição de probabilidade Beta. Este procedimento é chamado de MRB.

O uso destes modelos de regressão permite aumentar a precisão da estimativa dos efeitos dos fatores controláveis e da previsão dos efeitos. Desta forma, permite-se identificar com mais precisão as condições ótimas de operação do processo de manufatura.

O objetivo deste artigo é modelar a fração de não-conformes às especificações de uma indústria curtidora com enfoque no Modelo de Regressão Beta e no Modelo Linear Generalizado.

Na seção 2, é apresentada uma breve revisão sobre os conceitos básicos de MLG e MRB. Na seção 3, são apresentadas as medidas de diagnóstico para análise de adequação dos modelos de regressão. Na seção 4, um estudo de aplicação prática. Finalmente, na seção 5, são feitas considerações finais sobre a modelagem desenvolvida nesse artigo.

2. Modelos de Regressão

Em muitas situações práticas em que se deseja realizar uma investigação entre uma variável dependente e demais variáveis independentes, cuja variável dependente apresenta restrição nos valores mensurados como a fração ou proporção de algum evento de interesse, é comum usar no processo de modelagem, o modelo de regressão linear. Contudo, segundo Cox (1996), a modelagem da proporção utilizando um modelo de regressão linear nem sempre é recomendada, pois este modelo requer a suposição de normalidade aos dados e homocedasticidade (variâncias iguais). Assim, pelo fato dos dados serem mensurados em proporção dificilmente apresentarão normalidade. Portanto, deve-se buscar uma nova forma de relacionar as variáveis independentes à variável dependente.

Os modelos de regressão abordados como alternativas à modelagem da fração de não-conformes são: os modelos lineares generalizados, que foram propostos por Nelder & Wedderburn (1972), mais especificamente o modelo de Quase-verossimilhança e o modelo de regressão Beta, que foi proposto por Ferrari & Cribari-Neto (2004).

2.1 Modelos Lineares Generalizados

Uma classe de modelos conhecidos como MLG é apropriada para investigar o efeito de variáveis independentes sobre uma única variável dependente de comportamento não-normal. Estes modelos permitem estimar os efeitos relacionados com cada fator, analisar a influência e realizar previsões. Ademais, na construção destes modelos as variáveis independentes ou fatores podem ser de natureza quantitativa ou qualitativa.

Segundo Hamada & Nelder (1997), a classe dos MLG foi desenvolvida por Nelder & Wedderburn (1972) e estes modelos se baseiam em distribuições de probabilidade, com um parâmetro de localização desconhecido (¸), admitindo que a mesma pertença à família exponencial. Esta família contempla as distribuições Normal, Binomial, Poisson, Gamma, Exponencial, Binomial Negativa. Ademais, estes modelos admitem variância não constante e dependente da média. Conforme Lee & Nelder (1998), esta classe de modelos é definida ainda por um conjunto de variáveis independentes que descreve a estrutura linear do modelo e uma função de ligação entre a média da variável dependente e a estrutura linear.

Para se admitir que uma distribuição de probabilidade pertença à família de distribuições exponencial é necessário que as funções de distribuições de probabilidade apresentem a forma

onde a(y), b(¸) e c(¸) são funções específicas, sendo ¸ o parâmetro natural da distribuição de probabilidade e y a variável dependente da distribuição (Dobson, 2002).

Segundo Cordeiro (1986), uma variável dependente (y) que apresenta valores na forma de proporções ou frações segue a distribuição de probabilidade Binomial com parâmetros n e p. McCullagh & Nelder (1989) salientam que, em estudos com dados mensurados em proporção, a relação entre a variável dependente e as variáveis independentes é descrita formalmente através de um modelo de regressão Binomial.

Conforme Prentice (1986), a proporção de sucessos (pi) de um referido evento (por exemplo, produto defeituoso) segue uma distribuição de probabilidade Beta-Binomial. Onde admite-se que a variável dependente (yi) segue a distribuição Binomial e a proporção (pi) obtida a partir da variável (yi) em cada ocorrência (i = 1, ..., n ) segue uma distribuição de probabilidade Beta. A combinação das distribuições de probabilidade Binomial e Beta na estrutura da modelagem produzem apenas um ajuste na função de variância da variável dependente.

A forma da função da distribuição de probabilidade Binomial pertencente à família exponencial é expressa por

Observa-se que a forma da função de distribuição de probabilidade Binomial esta descrita como a forma da equação (1).

Os modelos de regressão pertencentes à classe dos MLG apresentam uma estrutura com três componentes: a componente aleatória, a componente sistemática e a função de ligação. Sendo: (i) Componente aleatória - identifica a distribuição de probabilidade da variável dependente y pertencente à família exponencial; (ii) Componente sistemática - especifica a estrutura das variáveis independentes, que é utilizada como preditor linear η; (iii) Função de ligação - descreve a relação funcional entre a componente sistemática e o valor esperado da componente aleatória (a média µ da variável dependente y).

A componente sistemática que compõem o modelo de regressão que consiste na estrutura das variáveis independentes é uma soma linear, definida como

onde a função linear η é denominada de preditor linear, β's coeficientes desconhecidos e k números de variáveis independentes. Além disso, outra característica da componente sistemática de um modelo linear é que a média µ da variável dependente y pode ser expressa por uma função conhecida g(.), denominada de função de ligação (Myers et al., 2002), a qual descreve a relação funcional (ligação) entre a média µ e o preditor linear η, descrevendo a forma

Conforme Dobson (2002), a função de ligação g(.) é responsável pela transformação da média da variável dependente, e não de cada observação. Sant'Anna & Caten (2005) descrevem que a escolha da função de ligação depende do problema de modelagem em particular e, que em muitas vezes os modelos de regressão podem apresentar uma função de ligação diferente conforme o conjunto de observações.

A estimação dos coeficientes para o MLG é realizada através do método clássico de máxima verossimilhança, em que os coeficientes β e Φ (parâmetro de dispersão) são obtidos a partir da maximização do logaritmo da função de verossimilhança. O procedimento de maximizar a função de verossimilhança é realizado por um algoritmo de otimização não-linear, tal como o algoritmo de Newton-Raphson descrito por Cordeiro (1986) ou o algoritmo quasi-Newton (BFGS) descrito por Ferrari & Cribari-Neto (2004). Conforme McCullagh & Nelder (1989) o método clássico de estimação pode ser utilizado considerando qualquer função de distribuição de probabilidade para variável dependente.

Considerando uma amostra de n observações independentes, o logaritmo da função de verossimilhança (log-verossimilhança) dos modelos de regressão apresenta a forma geral,

com µi definida de tal forma que satisfaz a equação µi = g-1i), que é função de β.

A diferenciação da função de log-verossimilhança em relação aos coeficientes desconhecidos (β) do modelo ajustado é definida pela derivada da função de log-verossimilhança, para j = 1, ..., k .

Note que ∂μi/∂ηi = 1/g'(μi) e também,

onde δ(·) é uma função diferencial Gamma, isto é, δ(z) = ∂logΓ(z)/∂z, z > 0. Desta forma yi* = log (yi / (1 - yi)) e µi* = {δ(µ iΦ) - δ(1 - µi)Φ}. Conforme Hoffmann (2003), o valor esperado da derivada em (7) iguala-se a zero, de forma que o valor esperado da variável dependente transformada yi* iguala-se a µi*. Ou seja, µi* = E(yi*).

Na abordagem de MLG, a estimativa dos coeficientes dos modelos usualmente é obtida pela maximização da função de log-verossimilhança (EMV). No entanto, conforme algumas situações experimentais a estimação dos coeficientes pelo método tradicional de EMV fica comprometida, em virtude de não cumprimento de certos pressupostos, assim, faz-se necessário o uso do método de estimação por quase-verossimilhança (conforme pode ser visto em Sant'Anna, 2006).

Modelo de Quase-verossimilhança

Weddeburn (1974) propôs os modelos de Quase-verossimilhança (MQV) com base nos modelos pertencentes à classe dos MLG, em que os modelos apresentam duas componentes: a componente sistemática (estrutura linear das variáveis independentes) e a função de ligação que relaciona a média (µi) da variável dependente à estrutura linear das variáveis independentes (Xj).

A característica destes modelos de regressão, é que não há a necessidade de assumir a princípio alguma distribuição de probabilidade para a variável dependente. Por conseguinte, a esperança matemática e a variância da variável dependente não são conhecidas a priori.

Seja yi uma variável dependente qualquer de interesse, que assume a E[yi] = µi e uma variância definida por Var[yi] = Φ*V(µi), onde a função de variância V(µi) é uma função conhecida da média µi e Φ é o parâmetro de dispersão constante. A função de quase-verossimilhança para um modelo de regressão é definida pela equação

O MQV utilizado na modelagem de um conjunto de dados mensurados em proporção ou fração de não-conformes é descrito a partir de uma variável dependente (yi) que pode assumir qualquer função de variância. Por exemplo, seja uma função V(µi) = µ (1-µ) para a variável dependente descrita acima a forma se apresenta

e o logaritmo da função de quase-verossimilhança fica nesse caso dado por

que conforme McCullagh & Nelder (1989), a função acima corresponde a função de log-verossimilhança da distribuição de probabilidade Binomial com função de variância V(µ) = µ(1-µ ), a qual possui a seguinte forma

Nota-se que a principal diferença entre como se formam as equações (10) e (11) está em que, quando se usa a função de quase-verossimilhança para estimar os coeficientes desconhecidos do modelo de regressão, apenas se define a relação da variância da variável dependente com a sua média, não sendo necessário definir anteriormente uma distribuição de probabilidade.

Para testar a significância dos coeficientes do modelo de regressão pelo teste da razão de quase-verossimilhança tem-se a estatística de quase-deviance. Pode-se dizer que a quase-deviance está para a modelagem pela função de quase-verossimilhança assim como a deviance está para a função de verossimilhança. Por analogia, a quase-deviance de um modelo qualquer é definida como o desvio deste modelo em relação ao modelo nulo, sendo:

em que Qi(yi,) é a função de máxima verossimilhança do modelo sob pesquisa e Qi(yi;yi) é a função de máxima verossimilhança do modelo nulo.

Para o modelo de Quase-verossimilhança definido pela equação (10), a estatística de quase-deviance é expressa da forma

2.2 Modelo de Regressão Beta

Quando a variável dependente é mensurada em proporção ou fração, apresentando valores restritamente no intervalo unitário (0 < y < 1), a relação entre as variáveis dependente e independentes apresenta restrição no domínio da função (0 < E(y) < 1) (Cox, 1996).

Partindo deste princípio, Ferrari & Cribari-Neto (2004) propuseram o MRB, que é um procedimento alternativo na modelagem de dados mensurados em proporção, cuja estrutura do modelo de regressão permite modelar as relações lineares e não-lineares entre as variáveis independentes e a variável dependente. Ademais, na construção destes modelos as variáveis independentes ou fatores controláveis podem ser de natureza quantitativa ou qualitativa.

A família de distribuições Beta é composta de todas as distribuições de probabilidade que apresente uma variável dependente y cuja função densidade de probabilidade depende dos parâmetros p e q, e que sua função densidade pode ser escrita na forma,

onde y é a variável aleatória, p e q são parâmetros da função densidade de probabilidade e Γ(p) uma função gama avaliada no ponto p, ou seja, com Γ(p) = ∫0yp-1e-ydy, p>0.

A função f(y) = f(y; p, q) é efetivamente uma função densidade de probabilidade com parâmetros p e q. Nota-se ainda, que a função f(y; p, q) assume valores estritamente positivos, pois para qualquer valor de y pertencente ao intervalo [0,1], a função densidade descrita é crescente, ou seja, f(y) > 0.

Segundo Kieschnick & McCullough (2003) e Ferrari & Cribari-Neto (2004), a distribuição de probabilidade Beta é uma função densidade de probabilidade que não pertence à família exponencial, pois a sua distribuição não pode ser escrita na forma canônica e apresentar um parâmetro de localização µ. A família de distribuições Beta contempla as distribuições Uniforme, Arco-seno e Dirichlet.

O MRB proposto apresenta uma estrutura de regressão baseada em três componentes:

(i) Componente aleatória - supõe-se que a variável dependente (y) segue unicamente a distribuição de probabilidade Beta; (ii) Componente sistemática - que especifica uma soma linear dos coeficientes desconhecidos das variáveis independentes, conhecido como preditor linear (η); (iii) Função de ligação - que permite modelar a média da variável dependente em relação às demais variáveis independentes através de uma função, conhecida como g(.).

A estrutura do modelo de regressão é expressa da forma,

onde η é o preditor linear, β's coeficientes desconhecidos, k números de variáveis independentes, g(.) a função de ligação e µ a média da variável dependente.

Conforme Kieschnick & McCullough (2003), o MRB permite gerar estimativas precisas e seguras dos coeficientes, mesmo que o conjunto de dados coletados para a investigação seja consideravelmente pequeno ou os dados mensurados sejam próximos de zero e próximos de um.

Ferrari & Cribari-Neto (2004) se baseiam na suposição de que as proporções seguem uma distribuição de probabilidade Beta, para realizar uma parametrização da esperança matemática E(y) = p / (p +q) e da variância Var(y) = pq / [(p+q)2 + (p+q+1)] de uma variável dependente y, utilizando os parâmetros (p e q) da distribuição de probabilidade Beta.

A estimação dos coeficientes para os MRB é obtida pela maximização da função de log-verossimilhança (EMV), em que os coeficientes β e Φ são obtidos a partir da maximização do logaritmo da função de verossimilhança, conforme equação (5). O procedimento de maximizar a função de verossimilhança é realizado pelo algoritmo de otimização não-linear de quasi-Newton (BFGS).

3. Medidas de Diagnóstico

Uma etapa essencial na análise de ajuste dos modelos de regressão é a verificação da adequação dos modelos de regressão aos dados. Esta etapa, conhecida como medidas de diagnóstico, constitui um conjunto de critérios de adequação e ferramentas gráficas na avaliação da adequação do modelo aos dados. As medidas de diagnóstico fornecem subsídios para detectar: possível violação de alguma das suposições feitas para o modelo, especialmente para a componente aleatória (y) e a função de ligação (g(.)), aleatoriedade dos dados, presença de pontos extremos (outliers), adequação da distribuição de probabilidade proposta para a variável dependente e observação de pontos influentes. As medidas de diagnóstico propostas neste artigo para análise de adequação dos modelos de regressão são apresentadas a seguir.

3.1 Critérios de Adequação

• Coeficiente de Determinação: é uma medida global da qualidade do ajuste, utilizado como indicador numérico que permite comparar o desempenho de diferentes modelos, contudo, não é uma boa estratégia, pois o mesmo sempre aumenta com a inclusão de novas variáveis independentes. Para contornar esse problema, foi utilizado um coeficiente de determinação ajustado, denominado "pseudo" R2 (Rp2) que é definido como o quadrado do coeficiente de correlação amostral entre g(.) e . Segundo Rao & Wu (2005), este coeficiente se restringe a 0 < Rp2< 1 e, quando Rp2 = 1 existe uma concordância perfeita entre e y, consequentemente, melhor será o ajuste.

• Deviance: A análise de deviance é feita através da comparação dos valores da medida deviance dos modelos ajustados. Segundo Atkinson & Riani (2000), a deviance é obtida como duas vezes a diferença entre o máximo do logaritmo da verossimilhança do modelo nulo e do modelo sob pesquisa.

em que é solução de ∂li/∂μi = 0, isto é, Φ (yi* - µi*) = 0, li(,Φ) é a função de máxima verossimilhança do modelo sob pesquisa e li(μ,Φ) é a função de máxima verossimilhança do modelo nulo. Conforme Lee & Nelder (1998), usualmente costuma-se proceder a análise de deviance utilizando o ponto crítico χ2(n - k)(α) da distribuição qui-quadrado ao nível de significância igual a α, sendo n o número de observações e k o número de coeficientes do modelo. Portanto, se D(y;μ,Φ)<χ2(n-k)(α), pode-se considerar que há evidências que o modelo sob pesquisa esteja bem ajustado aos dados, a um nível de α % de significância, usualmente α < 0,05, caso contrário deve-se descartar o modelo, pois o mesmo pode ser considerado inadequado. Esta estatística de decisão também pode ser utilizada para a função de quase-deviance na adequação do modelo de Quase-verossimilhança.

• Critério de Informação de Akaike: O AIC (Akaike Information Criterion) foi o primeiro critério baseado na informação de Kullback-Leibler (K-L) e assintoticamente não viesado para K-L. O critério AIC supõe que o modelo verdadeiro pertence ao conjunto de modelos candidatos e é definido por

onde l(,) é a função de máxima verossimilhança do modelo ajustado e k o número de coeficientes do modelo. Segundo Rao & Wu (2005), o critério AIC foi desenvolvido através dos estimadores de máxima verossimilhança (EMV), para decidir qual o modelo mais adequado quando se utiliza muitos modelos com quantidades diferentes de coeficientes, isto é, selecionar um modelo que esteja bem ajustado com um número reduzido de coeficientes. A decisão quanto ao melhor modelo ajustado é realizado escolhendo o menor valor de AIC.

3.2 Ferramentas Gráficas

• Resíduo Deviance: é o resíduo mais recomendado em análise gráfica de diagnóstico, pois estes resíduos são os que mais se aproximam da distribuição de probabilidade Normal na verificação da adequação ao papel de probabilidade e aleatoriedade dos resíduos. Para cada observação (i) da variável dependente yi , pode-se definir o desvio rid = Di(yi;), de tal modo que

em que

sendo que a i-ésima observação contribui com a quantidade (rid)2 para o desvio e uma observação com um valor absoluto grande de rid, pode ser vista como discrepante (Lee & Nelder, 1998). Um gráfico desses resíduos contra o índice das observações (i) não deve mostrar nenhuma tendência e sim uma aleatoriedade.

• Alavanca Generalizada: tem-se mostrado uma ferramenta importante na análise gráfica de diagnóstico quanto a influência das observações em modelos de regressão, ou seja, avalia a importância individual de cada observação no próprio valor ajustado. A medida de alavancagem proposta por Wei et al. (1998), generaliza a definição de pontos de alavanca usados em modelos de regressão linear múltipla para outros modelos lineares pertencentes a classe dos MLG, sendo desenvolvida a partir dos elementos hij da matriz H que é conhecida como matriz de projeção ou "matriz chapéu" (H = X(X'X)-1X'). Supondo que todos os pontos exerçam a mesma influência sobre os valores ajustados, pode-se esperar que os elementos hii da diagonal da matriz H sejam definidos por w / n, onde w é o somatório dos elementos hii definido pelos coeficientes dos modelos e n é o número de observações.

A alavanca generalizada proposta por Wei et al. (1998) sugere que sejam examinados aqueles pontos tais que,

definidos como grandes pontos de alavanca. Ou seja, o valor de hii associado a i-ésima observação yi é três vezes maior que a média de todos os hii da diagonal da matriz H.

• Distância de Cook: é uma ferramenta gráfica bastante utilizada para detectar a influência de cada observação nas estimativas dos coeficientes do modelo de regressão. Esta medida identifica a influência da retirada da i-ésima observação sobre as estimativas dos coeficientes do modelo, sendo definido por

onde Di representa uma soma ponderada dos desvios entre as estimativas baseadas nos coeficientes e (i), w é o posto da matriz diagonal das variáveis independentes, é a variância estimada. Assim, essa quantidade obtida pela soma mede a distância quadrática entre e (i). Segundo Cook & Weisberg (1982), as observações serão consideradas influentes quando Di > F(k, n-k) (α). Sabe-se que F(k, n-k) (α) é o valor crítico da distribuição F de Snedecor (n, k) ao nível α % de significância. Geralmente, observações que apresentam Di > 0,05, são consideradas influentes e devem ser investigadas.

• Envelope simulado meio-Normal: é uma ferramenta gráfica de diagnóstico muito útil em modelos lineares e não-lineares. A proposta desta medida é acrescentar ao gráfico de probabilidade normal usual um envelope simulado que pode ser usado para decidir se as observações são consistentes com o modelo ajustado.

Este gráfico é construído a partir da simulação de k valores (estatísticas de ordem) para cada valor previsto pelo modelo ajustado e gerado médias, valores mínimos e máximos de cada valor previsto. Esses valores mínimos e máximos das k estatísticas de ordem produzem o envelope. Desta forma, o gráfico apresentará um intervalo para cada valor previsto ordenadamente contra os escores meio-normais

onde Φ(·) é a função de densidade acumulada da distribuição normal padrão e n é o número de observações. Segundo Atkinson & Riani (2000), caso ocorram tendências não aleatórias dos resíduos absolutos dentro do envelope simulado há indícios de escolha incorreta da distribuição de probabilidade para a variável dependente ou da função de ligação.

4. Estudo Aplicado

Esta seção apresenta um estudo para ilustrar a teoria descrita nas seções anteriores. A aplicação trata-se de uma pesquisa realizada numa empresa curtidora de couro, produtora de couro acabado e fornecedora para as indústrias de calçados e artefatos em couro.

A etapa wet blue do processo produtivo avaliado consiste em: o classificador recebe um lote de diferentes tamanhos contendo as matérias-primas e verifica se as características de qualidade satisfazem às especificações, por métodos cognitivos. As matérias-primas que não satisfazem às especificações são classificadas como produtos não-conformes, e a fração de produtos não-conformes às especificações, por lote, é considerada a variável dependente.

Os fatores controláveis definidos como variáveis independentes relevantes para a modelagem da fração de não-conformes foram: a seleção da matéria-prima em cinco diferentes estágios, conforme qualidade e preço (x1); a procedência da matéria-prima adquirida pela empresa (x2); o classificador que inspeciona as matérias-primas (x3) e o estado de rebaixamento da matéria-prima (x4). Os dados coletados contemplaram uma amostra de 754 lotes.

4.1 Análise dos Efeitos

Numa análise preliminar da amostra coletada de 754 lotes, a fração média de produtos não-conformes às especificações foi de 0,185, desvio-padrão de 0,170 e coeficiente de variação de 91%. Nota-se que o histograma da fração de produtos não-conformes ilustra claramente que os dados não seguem a distribuição Normal (ver Figura 1).


A análise dos efeitos das variáveis independentes sobre a variável dependente "fração de produtos não-conformes", mostra que, a variável independente "seleção" apresenta uma tendência crescente, ou seja, à medida que aumenta o nível da variável "seleção" aumenta a variável dependente fração de produtos não-conformes às especificações (Figura 2(a)). Na Figura 2(b) os níveis da variável "procedência" não apresentam diferenças significativas (p > 0,05) para a fração de produtos não-conformes às especificações, segundo o teste estatístico ANOVA.


Observa-se que o avaliador 3 da variável "classificador" apresentou maior fração de não-conformes que os outros dois avaliadores, sendo esta diferença estatisticamente significante (p<0,01) e que o nível rebaixado da variável "rebaixamento" apresenta significativamente (p<0,01) menor fração de não-conformes, conforme Figura 3(a) e (b).


4.2 Estrutura dos Modelos Ajustados

Esta seção apresenta a estrutura dos modelos de regressão Beta e de Quase-verossimilhança utilizada na modelagem da fração de não-conformes às especificações na etapa do processo wet blue da empresa curtidora de couro.

No processo de modelagem, as variáveis independentes: seleção (x1), procedência (x2), classificador (x3) e rebaixamento (x4) foram substituídas pelas variáveis dummy, para construção dos modelos de regressão. As novas variáveis independentes foram definidas como: seleção tipo 2 (x1), seleção tipo 3 (x2), seleção tipo 4 (x3), seleção tipo 5 (x4), procedência 2 (x5), procedência 3 (x6), procedência 4 (x7), procedência 5 (x8), classificador 2 (x9), classificador 3 (x10) e rebaixado (x11).

No ajuste do modelo pertencente à classe dos MLG, o modelo de Quase-verossimilhança foi considerado inicialmente conforme a equação reescrita a seguir,

onde g é a função de ligação, β's os coeficientes do modelo e µ o vetor de erro aleatório.

Observa-se que não é assumido a priori que a variável dependente (fração de não-conformes) possui uma distribuição de probabilidade. Segundo Sant'Anna & Caten (2005), para construção dessa classe de modelos outras funções de ligação e de variância podem ser usadas, com objetivo de verificar qual melhor se ajusta aos dados em estudo. Nesta modelagem foram escolhidas a função de ligação "logito" e de variância do tipo V(µ) =µ(1-µ), pois forneceram o melhor ajuste aos dados, ou seja, produziram a menor quase-deviance.

Para a segunda modelagem foi ajustado um modelo de regressão Beta, assumiu-se que a variável dependente (y) segue uma distribuição de probabilidade Beta com média (μ) e utilizou-se as variáveis independentes (x1, x2, x3, ..., x10 e x11) como estrutura linear dos coeficientes, conforme a equação a seguir,

onde g representa a função de ligação, β's os coeficientes do modelo e µ o vetor de erro aleatório. Para o modelo Beta, foi utilizada a função de ligação "logito" e função de variância do tipo V(μ) =Φ*{pq / [(p+q)2 + (p+q+1)]} por gerarem melhor ajuste do modelo aos dados.

4.3 Análise do Ajuste dos Modelos

Ao se modelar com variáveis independentes qualitativas, a estimativa de um dos níveis dessa variável é nula para que os estimadores dos demais níveis possam assumir valores positivos ou negativos, conforme a sua influência na variável dependente. Este nível base, que assume o seu estimador nulo, tornar-se um referencial passível de ser comparado com os outros níveis (Sant'Anna & Caten, 2005).

Na modelagem inicial dos dados, os modelos de regressão propostos apresentaram as variáveis independentes "seleção", "classificador" e "rebaixamento" como estatisticamente significativas para explicar a variável dependente "fração de não-conformes às especificações", ao nível de significância de 5%, baseado no "teste estatístico Wald-test". E a variável independente "procedência" não apresentou significância estatística ao nível de 5% nos dois modelos de regressão ajustados, ver ApêndiceApêndice.

A Tabela 2 apresenta as estimativas dos coeficientes com respectivos erros padrões e critérios de adequação da qualidade do ajuste dos dois modelos de regressão finais.

A forma de regressão para o modelo de Quase-verossimilhança é descrito como g() = -3,7692 + 2,0475(seleção 2) + 2,2857(seleção 3) + 2,5226(seleção 4) + 2,7583(seleção 5) + 0,2672(avaliador 2) + 0,4483(avaliador 3) - 0,8357(rebaixado). Para o modelo Beta a forma de regressão é apresentado como g() = -2,4225 + 1,5822(seleção 2) + 1,1202(seleção 3) + 1,2295(seleção 4) + 1,4469(seleção 5) + 0,2883(avaliador 2) + 0,3740(avaliador 3) - 0,6807(rebaixado).

4.4 Análise de Adequabilidade dos Modelos

Avaliando as estimativas encontradas pelos modelos finais (ver Tabela 2), observa-se que para o modelo de Quase-verossimilhança a seleção do tipo 2 tem exp1] = exp[2,0475] = 7,75 e para o modelo Beta exp1] = exp[1,5822] = 4,87 o que significa estimar que, para o modelo de Quase-verossimilhança a seleção tipo 2 apresenta 7,75 vezes mais chances de produzir fração de não-conformes às especificações que a seleção tipo 1, já para modelo Beta a seleção tipo 2 apresenta 4,87 vezes mais chances de produzir fração de não-conformes às especificações que a seleção tipo 1. Bem como, para o modelo de Quase-verossimilhança, a seleção tipo 5, apresenta 15,77 vezes mais chances (exp4] = exp[2,7583] = 15,77) que a seleção tipo 1 e 425 vezes para o modelo Beta (exp4] = exp[1,4469] = 4,25).

A variável independente "classificador", no modelo de Quase-verossimilhança, os avaliadores 2 e 3 aumentam as chances de produzir fração de não-conformes em 31% (exp[β5] = exp[0,2672] = 1,31) e 56% (exp6] = exp[0,4483] = 1,56) respectivamente, em relação ao avaliador 1. Enquanto que, para o modelo Beta, as chances de produzir fração de não-conformes dos avaliadores 2 e 3 são de 33% (exp5] = exp[0,2883] = 1,33) e 45% (exp6] = exp[0,3740] = 1,45) respectivamente, comparando com o avaliador 1.

Para a variável independente "rebaixamento", a estimativa do coeficiente é negativa (β7 = -0,8357), indicando que o fato do estado de textura da matéria-prima estar rebaixado implica em que as chances de produzir frações de não-conformes às especificações diminuem em 43% (exp7] = exp[-0,8357] = 0,43) para o modelo de Quase-verossimilhança. Enquanto o modelo Beta estima que as chances diminuem em 51% (exp7] = exp[-0,6807] = 0,51).

Analisando a qualidade do ajuste do modelo de Quase-verossimilhança, o coeficiente de determinação "pseudo" Rp2 foi 0,467, a Deviance = 115,65 (746 graus de liberdade) que corresponde a um valor de probabilidade (p-value) p < 0,01 e um AIC = -213,3 demonstrando que o modelo se ajustou satisfatoriamente. Para o modelo Beta, o coeficiente de determinação foi de 0,581, a Deviance = 121,48 (746 graus de liberdade) e um AIC = -224,96 demonstrando que o modelo foi bem ajustado. Nota-se que as medidas de qualidade de ajuste para os modelos ajustados estão relativamente próximas, porém os critérios para o modelo Beta indicam que este é o melhor modelo (ver Tabela 2).

As Figura 4 (a) e (b) apresentam uma aleatoriedade dos resíduos Deviance, ou seja, os pontos não apresentam nenhuma tendência indicando que a função de ligação utilizada é adequada. Embora estas revelem que há dois pontos com maior valor residual, correspondendo às observações 685 e 702. Em relação à distância de Cook's, nota-se que as mesmas observações se apresentam altamente influentes (Di > 0,05) (Figura 5(a) e (b)).



Observa-se nas Figuras 6(a) e (b), que os Modelos de Quase-verossimilhança e Beta apresentaram similaridade na verificação dos pontos de alavanca no conjunto de dados. Os pontos de alavanca em destaque nas figuras referem-se às observações 685 e 702.


Contudo, após um estudo realizado com as observações 685 e 702 se verificou que, embora estas aparecerem como pontos discrepantes nos gráficos de diagnóstico nos dois modelos ajustados, as mesmas não foram retiradas da modelagem, por não se constituírem observações discrepantes (outliers), não modificando as estimativas dos coeficientes dos modelos.

Conforme Figura 7(a), o gráfico de envelope simulado meio-normal apresenta alguns resíduos fora do envelope, evidenciando a necessidade de um ajuste mais adequado. Uma opção para se buscar um melhor ajuste é investigar a possibilidade de haver outros fatores (variáveis independentes) que estejam influenciando na etapa wet blue do processo de produção da empresa, gerando a fração de não-conformes às especificações.


No envelope simulado meio-normal gerado pelo modelo Beta a maioria dos resíduos aderiu aos limites do envelope, embora haja alguns resíduos sobrepostos nos limites do envelope, e dois em destaque. Porém pode-se considerar que o modelo Beta se adequou perfeitamente aos dados (ver Figura 7(b)).

5. Considerações Finais

A importância de conhecer e utilizar modelos de regressão vêm da necessidade de investigar o efeito das variáveis independentes, chamadas de fatores controláveis, sobre a variável dependente, chamada de característica de qualidade. O foco deste estudo foi a modelagem da fração ou proporção de produtos não-conformes às especificações de um processo industrial em que a característica de qualidade é mensurada no intervalo [0,1].

Observou-se que a aplicação de modelos de regressão mais corretos para o tipo de dados no processo de modelagem, como modelo de Quase-verossimilhança e modelo Beta, aumenta a precisão das estimativas e fornece uma análise de investigação mais consistente. Ademais, estes modelos consideram a relação não-linear entre as variáveis independentes e dependente e a variância dos erros dependente da média. Estas características são inerentes a dados mensurados em fração ou proporção.

Os modelos de Quase-verossimilhança e Beta apresentam vantagem na modelagem dos dados mensurados em fração ou proporção, por permitir flexibilidade de escolha da função de ligação e de variância que melhor se ajuste ao conjunto de dados. Com base na análise das medidas de diagnóstico os modelos de regressão propostos na modelagem da fração de produtos não-conformes às especificações apresentaram bom desempenho no ajuste e precisão das estimativas dos efeitos dos fatores controláveis.

Espera-se que as comparações realizadas neste artigo forneçam alguma orientação na investigação e análise de dados em trabalhos futuros, pois a natureza dos dados deve ser levada em consideração. Com base nas análises realizadas recomenda-se o uso dos modelos de regressão Beta e de Quase-verossimilhança a processos industriais que mensurem a produção de produtos não-conformes às especificações de manufatura.

Agradecimentos

Os autores agradecem aos revisores anônimos pelos valiosos comentários e sugestões, aprimorando a qualidade deste trabalho.

Recebido em 07/2007; aceito em 06/2009 após 1 revisão

Received July 2007; accepted June 2009 after one revision

A Tabela 3 apresenta um recorte da matriz de dados experimentais utilizados na construção dos modelos de regressão propostos, uma vez que totaliza 754 observações, se tornando inviável publicar. Os autores podem ceder gentilmente a matriz completa dos dados experimentais.

A Tabela 4, com as estimativas dos coeficientes, respectivos erros padrões e critérios de adequação da qualidade do ajuste dos modelos de regressão iniciais.

  • (1) Atkinson, A.C. & Riani, M. (2000). Robust Diagnostic Regression Analysis Springer-Verlag, New York.
  • (2) Cook, R.D. & Weisberg, S. (1982). Residuals and Influence in Regression Chapman & Hall, New York.
  • (3) Cordeiro, G.M. (1986). Modelos Lineares Generalizados VII SINAPE, Campinas-SP.
  • (4) Cot, J; Manich, A. & Aramón, C. (1992). Procedimentos e Instalação para o Tratamento Integral de subprodutos da Indústria Curtidora. Revista do Couro, ABQTIC, 19
  • (5) Cox, C. (1996). Nonlinear quasi-likehood models: applications to continuous proportions. Computational Statistical & Data Analysis, 21, 449-461.
  • (6) Dobson, A.J. (2002). An Introduction to Generalized Linear Models 3Ş ed., Chapman & Hall, London.
  • (7) Ferrari, S.L.P & Cribari-Neto, F. (2004). Beta regression for modeling rates and proportions. Journal of Applied Statistics, 31, 799-816.
  • (8) Hamada, M. & Nelder, J.A. (1997). Generalized linear models for quality-improvement experiments. Journal of Quality Technology, 29, 292-304.
  • (9) Kieschnick, R. & McCullough, B.D. (2003). Regression analysis of variates observed on (0,1): percentages, proportions and fractions. Statistical Modelling, 3, 193-213.
  • (10) Lee, Y. & Nelder, J.A. (1998). Generalized linear models for the analysis of quality improvement experiments. The Canadian Journal of Statistics, 26, 95-105.
  • (11) McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models. 2Ş ed., Chapman & Hall, London.
  • (12) Montgomery, D.C. (2001). Introduction Statistical Quality Control 4Ş ed., John Wiley & Sons, New York.
  • (13) Montgomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis 4Ş ed., John Wiley & Sons, New York.
  • (14) Myers, R.H.; Montgomery, D.C. & Vining, G.H. (2002). Generalized Linear Models with applications in Engineering and the Sciences John Wiley & Sons, New York.
  • (15) Nelder, J.A. & Wedderburn, R.W.M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society A, 135, 370-384.
  • (16) Prentice, R.L. (1986). Binary Regression using an extended Beta-Binomial distribution, with discussion of correlation induced by covariate measurement errors. Journal of the American Statistical Association, 81, 321-327.
  • (17) Rao, C.R. & Wu, Y. (2005). Linear model selection by cross-validation. Journal Statistical Planning and Inference, 128, 231-240.
  • (18) Sant'Anna, A.M.O. & Caten, C.S. (2005). Modelagem da proporção de defeituosos usando Modelo de Quase-verossimilhança. XXV ENEGEP, Porto Alegre-RS.
  • (19) Sant'Anna, A.M.O. (2006). Método de orientação à modelagem de dados mensurados em proporção. Tese de M. Sc. PPGEP - UFRGS, Rio Grande do Sul, RS, Brasil.
  • (20) Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika, 61, 439-447.
  • (21) Wei, B-C.; Hu, Y-Q. & Fung, W-K. (1998). Generalized leverage and its applications. Scandinavian Journal of Statistical, 25, 25-37.

Apêndice

  • *
    Corresponding author / autor para quem as correspondências devem ser encaminhadas
  • Datas de Publicação

    • Publicação nesta coleção
      27 Maio 2010
    • Data do Fascículo
      Abr 2010

    Histórico

    • Recebido
      07/2
    • Aceito
      06/2
    Sociedade Brasileira de Pesquisa Operacional Rua Mayrink Veiga, 32 - sala 601 - Centro, 20090-050 Rio de Janeiro RJ - Brasil, Tel.: +55 21 2263-0499, Fax: +55 21 2263-0501 - Rio de Janeiro - RJ - Brazil
    E-mail: sobrapo@sobrapo.org.br