Estratégias para modelagem de dados multivariados na presença de correlação

Fogliatto, Flavio S.

doi:10.1590/S0104-530X2000000100002

Resumos

Dados multivariados ocorrem com freqüência em investigações empíricas. Em estudos de Engenharia, por exemplo, dados multivariados são coletados ao estudar-se o efeito de diferentes condições de processamento sobre características de itens manufaturados. Tais conjuntos de dados podem apresentar variáveis altamente correlacionadas. Neste artigo, investiga-se o efeito da estrutura de correlação de variáveis dependentes em sua modelagem, a partir de regressão linear. Quatro técnicas de regressão são apresentadas e comparadas: regressão de mínimos quadrados ordinários, regressão de mínimos quadrados generalizados, regressão por equações aparentemente não relacionadas e regressão multivariada. Como modelos de regressão são, via de regra, utilizados com fins preditivos, as técnicas de modelagem acima são comparadas com base em sua variância de predição. As diferentes técnicas de regressão são ilustradas em um estudo de caso.

técnicas de regressão multivariada; variância de predição; correlação

Multivariate data often arise in empirical investigation. In Engineering studies, for example, multivariate data may be collected on the effect of different processing conditions on the characteristics of a machine output. Such data sets may present highly correlated variables. In this paper, we investigate the effect of correlation among dependent variables on their regression modeling. Four regression techniques are discussed and compared: ordinary least squares regression, generalized least squares regression, seemingly unrelated equations regression, and multivariate regression. Since regression models are most frequently used for prediction purposes, we compare modeling strategies using the prediction variance as a performance measure. The paper contains a case study from the food processing industry.

multivariate regression techniques; prediction variance; correlation

Estratégias para modelagem de dados multivariados na presença de correlação

Regression techniques for modeling multivariate data under correlation

Flavio S. Fogliatto

Departamento de Engenharia de Produção & Transportes. Universidade Federal do Rio Grande do Sul. Praça Argentina, 9 Sala LOPP. Porto Alegre, RS 90020-000. E-mail: ffogliatto@ppgep.ufrgs.br

RESUMO

Dados multivariados ocorrem com freqüência em investigações empíricas. Em estudos de Engenharia, por exemplo, dados multivariados são coletados ao estudar-se o efeito de diferentes condições de processamento sobre características de itens manufaturados. Tais conjuntos de dados podem apresentar variáveis altamente correlacionadas. Neste artigo, investiga-se o efeito da estrutura de correlação de variáveis dependentes em sua modelagem, a partir de regressão linear. Quatro técnicas de regressão são apresentadas e comparadas: regressão de mínimos quadrados ordinários, regressão de mínimos quadrados generalizados, regressão por equações aparentemente não relacionadas e regressão multivariada. Como modelos de regressão são, via de regra, utilizados com fins preditivos, as técnicas de modelagem acima são comparadas com base em sua variância de predição. As diferentes técnicas de regressão são ilustradas em um estudo de caso.

Palavras-chave: técnicas de regressão multivariada, variância de predição, correlação.

ABSTRACT

Multivariate data often arise in empirical investigation. In Engineering studies, for example, multivariate data may be collected on the effect of different processing conditions on the characteristics of a machine output. Such data sets may present highly correlated variables. In this paper, we investigate the effect of correlation among dependent variables on their regression modeling. Four regression techniques are discussed and compared: ordinary least squares regression, generalized least squares regression, seemingly unrelated equations regression, and multivariate regression. Since regression models are most frequently used for prediction purposes, we compare modeling strategies using the prediction variance as a performance measure. The paper contains a case study from the food processing industry.

Key words: multivariate regression techniques, prediction variance, correlation.

1. Introdução

A Análise de Regressão Linear (ARL) é uma das ferramentas estatísticas mais utilizadas na modelagem de dados. A ARL consiste, em sua essência, na determinação de uma equação ou modelo que descreva de maneira eficiente o efeito de um grupo de variáveis independentes sobre uma ou mais variáveis dependentes. A aplicação da técnica de modelagem por regressão linear a um grupo de dados resulta na determinação de coeficientes lineares que ponderam o efeito de variáveis independentes sobre variáveis dependentes. Modelos com uma única variável dependente são ditos univariados. Modelos com múltiplas variáveis dependentes são ditos multivariados.

Dados multivariados ocorrem com freqüência em investigações empíricas. Em estudos econômicos, por exemplo, pode-se avaliar o efeito de medidas de ajuste tributário sobre indicadores de desempenho econômico (ADELMAN et al., 1969). Em estudos de Engenharia, pode-se estudar o efeito de diferentes ajustes nos controles de um equipamento sobre as características de unidades por ele produzidas (FOGLIATTO et al., 1998). Em ambos os casos, deseja-se analisar o efeito de um grupo de variáveis independentes (medidas de ajuste tributário, ajustes nos controles de um equipamento) sobre um grupo de variáveis dependentes (indicadores de desempenho econômico, características do produto). Outros exemplos podem ser encontrados em JOHNSON & WICHERN (1992).

Neste trabalho, analisa-se o efeito da estrutura de correlação de variáveis dependentes na modelagem de grupos de dados multivariados. Para esse fim, quatro técnicas de modelagem via ARL são comparadas relativamente a um critério predeterminado; são elas: (i) regressão de mínimos quadrados ordinários (RMQ), (ii) regressão de mínimos quadrados generalizados (RMG), (iii) regressão por equações aparentemente não relacionadas (SURE seemingly unrelated equations regression), e (iv) regressão multivariada (RMV); ver DRAPER & SMITH (1981), MYERS (1986), ZELLNER (1962) e SEBER (1984), respectivamente. Cada técnica considera de maneira distinta a estrutura de correlação entre variáveis dependentes na estimação dos coeficientes a serem utilizados nos modelos de regressão. Cabe ressaltar que a estrutura de correlação entre variáveis independentes é identicamente considerada em todas as estratégias, não servindo, assim, como critério diferenciador.

Modelos de regressão são, via de regra, utilizados para fins de predição, estimação e controle (MONTGOMERY & PECK, 1992). Em todos os casos, desejam-se modelos que possam ser utilizados como estimadores eficientes das variáveis dependentes modeladas. Assim, sugere-se como base para comparação das técnicas de modelagem listadas acima, a variância das predições geradas a partir de cada modelo. A melhor técnica será aquela que, na média, gerar predições com menor variância. As técnicas de modelagem citadas acima são brevemente introduzidas na seqüência.

Considere um grupo de variáveis independentes utilizadas na modelagem de variáveis dependentes. Variáveis dependentes podem ser modeladas individualmente (ou seja, desconsiderando eventuais correlações entre elas) ou em conjunto. Nas regressões RMQ e RMG, supõe-se correlação inexistente e modelam-se variáveis dependentes individualmente. Essas estratégias de regressão são as mais utilizadas na prática, principalmente por encontrarem-se implementadas em pacotes computacionais de análise estatística e serem de fácil compreensão por parte do analista. Nem sempre, todavia, essas técnicas constituem uma escolha adequada. Por exemplo, DERRINGER & SUICH (1980) e RIBEIRO & ELSAYED (1995) utilizam RMQ na modelagem de variáveis dependentes altamente correlacionadas (correlações da ordem de 0,8), resultando em modelos com alta variância de predição.

Na regressão SURE, variáveis dependentes são modeladas simultaneamente e a correlação entre variáveis é considerada na modelagem. Esta técnica de modelagem é bastante comum em estudos de Econometria. A regressão MVR é um caso especial de SURE, onde cada variável dependente é modelada como função de um mesmo grupo de variáveis independentes, porém com diferentes coeficientes de regressão. A regressão SURE produz modelos cujas predições apresentam variância pelo menos tão pequena quanto aquelas obtidas usando as demais técnicas de regressão (SRIVASTAVA & GILES, 1987). Assim, recomenda-se a modelagem de variáveis dependentes correlacionadas utilizando a regressão SURE.

Variáveis dependentes apresentam-se correlacionadas em situações em que a avaliação direta de algum atributo ou propriedade em unidades experimentais é difícil. Assim, o pesquisador seleciona um conjunto de variáveis relacionadas ao atributo em questão as quais, via de regra, apresentam-se correlacionadas. Esta é a situação encontrada no estudo de caso apresentado neste trabalho, cujos dados são utilizados para comparar as diferentes técnicas de regressão descritas acima.

Este trabalho divide-se em cinco seções, incluindo a presente introdução. Na seção 2, introduz-se a notação e estrutura genérica do modelo de regressão a ser usado nas seções seguintes. A seção 3 é dividida em seis subseções: as quatro subseções iniciais trazem descrições detalhadas das técnicas de regressão contempladas neste trabalho (ou seja, RMQ, RMG, SURE e RMV); um estimador de correlação amostral é apresentado na seqüência; a última subseção traz uma comparação entre técnicas. Na quarta seção, um exemplo numérico com dados obtidos em um estudo de caso ilustra a aplicação das técnicas de regressão. A última seção traz a conclusão do trabalho.

2. Considerações Preliminares

A seguinte notação e definições são utilizadas neste trabalho. Letras maiúsculas em negrito designam matrizes e letras minúsculas em negrito designam vetores. O inverso de uma matriz A é designado por A^-1 e sua transposta por ; analogamente, designa o transposto de um vetor a. Uma matriz identidade de dimensão N por N é designada por I_N. O operador designa o produto direto, ou de Kroenecker, de matrizes (seja A uma matriz com elementos designados por a_ij; então A B corresponde a uma matriz de blocos, com blocos dados pelo produto a_ijB). A função tr(A) designa o traço de uma matriz A e é dada pela soma dos elementos de sua diagonal principal. Uma matriz definida positiva apresenta somente elementos positivos em sua diagonal principal.

Considere um grupo de dados multivariados formado por P variáveis dependentes e C variáveis independentes, observadas em T situações ou níveis distintos. Corriqueiramente, as observações das variáveis independentes corresponderiam aos tratamentos em um experimento planejado. O vetor x = [x₁, , x_C]΄ apresenta os valores observados para as C variáveis independentes em uma dada situação. Y_i(x) designa o valor da i^ésima variável dependente quando os níveis das variáveis independentes correspondem a x.

As variáveis dependentes são preditas por modelos de regressão desenvolvidos a partir de um grupo de dados com características dadas acima. Supõe-se o seguinte modelo genérico de regressão para a i^ésima variável dependente:

onde y_i= [Y_1i, , Y_Ti]΄ é um vetor (T x 1) de observações da variável dependente; X_i é a matriz (T x K_i) de regressores, onde K_i indica o número de regressores no i^ésimo modelo; β_i = [β_0i, β_1i, ,β(K_i x 1)]΄ é um vetor (K_i x 1) de coeficientes de regressão; e u_i = [u_1i, , u_Ti]΄ é um vetor (T x 1) formado por resíduos supostamente seguindo uma distribuição Normal, com matriz de covariâncias dada por

onde V_i é uma matriz (T x T) definida positiva que se supõe conhecida (um caso especial de V_i é V_i= σ_i².I_T, ou seja, resíduos não correlacionados com variância comum dada por σ_i²). Por exemplo, seja K₁ = 4; então o modelo de regressão para a variável dependente Y₁ possui quatro termos. Os termos, também denominados regressores, são (por exemplo) a média, x₁,, e x₁x₂. Suponha que a primeira situação ou tratamento experimental observado corresponda a x₁= -1 e x₂= -1. Assim, a primeira linha da matriz X₁ será dada por (1, -1, 1, 1) e o vetor de coeficientes β₁ por (β₀₁, β₁₁, β₂₂₁, β₁₂₁)΄.

As P equações em (1) podem ser escritas como uma única equação,

onde y = [y₁, , y_P]΄ é um vetor (TP x 1) de variáveis dependentes, X é uma matriz de regressores do tipo diagonal em blocos, de dimensão (TP x), com os blocos na diagonal principal dados pelas matrizes X_i, i=1, ,P (os demais blocos da matriz são 0), β = [β₁, , β_P]΄ é um vetor ( x 1) de coeficientes, e u = [u₁, , u_P]΄ é um vetor (TP x 1) de resíduos. Note que os vetores y, β e u são vetores formados por vetores.

A matriz de covariâncias de u, designada por D[u], é uma matriz de blocos com o seguinte formato

onde ∑ = [σ_ij] , i,j=1, ,P, e σ_ijcorresponde à covariância entre variáveis dependentes i e j. Um estimador para e σ_ij é apresentado na próxima seção.

Estimando-se β_i em (1), pode-se predizer o valor Y_i(x) da i^ésima variável dependente em um dado arranjo x das variáveis independentes. Deseja-se um estimador de β_i que gere predições tão próximas quanto possível dos valores observados Y_i. Quatro estimadores de β_i são apresentados na próxima seção, cada um associado a diferentes suposições.

O desempenho dos diferentes estimadores de β_i será avaliado por sua variância de predição (ou seja, por sua eficiência; ver MOOD, 1974). Um bom estimador de β_i resulta em predições com pequena variância. A variância de predição da i^ésimavariável dependente, avaliada em um dado arranjo x das variáveis independentes, é dada por

A expressão acima deixa claro que a variância de predição depende do método utilizado para estimação dos coeficientes de regressão.

3. Quatro Técnicas para Modelagem de Dados Multivariados Através de Regressão Linear

As variáveis dependentes em (1) podem ser modeladas individualmente ou simultaneamente como função das variáveis independentes, conforme as suposições feitas acerca do vetor de resíduos u_i. Supondo Cov(u_i, u_j) = 0, i, j = 1, ,P, i ≠ j, a modelagem individual ou simultânea das variáveis dependentes resulta no mesmo conjunto de coeficientes de regressão e, por simplicidade, opta-se pela modelagem individual. Todavia, ao supor-se Cov(u_i, u_j) ≠ 0, deve-se considerar uma estratégia que permita a modelagem simultânea das variáveis dependentes.

Nesta seção são apresentadas quatro técnicas para estimação dos coeficientes de regressão em (1). Nas primeiras duas técnicas, RMQ e RMG, as variáveis dependentes são modeladas individualmente, supondo inexistência de correlação entre elas. Nas duas últimas técnicas, SURE e RMV, supõe-se variáveis correlacionadas, as quais são modeladas simultaneamente. Um método para estimação da matriz de covariâncias S em (4) é apresentado na seqüência. A seção é concluída com uma comparação entre as técnicas de regressão abordadas.

3.1 Modelagem Individual de Variáveis Dependentes Através da Regressão de Mínimos Quadrados Ordinários (RMQ)

Este é a técnica de regressão mais comumente encontrada na literatura (ver, por exemplo, CHATTERJEE & PRICE, 1991; STAPLETON, 1995; e DANIEL & WOOD, 1980). Estimativas dos coeficientes β_i em (1) são obtidas minimizando a soma dos quadrados dos resíduos em u_i, pela equação:

Pode-se demonstrar que é o melhor estimador linear não tendencioso de β_i(STAPLETON, 1995, p.87). A matriz de covariâncias de é dada por:

onde = V(u_i) é normalmente estimado a partir da média do quadrado dos resíduos.

A variância do valor predito para um dado arranjo x das variáveis independentes é obtida a partir da expressão em (5), usando a informação em (6); isto é:

3.2 Modelagem Individual de Variáveis Dependentes Através da Regressão de Mínimos Quadrados Generalizados (RMG)

A regressão RMG generaliza a regressão RMQ apresentada acima. As suposições são: (i) V_i em (2) corresponde a uma matriz definida positiva qualquer (ou seja, resíduos em u_i podem estar correlacionados e apresentar variâncias desiguais) e (ii) variáveis dependentes não se apresentam correlacionadas.

Considerando as suposições acima, chega-se aos seguintes estimadores dos coeficientes β_i em (1) (MYERS, 1986):

com matriz de covariâncias de dada por:

A variância do valor predito para um dado arranjo x das variáveis independentes é obtida a partir de (5) e (8); isto é:

A matriz de covariâncias V_i é, via de regra, desconhecida e deve ser estimada a partir de dados experimentais. A estimação de V_i é restrita a situações em que repetidas observações das variáveis dependentes y_i estão disponíveis para um mesmo arranjo x das variáveis independentes. A partir de múltiplas observações de Y_i(x), calculam-se variâncias e covariâncias amostrais utilizadas na determinação da matriz estimada de covariâncias, . A matriz só deve ser usada quando variâncias e covariâncias amostrais forem estimadas a partir de amostras de tamanho considerável (mais de oito observações de Y_ipara cada x, conforme sugerido por DEATON et al., 1983). Caso contrário, a modelagem das variáveis dependentes via RMQ costuma gerar resultados mais confiáveis.

3.3 Modelagem Simultânea de Variáveis Dependentes Através da Regressão SURE (Regressão por Equações Aparentemente Não Relacionadas)

Considere resíduos em (3) com matriz de covariâncias conforme apresentado em (4). RMQ e RMG não podem ser aplicados na estimação dos coeficientes β_i em (1), já que os vetores u_i não são independentes. Neste caso, procede-se com a seguinte transformação visando eliminar a dependência entre vetores u_i, i = 1, ,P (SEBER, 1977): considere a matriz de covariâncias em (4) e suponha que D[u] = V, onde V é uma matriz definida positiva. Assim, pode-se determinar uma matriz não singular K tal que

Na seqüência, os elementos em (3) são transformados e renomeados, tal que Z = K^-1y, B = K^-1X, e η = K^-1u. A expressão em (3) pode ser reescrita como:

onde B é uma matriz (PT ) com rank dado por (K^-1 é não singular por definição, o que implica nas seguintes igualdades: rank [K^-1X] = rank [X] = ). Pode-se demonstrar que D[h] = σ²I_PT. Um estimador dos coeficientes em (10), obtido ao minimizar-se a soma dos quadrados de h, vem dado por:

Note que V^-1 = (D[u])^-1. Assim, reescrevendo a expressão acima, obtém-se:

Pode-se demonstrar que (SRIVASTAVA & GILES, 1987). A matriz de covariâncias dos coeficientes em (11) é dada por:

Após estimar usando a expressão em (11), os modelos para cada variável dependente podem ser separados e a variância do valor predito para um dado arranjo x das variáveis independentes determinada usando a expressão em (5) e a informação em (12).

O método apresentado acima foi originalmente concebido por AITKEN (1935) para lidar com casos de regressão múltipla univariada (ou seja, P = 1) apresentando resíduos correlacionados. ZELLNER (1962) estendeu o método para contemplar casos de regressão multivariada, chegando ao resultado em (11). Modelos obtidos utilizando a expressão em (11) são denominados "equações de regressão aparentemente não relacionadas" (Seemingly Unrelated Regression (SURE) Models).

A regressão SURE é operacionalizada modelando-se inicialmente as variáveis dependentes via RMQ. Uma vez conhecidas as matrizes de regressores X_i, i = 1, , P, elas podem ser arranjadas em uma matriz X, a qual é então usada em (11). Por essa razão, os modelos de regressão obtidos por RMQ e SURE compartilham dos mesmos regressores.

3.4 Modelagem Simultânea de Variáveis Dependentes Através de Regressão Multivariada (RMV)

Esta regressão corresponde ao análogo multivariado de RMQ, descrito na seção 3.1. Supõe-se que as P variáveis dependentes são modeladas pelos mesmos regressores; isto é, X₁ = X₂ = = X_P = Z e K₁ = K₂ = = K_P = K. Após substituições, o modelo em (3) assume a seguinte forma:

onde y é um vetor (TP x 1) de variáveis dependentes, com elemento y_i, Z é uma matriz (T x K) de regressores, β é um vetor (KP x 1) de coeficientes, com elemento β_i, e u é um vetor (TP x 1) de resíduos, com elemento u_i.

As suposições acerca do vetor u em (13) vêm dadas em (4). Os vetores u_i podem apresentar-se correlacionados. Todavia, quando todas as variáveis dependentes são modeladas pelos mesmos regressores, considerando ou não a correlação entre vetores de resíduos leva aos mesmos estimadores de β, como demonstrado a seguir.

Considere o vetor de estimadores

⁽¹⁾ de β em (13), obtido pela expressão para

de RMQ, na seção 3.1 (com vetores u_i considerados independentes):

Como , a equação acima equivale a:

Modelando as variáveis dependentes usando a regressão SURE (observando que MVR é um caso especial de SURE e que, em ambos os casos, a correlação entre vetores u_i é considerada), chega-se a um vetor de estimadores ⁽²⁾ de β dado por:

o qual, dado que, pode ser reescrito como:

Os estimadores

⁽¹⁾ e

⁽²⁾ são idênticos (ou seja, considerando-se ou não a correlação entre vetores u_i na estimação dos coeficientes de regressão chega-se ao mesmo resultado). Como esses estimadores independem de D[u], pode-se modelar as variáveis dependentes individualmente, simplificando o trabalho algébrico.

3.5 Estimação da Matriz de Covariâncias S

A matriz ∑ em (4) é, via de regra, desconhecida, sendo estimada a partir de dados amostrais. Assim, para fins práticos, ∑ pode ser substituída por uma estimativa . ZELLNER (1962) propõe um estimador de baseado nos resíduos obtidos pela modelagem de variáveis dependentes via RMQ e dado por:

onde D = T - K , se as variáveis dependentes i e j forem modeladas pelos mesmos regressores (como descritos na seção 3.4). Caso contrário, D será dado por:

3.6 Comparação das Variâncias dos Estimadores Obtidos a Partir das Diferentes Técnicas de Regressão e Comentários Gerais

Como mencionado anteriormente, modelos de regressão são normalmente utilizados para fins preditivos. Assim, atenção especial deve ser dada à variância dos estimadores dos coeficientes de regressão usado nesses modelos. A variância dos estimadores , V(), determina a variância de valores preditos, conforme apresentado em (5). Desta forma, deve-se sempre optar por uma modelagem que resulte nos menores valores possíveis para V().

Na seqüência, apresenta-se uma comparação entre as variâncias das estimativas de β conforme obtidas pelos métodos RMQ e SURE. Os estimadores RMQ e SURE de β são denominados ⁽¹⁾ e ⁽²⁾, respectivamente, seguindo a notação introduzida na seção 3.4. V(⁽¹⁾) e V(⁽²⁾) estão apresentadas em (6) e (12), respectivamente. Seja D[u] = V. Considere a seguinte quantidade (SRIVASTAVA & GILES, 1987):

Seja A = ; assim, pode-se reescrever a expressão acima da seguinte maneira:

Sendo V uma matriz definida positiva por construção, AVA΄ é pelo menos semidefinida positiva (elementos na diagonal principal são ³ 0; ver SEBER, 1977, p.385), o que implica em V(⁽¹⁾) > V(⁽²⁾). Desta forma, ⁽²⁾ será pelo menos tão eficiente quanto ⁽¹⁾. Sugere-se, assim, que ⁽²⁾ seja sempre preferido como estimador dos coeficientes dos modelos em (1). Observe que V(⁽¹⁾) = V(⁽²⁾) quando Cov(u_i, u_j) = 0.

Conforme apresentado nas seções 3.1 a 3.4, cada técnica de regressão implica em suposições acerca dos vetores de resíduos e da relação entre variáveis dependentes. Essas suposições são comentadas na seqüência.

Variáveis dependentes não correlacionadas com variâncias não homogêneas podem ser modeladas através de RMG, disponível no pacote estatístico SAS (1990).
RMV é adequada na estimação de coeficientes de regressão de variáveis correlacionadas e modeladas pelos mesmos regressores; RMV é um rotina disponível no pacote estatístico SAS (1990).
SURE é adequada quando as variáveis dependentes apresentam-se correlacionadas; SURE é uma rotina disponível no pacote estatístico SAS (1990).

SURE sempre resulta em estimativas dos coeficientes de regressão com variância menor ou igual às estimativas resultantes nos demais métodos, conforme demonstrado acima.

4. Exemplo

Considere os dados multivariados apresentados na Tabela 1, oriundos de um experimento industrial realizado na Food Manufacturing Technology Facility, um laboratório financiado pelo Exército Americano e localizado na Rutgers University, USA. O objetivo do experimento é determinar as condições de autoclavagem adequadas para produção de cubos de carne acondicionados em pouches (embalagens com estrutura composta por lâminas de alumínio, filmes plásticos e resinas) para uso militar.

Thumbnail

Três variáveis de autoclavagem (variáveis independentes) são consideradas (ver Tabela 1): Tempo tempo de processamento em minutos, onde (1) = 25min. e (+1) = 45min.; Temp temperatura de processamento em °F; e Tipo tipo de carne utilizada nos cubos, onde (-1) = natural e (+1) = moída e prensada. Três variáveis de desempenho (variáveis dependentes), avaliadas por oito especialistas em um painel de avaliação sensorial, são consideradas: Y₁ Firmeza dos cubos de carne, Y₂ Dureza da carne; e Y₃ Desfibramento da carne. As avaliações forem realizadas seguindo o Spectrum Method (uma técnica de Análise Descritiva Quantitativa proposta por MEILGAARD et al., 1991), e medidas usando uma escala contínua de 15 pontos. Cada avaliação foi replicada quatro vezes. Nesta análise, utilizam-se avaliações feitas por um dos painelistas.

As variáveis dependentes apresentam-se altamente correlacionadas, com valores de correlação amostral dados na Tabela 2. Num primeiro momento, determinam-se modelos RMQ para as variáveis dependentes. As variáveis independentes incluídas nos modelos apresentam um nível de significância ³ 95%. O desempenho dos modelos em termos de ajuste aos dados foi monitorado pelo coeficiente de determinação R². Os modelos RMQ vêm apresentados a seguir (todos os modelos apresentam R² ³ 0,90):

Thumbnail

Os resíduos resultantes dos modelos em (14) são analisados quanto a homogeneidade das variâncias e correlação entre resíduos dentro de um mesmo vetor u_i (isto é, resíduos u_i₁, , u_iT em u_i). Para tanto, (i) plotaram-se resíduos contra valores preditos pelos modelos (ver MONTGOMERY & PECK, 1992, p.74) e (ii) calculou-se a estatística de Durbin-Watson (ver DRAPER & SMITH, 1981, p.162). Os resultados obtidos em (i) para o primeiro modelo em (14) vêm apresentados na Figura 1. Os resíduos apresentam-se homogêneos quanto a variância. A estatística D-W resultou em um valor 2,28. Como o valor crítico d_U para este teste é 1,40, a hipótese de resíduos não correlacionados não pode ser rejeitada. Situação similar foi encontrada ao analisar-se resíduos resultantes dos demais modelos em (14).

Na seqüência, determinaram-se modelos SURE e RMV para as variáveis dependentes (modelos RMG são idênticos aos modelos RMQ, dada a homogeneidade da variância dos resíduos em u_i, i = 1,2,3). Os modelos SURE, com os mesmos regressores e coeficientes de determinação apresentados em (14), são:

Os modelos RMV, com R² ³ 0,90, são dados por:

Os três grupos de modelos geram estimativas similares de Y_i(x), i = 1,2,3, para um dado arranjo x das variáveis independentes. As variâncias são associadas a essas predições, porém, variam consideravelmente. Os valores de , e, calculados para arranjos x das variáveis independentes correspondendo às rodadas experimentais, estão apresentados na Tabela 3. A comparação entre variâncias de predição limita-se aos modelos obtidos via RMQ e SURE, já que estes correspondem aos valores extremos de variâncias (modelos RMV apresentam valores de intermediários).

Thumbnail

Observe que RMQ > SURE, i = 1,2, em todas as rodadas. A alta correlação existente entre Y₁ e Y₂ torna a modelagem via RMQ inadequada, e isto pode ser constatado comparando as variâncias de predição obtidas em cada método. Por outro lado, _RMQ = _SURE em todas as rodadas, apesar da existência de correlação entre Y₁ e Y₃,e Y₂ e Y₃. Isso se deve, em grande parte, ao pequeno número de termos na equação de regressão de Y₃. No caso desta variável dependente, a modelagem via RMQ ou SURE é igualmente satisfatória.

5. Conclusão

Neste trabalho, investiga-se a adequação de um grupo de técnicas de regressão linear na modelagem de dados multivariados, na presença de correlação entre variáveis dependentes. Quatro técnicas de regressão são examinadas: regressão de mínimos quadrados ordinários (RMQ), regressão de mínimos quadrados generalizados (RMG), regressão por equações aparentemente não relacionadas (SURE seemingly unrelated equations regression) e regressão multivariada (RMV). Cada técnica considera a estrutura de correlação das variáveis dependentes de maneira distinta na estimativa dos coeficientes a serem utilizados nos modelos de regressão. Essas técnicas de regressão são comparadas tendo como base a variância de predições geradas a partir de seus modelos.

Demonstra-se analiticamente que, na presença de variáveis dependentes correlacionadas, a modelagem de dados pelos métodos RMQ e RMG resulta subótima em termos de variância de predição. Nesses casos, a regressão SURE deve ser a estratégia de modelagem utilizada, apresentando variância de predição pelo menos tão pequena quanto aquela resultante a partir dos demais métodos.

A comparação entre estratégias de modelagem é ilustrada por um estudo de caso. No estudo, três variáveis dependentes altamente correlacionadas são modeladas como função de três variáveis independentes. O exemplo ilustra a superioridade da regressão SURE para casos em que as variáveis dependentes apresentam-se correlacionadas.

ADELMAN, I.; GREER, M. & MORRIS, C.T.: "Instruments and Goals in Economic Development". American Economic Review, 59(2), 409-426, 1969.
AITKEN, A.C.: "On Least-Squares and Linear Combination of Observations". Proceedings of the Royal Society of Edinburgh, 55, 42-48, 1935.
CHATTERJEE, S. & PRICE, B.:Regression Analysis by Example 2^nd Ed., John Wiley, New York, 1991.
DANIEL, C. & WOOD, F.S.:Fitting Equations to Data Computer Analysis of multifactor data John Wiley, New York, 1980.
DEATON, M.L.; REYNOLDS, Jr., M.R. & MYERS, R.H.: "Estimation and hypothesis testing in regression in the presence of non-homogeneous error variances". Communications in Statistics, B12(1), p.45-66, 1983.
DERRINGER, G. & SUICH, R.: "Simultaneous Optimization of Several Response Variables". Journal of Quality Technology, 12(4), 214-219, 1980.
DRAPER, N. & SMITH, H.: Applied Regression Analysis 2^nd Ed. John Wiley, New York, 1981.
FOGLIATTO, F.S.; ALBIN, S.L. & TEPPER, B.J.: "A Hierarchical Approach to Optimizing Descriptive Analysis Multiresponse Experiments". Journal of Sensory Studies Vol.14(4), Oct-Dec 1999, forthcoming
JOHNSON, R.A. & WICHERN, D.W.:Applied Multivariate Statistical Analysis 3^rd Ed., Prentice Hall, New Jersey, 1992.
MEILGAARD, M.; CIVILLE, G.V. & CARR, B.T.: Sensory Evaluation Techniques Second Ed., CRC Press, Boca Raton, 1991.
MONTGOMERY, D.C. & PECK, E.A.:Introduction to Linear Regression Analysis 2^nd Ed., John Wiley, New York, 1992.
MOOD, A.M., GRAYBILL, F.A. & BOES, D.C.:Introduction to the Theory of Statistics 3^rd Ed., McGraw-Hill, New York, 1974.
MYERS, R.H.:Classical and Modern Regression with Applications Duxbury Press, Boston, 1986.
RIBEIRO, J.L. & ELSAYED, E.A.: "A case Study on Process Optimization Using the Gradient Loss Function". International Journal of Production Research, 33(12), 3233-3248, 1995.
SAS INSTITUTE:SAS Version 6.0 SAS Institute, Cary, North Carolina, 1990.
SEBER, G.A.F.:Linear Regression Analysis John Wiley, New York, 1977.
SEBER, G.A.F.:Multivariate Observations John Wiley, New York, 1984.
SRIVASTAVA, V.K. & GILES, D.E.A.:Seemingly Unrelated Regression Equations Models Estimation and Inference Marcel Dekker, New York, 1987.
STAPLETON, J.H.:Linear Statistical Models John Wiley, New York, 1995.
STATGRAPHICS:User´s Manual Version 1.0 Manugistics, 1995.
ZELLNER, A.: "An Efficient Method of Estimating Seemingly Unrelated Regressions and Tests for Aggregation Bias". Journal of the American Statistical Association, 57, 348-368, 1962.

Datas de Publicação

Publicação nesta coleção
02 Mar 2010
Data do Fascículo
Abr 2000

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

[1] ADELMAN, I.; GREER, M. & MORRIS, C.T.: "Instruments and Goals in Economic Development". American Economic Review, 59(2), 409-426, 1969.

[2] AITKEN, A.C.: "On Least-Squares and Linear Combination of Observations". Proceedings of the Royal Society of Edinburgh, 55, 42-48, 1935.

[3] CHATTERJEE, S. & PRICE, B.:Regression Analysis by Example 2^nd Ed., John Wiley, New York, 1991.

[4] DANIEL, C. & WOOD, F.S.:Fitting Equations to Data Computer Analysis of multifactor data John Wiley, New York, 1980.

[5] DEATON, M.L.; REYNOLDS, Jr., M.R. & MYERS, R.H.: "Estimation and hypothesis testing in regression in the presence of non-homogeneous error variances". Communications in Statistics, B12(1), p.45-66, 1983.

[6] DERRINGER, G. & SUICH, R.: "Simultaneous Optimization of Several Response Variables". Journal of Quality Technology, 12(4), 214-219, 1980.

[7] DRAPER, N. & SMITH, H.: Applied Regression Analysis 2^nd Ed. John Wiley, New York, 1981.

[8] FOGLIATTO, F.S.; ALBIN, S.L. & TEPPER, B.J.: "A Hierarchical Approach to Optimizing Descriptive Analysis Multiresponse Experiments". Journal of Sensory Studies Vol.14(4), Oct-Dec 1999, forthcoming

[9] JOHNSON, R.A. & WICHERN, D.W.:Applied Multivariate Statistical Analysis 3^rd Ed., Prentice Hall, New Jersey, 1992.

[10] MEILGAARD, M.; CIVILLE, G.V. & CARR, B.T.: Sensory Evaluation Techniques Second Ed., CRC Press, Boca Raton, 1991.

[11] MONTGOMERY, D.C. & PECK, E.A.:Introduction to Linear Regression Analysis 2^nd Ed., John Wiley, New York, 1992.

[12] MOOD, A.M., GRAYBILL, F.A. & BOES, D.C.:Introduction to the Theory of Statistics 3^rd Ed., McGraw-Hill, New York, 1974.

[13] MYERS, R.H.:Classical and Modern Regression with Applications Duxbury Press, Boston, 1986.

[14] RIBEIRO, J.L. & ELSAYED, E.A.: "A case Study on Process Optimization Using the Gradient Loss Function". International Journal of Production Research, 33(12), 3233-3248, 1995.

[15] SAS INSTITUTE:SAS Version 6.0 SAS Institute, Cary, North Carolina, 1990.

[16] SEBER, G.A.F.:Linear Regression Analysis John Wiley, New York, 1977.

[17] SEBER, G.A.F.:Multivariate Observations John Wiley, New York, 1984.

[18] SRIVASTAVA, V.K. & GILES, D.E.A.:Seemingly Unrelated Regression Equations Models Estimation and Inference Marcel Dekker, New York, 1987.

[19] STAPLETON, J.H.:Linear Statistical Models John Wiley, New York, 1995.

[20] STATGRAPHICS:User´s Manual Version 1.0 Manugistics, 1995.

[21] ZELLNER, A.: "An Efficient Method of Estimating Seemingly Unrelated Regressions and Tests for Aggregation Bias". Journal of the American Statistical Association, 57, 348-368, 1962.

Brasil

Brasil

Estratégias para modelagem de dados multivariados na presença de correlação

Regression techniques for modeling multivariate data under correlation

Resumos

Datas de Publicação