Acessibilidade / Reportar erro

Análise de componentes principais aplicada à estimação de parâmetros no modelo de regressão logística quadrático

Resumos

A maioria dos estudos sobre o modelo de regressão logística politômica considera apenas o modelo com funções discriminantes lineares. Entretanto, funções discriminantes quadráticas podem ser de grande utilidade, além de apresentar melhores resultados. Porém, o modelo logístico quadrático envolve a estimação de um grande número de parâmetros desconhecidos, o que pode exigir um grande esforço computacional. Neste trabalho utiliza-se um conjunto de componentes principais das variáveis explanatórias a fim de reduzir as dimensões do modelo a ser estimado, com variáveis explanatórias contínuas, bem como os custos computacionais para a estimação de parâmetros na regressão logística quadrática politômica, sem perda de eficiência. Simulações com dois conjuntos de dados mostram que o modelo de regressão logística quadrático, com componentes principais, é compu-tacionalmente viável, podendo produzir resultados melhores que aqueles obtidos pelo modelo de regressão logística clássico, em termos de taxas de classificações corretamente efetuadas.

Regressão logística politômica; regressão logística quadrática; análise de componentes principais


Many papers on logistic regression have only considered the logistic regression model with linear discriminant functions, but there are situations where quadratic discriminant functions are useful, and works better. However, the quadratic logistic regression model involves the estimation of a great number of unknown parameters, and this leads to computational difficulties when there are a great number of independent variables. This paper proposes to use a set of principal components of the explanatory variables, in order to reduce the dimensions in the problem, with continuous independent variables, and the computational costs for the parameter estimation in polytomous quadratic logistic regression, without loss of accuracy. Examples on datasets taken from the literature show that the quadratic logistic regression model, with principal components, is feasible and, generally, works better than the classical logistic regression model with linear discriminant functions, in terms of correct classification rates.

Polytomous logistic regression; quadratic logistic regression; principal components analysis


  • [1] A.M. Aguilera, M. Escabias, M.J. Valderrama, Using principal components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 55 (2006), 1905-1924.
  • [2] A. Albert, J.A. Anderson, On the existence of maximum likelihood estimates in logistic regression models, Biometrika, 71 (1984), 1-10.
  • [3] J.A. Anderson, Quadratic logistic discrimination, Biometrika, 62 (1975), 149154.
  • [4] I. Andruski-Guimarães, A. Chaves Neto, Estimation in polytomous logistic model: comparison of methods, Journal of Industrial and Management Optimization, 5 (2009), 239 252.
  • [5] L. Barker, C. Brown, Logistic regression when binary predictor variables are highly correlated, Satisfies in Medicine, 20, No. 9-10 (2001), 1431-1442.
  • [6] D.Brodnjak - Voncina , Z.C.Kodba, e C.Novic, Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids, Che-mometrics and Intelligent Laboratory Systems, 75 (2005), 31-43.
  • [7] J.B. Copas, Binary regression models for contaminated data. With discussion, Journal of Royal Statistical Society B, 50 (1988), 225 265.
  • [8] A. Ekholme, J. Palmgren, A model for binary response with misclassification, GLIM 82 Proceedings of the International Conference on Generalized Linear Models, 1982, 128-143.
  • [9] R.A. Fisher, The use of multiple measurements in taxonomic problems, Annals of Eugenics, 3 (1936), 179-188.
  • [10] D. Gervini, Robust adaptive estimators for binary regression models, Journal of Statistical Planning and Inference, 131 (2005), 297-311.
  • [11] G. Heinze, M. Schemper, A solution to the problem of separation in logistic regression, Statistics in Medicine, 21 (2002), 2409-2419.
  • [12] M. Hubert, K. van Driessen, Fast and robust discriminant analysis, Computational Statistics & Data Analysis, 45, No. 2 (2004), 301-320.
  • [13] I.T. Jolliffe, A note on the use of principal components in regression, Applied Statistics, 31, No. 3 (1982), 300-303.
  • [14] N. Kodzarkhia, G.D. Mishra, L. Reiersolmoen, Robust estimation in the logistic regression model, Journal of Statistical Planning and Inference, 98 (2004), 211223.
  • [15] W.F. Massy, Principal component regression in exploratory statistical research, Journal of American Statistical Association, 60 (1965), 234-246.
  • [16] G.J. McLachlan, "Discriminant Analysis and Statistical Pattern Recognition", John Wiley & Sons Inc., Hoboken, New Jersey, U.S.A., 2004, 130.
  • [17] P.J. Rousseeuw, A. Christmann, Robustness against separation and outliers in logistic regression, Computational Statistics & Data Analysis, 43 (2003), 315 332.

Datas de Publicação

  • Publicação nesta coleção
    28 Maio 2013
  • Data do Fascículo
    Abr 2013

Histórico

  • Aceito
    11 Mar 2013
  • Recebido
    30 Set 2012
Sociedade Brasileira de Matemática Aplicada e Computacional Rua Maestro João Seppe, nº. 900, 16º. andar - Sala 163 , 13561-120 São Carlos - SP, Tel. / Fax: (55 16) 3412-9752 - São Carlos - SP - Brazil
E-mail: sbmac@sbmac.org.br