Acessibilidade / Reportar erro

Seleção de variáveis com vistas à classificação de bateladas de produção em duas classes

Identifying relevant variables for production batch categorization into quality levels

Bancos de dados caracterizados por elevado número de variáveis correlacionadas são usualmente encontrados em ambientes industriais, dificultando a identificação das variáveis de processo mais relevantes. A regressão por quadrados parciais mínimos (Partial Least Square - PLS) tem sido amplamente utilizada para a seleção de variáveis com propósitos de predição. No entanto, muitas aplicações práticas priorizam a correta categorização de lotes produtivos em classes, de acordo com determinada especificação do produto final. Neste artigo, a regressão PLS é integrada às ferramentas de classificação z vizinhos mais próximos (z-Nearest Neighbor) e máquina de suporte vetorial (Support Vector Machine) com visando a seleção de variáveis para fins de categorização de bateladas de produção em duas classes. Índices de Importância das Variáveis (IIV) baseados nos parâmetros da regressão PLS são desenvolvidos para o ordenamento das variáveis de processo, de acordo com sua relevância para a caracterização da variável de produto, e então integrados às ferramentas de classificação. O subconjunto de variáveis retidas é identificado através do monitoramento do perfil de acurácia gerado com a remoção sistemática das variáveis menos relevantes. Aplicada em três bancos de dados, a metodologia proposta reduziu o número de variáveis de processo necessárias para classificação de bateladas em 90,6% e elevou a acurácia média de classificação em 29,2%, quando comparada à aplicação de ferramentas de classificação na totalidade das variáveis.

Seleção de variáveis; PLS; z vizinhos mais próximos; Máquina de suporte vetorial


Universidade Federal de São Carlos Departamento de Engenharia de Produção , Caixa Postal 676 , 13.565-905 São Carlos SP Brazil, Tel.: +55 16 3351 8471 - São Carlos - SP - Brazil
E-mail: gp@dep.ufscar.br