Acessibilidade / Reportar erro

Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação

Evaluation of the preprocessing and training stages in text classification algorithms in the context of information retrieval

Resumo

A quantidade de dados não estruturados cresce com a popularização da Internet. Textos em linguagem natural representam um conjunto relevante e significativo para análise e produção de conhecimento. Este trabalho propõe uma análise quantitativa das etapas de pré-processamento e de treinamento de um classificador de textos, que utiliza os sentimentos expressos pelos usuários como atributo. Para realização dos experimentos, foram utilizadas Redes Neurais Artificiais, como algoritmo classificador, e textos provenientes dos sites Amazon, IMDB e Yelp. A base textual permite análise da expressão de sentimentos positivos e negativos dos usuários em avaliações de produtos e serviços em textos não estruturados. Foram realizados dois processos distintos de pré-processamento e diferentes treinamentos das Redes Neurais Artificiais para classificação do conjunto textual. Os resultados confirmam, quantitativamente, a importância das etapas de pré-processamento e de treinamento do classificador, evidenciando a importância do vocabulário selecionado para a representação do texto e para a classificação. As técnicas de classificação disponíveis alcançam resultados satisfatórios. No entanto, mesmo utilizando-se dois processos distintos de pré-processamento e identificando-se o melhor processo de treinamento, não foi possível eliminar, totalmente, as dificuldades de aprendizado e compreensão do modelo para as classificações de sentimentos que envolviam características subjetivas da expressão do sentimento humano.

Palavras-chave:
Classificação; Processamento da Linguagem Natural; Recuperação da Informação; Redes Neurais Artificiais; Treinamento

Escola de Ciência da Informação da UFMG Antonio Carlos, 6627 - Pampulha, 31270- 901 - Belo Horizonte -MG, Brasil, Tel: 031) 3499-5227 , Fax: (031) 3499-5200 - Belo Horizonte - MG - Brazil
E-mail: pci@eci.ufmg.br