Acessibilidade / Reportar erro

Classificação automática de documentos jornalísticos na Internet

Resumo

As publicações de textos jornalísticos na Internet aumentam a cada dia. São muitas as agências de notícias, jornais e revistas com publicações digitais na grande rede. Os documentos publicados ficam disponíveis aos usuários, que, por sua vez, usam buscadores para encontrá-los. Para se encontrarem os documentos mais próximos da busca realizada, estes devem estar previamente indexados e classificados. Com o volume gigantesco de materiais publicados a cada dia, muitas pesquisas estão sendo realizadas para encontrar facilitadores para a classificação automática de documentos. Este artigo objetiva demonstrar uma experiência de classificação automática de documentos jornalísticos publicados na Internet, usando o Modelo Vetorial de representação. A partir de uma base de dados jornalística real, o modelo é testado por meio de algoritmos largamente utilizados na literatura. O artigo descreve ainda as métricas de avaliação de desempenho desses algoritmos e as configurações necessárias para a sua reprodução. Os resultados mostram a eficiência do método e justifica as pesquisas acerca de meios facilitadores para a classificação automática de documentos.

Palavras-chave:
Classificação automática; Internet; Modelo vetorial

Pontifícia Universidade Católica de Campinas Núcleo de Editoração SBI - Campus II - Av. John Boyd Dunlop, s/n. - Prédio de Odontologia, Jd. Ipaussurama - 13059-900 - Campinas - SP, Tel.: +55 19 3343-6875 - Campinas - SP - Brazil
E-mail: transinfo@puc-campinas.edu.br