Remoção de Stopwords - (Filtragem de Palavras de Parada) |
Linguística |
Consiste em um processo de filtragem para remoção de palavras de pouca relevância, na tentativa de dimensionar todas as informações que não constituem conhecimento no texto. A ideia dessa filtragem é remover palavras que contêm pouca ou nenhuma informação de conteúdo, como artigos, preposições, pronomes, conjunções, advérbios, numerais e interjeições. Além disso, termos que ocorrem com alta frequência ou raramente ocorrem provavelmente não são de grande relevância e podem ser removidos. |
Luhn (1958LUHN, H. P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, v. 2, n. 2, p. 159-165, abr. 1958. DOI: 10.1147/rd.22.0159. Disponível em: <Disponível em: http://ieeexplore.ieee.org/document/5392672/ >. Acesso em: 27 dez. 2021. http://ieeexplore.ieee.org/document/5392...
), Salton e Mc- Gill (1983SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983. (McGraw-Hill computer science series).), Frakes e Baeza- Yates (1992FRAKES, W. B.; BAEZA-YATES, R. (Ed.). Information retrieval: data structures & algorithms. Englewood Cliffs, N.J: Prentice Hall, 1992.), Lui, Li e Choy (2007LUI, A. K.-F.; LI, S. C.; CHOY, S. O. An Evaluation of Automatic Text Categorization in Online Discussion Analysis. In: SEVENTH IEEE International Conference on Advanced Learning Technologies (ICALT 2007). [S.l.: s.n.], jul. 2007. p. 205-209. DOI: 10.1109/ICALT.2007.59. https://doi.org/10.1109/ICALT.2007.59...
) e De Oliveira Júnior e Esmin (2012DE OLIVEIRA JÚNIOR, R. L.; ESMIN, A. A. A. Monitoramento Automático de Mensagens de Fóruns de Discussão de Texto Semi-Supervisionado. In: SBIE Simpósio Brasileiro de Informática na Educação. Rio de Janeiro: SBIE, 2012.). |
TF-IDF - (Frequência de Termo - Frequência de Documento Inverso) |
Estatística |
O Term Frequency (TF): baseia-se no pressuposto de que o peso de um termo que ocorre em um documento é diretamente proporcional à sua frequência. Inverse Document Frequency (IDF): baseia-se no pressuposto de que a especificidade de um termo pode ser medida por uma função inversa do número de documentos em que ocorre. Sendo assim, essa técnica consiste em ponderar a importância de cada termo dentro de um corpus de fundo, normalmente, constituído por documentos pertencentes ao mesmo domínio e da eliminação de uma lista de palavras muito comuns. |
Luhn (1958LUHN, H. P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, v. 2, n. 2, p. 159-165, abr. 1958. DOI: 10.1147/rd.22.0159. Disponível em: <Disponível em: http://ieeexplore.ieee.org/document/5392672/ >. Acesso em: 27 dez. 2021. http://ieeexplore.ieee.org/document/5392...
), Jones (1972JONES, K. S. Some thesauric history. Aslib Proceedings, v. 24, n. 7, p. 400-411, jul. 1972. DOI: 10.1108/eb050353. Disponível em: <Disponível em: https://www.emerald.com/insight/content/doi/10.1108/eb050353/full/html >. Acesso em: 27 dez. 2021. https://www.emerald.com/insight/content/...
), Bhatia e Jaiswal (2015BHATIA, N.; JAISWAL, A. Literature Review on Automatic Text Summarization: Single and Multiple Summarizations. International Journal of Computer Applications, v. 117, n. 6, p. 25-29, mai. 2015. DOI: 10.5120/20560-2948. Disponível em: <Disponível em: http://research.ijcaonline.org/volume117/number6/pxc3902948.pdf >. Acesso em: 27 dez. 2021. http://research.ijcaonline.org/volume117...
), Liu, Li e Feng (2017LIU, X.; LI, C.; FENG, Z. Analyze of Subject Research Hot Spots Based on An Improved Algorithm of TF*IDF--Taking Information Science for Example- Information Science 2017 07 . Information Science, v. 7, n. 35, p. 015, 2017. Disponível em: <Disponível em: http://en.cnki.com.cn/Article_en/CJFDTotal-QBKX201707015.htm >. Acesso em: 27 dez. 2021. http://en.cnki.com.cn/Article_en/CJFDTot...
) e Rocha e Guelpeli (2017ROCHA, V. J. C.; GUELPELI, M. V. C. PragmaSUM: automatic tex summarizer based on user profile. International Journal of Current Research, v. 9, n. 7, p. 53935-53942, 2017.). |
Latent Semantic Analysis (LSA) (Análise semântica latente) |
Híbrida |
Consiste em um método, que utiliza a sinonímia e a polissemia, para extração e representação do significado semântico de palavras em um contexto. Essa representação é obtida por meio de cálculos e aplicações matemáticas que analisam a relação entre termos e documentos, decompondo-os em vetor de índice. |
Landauer, Foltz e Laham (1998LANDAUER, T. K; FOLTZ, P. W.; LAHAM, D. An introduction to latent semantic analysis. Discourse Processes, v. 25, n. 2-3, p. 259-284, jan. 1998. DOI: 10.1080/01638539809545028. Disponível em: <Disponível em: http://www.tandfonline.com/doi/abs/10.1080/01638539809545028 >. Acesso em: 27 dez. 2021. http://www.tandfonline.com/doi/abs/10.10...
) e Scarton e Aluísio (2010SCARTON, C. E.; ALUÍSIO, S. M. Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh-Metrix para o Português. Linguamática, v. 2, n. 1, p. 45-61, abr. 2010. Disponível em: <Disponível em: https://linguamatica.com/index.php/linguamatica/article/view/44 >. Acesso em: 27 dez. 2021. https://linguamatica.com/index.php/lingu...
). |
N-grams
|
Estatística |
Essa técnica consiste na coocorrência de palavras e permite fazer uma predição estatística de dois, ou mais, termos de um texto que aparecem em uma certa sequência. Um n-gram é uma subsequência contígua de n itens de uma determinada sequência de texto ou fala. |
Cohen (1995COHEN, J. D. Highlights: Languageand domain-independent automatic indexing terms for abstracting. Journal of the American Society for Information Science, v. 46, n. 3, p. 162-174, abr. 1995. DOI: 10.1002/(SICI)1097-4571(199504)46:3<162::AID-ASI2>3.0.CO;2-6. Disponível em: <Disponível em: https://onlinelibrary.wiley.com/doi/10.1002/(SICI)1097-4571(199504)46:3%3C162::AID-ASI2%3E3.0.CO;2-6 >. Acesso em: 27 dez. 2021. https://onlinelibrary.wiley.com/doi/10.1...
), Liu, Webster e Kit (2009LIU, X.; WEBSTER, J. J.; KIT, C. An Extractive Text Summarizer Based on Significant Words. In: LI, W.; MOLLÁ-ALIOD, D. (Ed.). Computer Processing of Oriental Languages. Language Technology for the Knowledge-based Economy. Berlin, Heidelberg: Springer , 2009. (Lecture Notes in Computer Science), p. 168-178. DOI: 10.1007/978-3-642-00831-3_16. https://doi.org/10.1007/978-3-642-00831-...
), L. F de Alencar (2010ALENCAR, L. F de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. In: IX Encontro de Linguística de Corpus. Porto Alegre: PUCRS, 2010. Disponível em: <Disponível em: http://corpuslg.org/gelc/media/blogs/elc2010/slides/Figueiredo_de_Alencar.pdf >. Acesso em: 27 dez. 2021. http://corpuslg.org/gelc/media/blogs/elc...
), A. F. de Alencar (2013aALENCAR, A. F. de. About Aelius Brazilian Portuguese POS-Tagger. [S.l.: s.n.], 2013. Disponível em: <Disponível em: http://aelius.sourceforge.net/ >. Acesso em: 27 dez. 2021. http://aelius.sourceforge.net/...
) e Tonelli e Pianta (2011TONELLI, S.; PIANTA, E. Matching documents and summaries using key-concepts Sara. In: PROCEEDINGS of the Seventh DEFT Workshop. Montpellier, France: [s.n.], 2011. p. 73-83.). |
Segmentation - (Segmentação de texto em frases) |
Híbrida |
Consiste na segmentação do conteúdo do texto em sentenças individualizadas, representativas de um conjunto semântico mínimo para definição de uma proposição. |
Lin, Hsieh e Chuang (2009LIN, F.-R.; HSIEH, L.-S.; CHUANG, F.-T. Discovering genres of online discussion threads via text mining. Computers & Education, v. 52, n. 2, p. 481-495, fev. 2009. DOI: 10.1016/j.compedu.2008.10.005. Disponível em: <Disponível em: https://linkinghub.elsevier.com/retrieve/pii/S0360131508001528 >. Acesso em: 27 dez. 2021. https://linkinghub.elsevier.com/retrieve...
), SOUSA, KEPLER e FARIA (2010SOUSA, M. C. P. de; KEPLER, F. N.; FARIA, P. P. F. de. E-Dictor: novas perspectivas na codificação e edição de corpora de textos históricos. In: CAMINHOS da Linguística de Corpus. São Paulo: Mercado de Letras, 2010. p. 225-246.) e A. F. de Alencar (2013bALENCAR, A. F. de. Aelius User’s Manual. [S.l.: s.n.], 2013. Disponível em: <Disponível em: http://aelius.sourceforge.net/manual.html >. Acesso em: 27 dez. 2021. http://aelius.sourceforge.net/manual.htm...
). |
Tokenization (Segmentação de texto em palavras) |
Híbrida |
Consiste no processo que segmenta uma sequência de caracteres do texto em uma sequência de unidades de significado (palavras) que compõem o texto. Os espaços e pontuação são geralmente adotados como tokens delimitadores para idiomas ocidentais. |
Webster e Kit (1992WEBSTER, J. J.; KIT, C. Tokenization as the initial phase in NLP. en. In: PROCEEDINGS of the 14th conference on Computational linguistics -. Nantes, France: Association for Computational Linguistics, 1992. v. 4, p. 1106. DOI: 10.3115/992424.992434. Disponível em: <Disponível em: http://portal.acm.org/citation.cfm?doid=992424.992434 >. Acesso em: 27 dez. 2021. http://portal.acm.org/citation.cfm?doid=...
), SOUSA, KEPLER e FARIA (2010SOUSA, M. C. P. de; KEPLER, F. N.; FARIA, P. P. F. de. E-Dictor: novas perspectivas na codificação e edição de corpora de textos históricos. In: CAMINHOS da Linguística de Corpus. São Paulo: Mercado de Letras, 2010. p. 225-246.), A. F. de Alencar (2013bALENCAR, A. F. de. Aelius User’s Manual. [S.l.: s.n.], 2013. Disponível em: <Disponível em: http://aelius.sourceforge.net/manual.html >. Acesso em: 27 dez. 2021. http://aelius.sourceforge.net/manual.htm...
) e Silva, Trindade et al. (2015SILVA, L. A.; TRINDADE, D. et al. Mineração de Dados em publicações de Fóruns de Discussões do Moodle como geração de Indicadores para aprimoramento da Gestão Educacional. Anais dos Workshops do Congresso Brasileiro de Informática na Educação, v. 4, n. 1, p. 1084, out. 2015. DOI: 10.5753/cbie.wcbie.2015.1084. Disponível em: <Disponível em: http://br-ie.org/pub/index.php/wcbie/article/view/6220 >. Acesso em: 27 dez. 2021. http://br-ie.org/pub/index.php/wcbie/art...
) |
Stemming (Lematização e radicalização) |
Linguística |
A Lematização consiste na representação de cada palavra do texto de entrada em sua forma primitiva (lemma). O processo de radicalização das palavras tem como finalidade a remoção de sufixos e prefixos de um termo, para que este seja reduzido ao seu radical (stem). |
Lovins (1968LOVINS, J. B. Development of a Stemming Algorithm. Mechanical Translation and Computational Linguistics, v. 11, n. 1, p. 22-31, 1968.), SOUSA, KEPLER e FARIA (2010SOUSA, M. C. P. de; KEPLER, F. N.; FARIA, P. P. F. de. E-Dictor: novas perspectivas na codificação e edição de corpora de textos históricos. In: CAMINHOS da Linguística de Corpus. São Paulo: Mercado de Letras, 2010. p. 225-246.) e Rolim, Ferreira e Costa (2016ROLIM, V.; FERREIRA, R.; COSTA, E. Identificação Automática de Dúvidas em Fóruns Educacionais. In: p. 936. DOI: 10.5753/cbie.sbie.2016.936. Disponível em: <Disponível em: http://www.br-ie.org/pub/index.php/sbie/article/view/6779 >. Acesso em: 27 dez. 2021. http://www.br-ie.org/pub/index.php/sbie/...
). |
Part-of-Speech (POS) Tagging (Etiquetagem morfossintática) |
Linguística |
Consiste em etiquetar as palavras do texto de entrada com suas respectivas classes gramaticais e distribuições sintáticas. Algumas das principais técnicas de etiquetagem morfossintática são: A Baseada em regras que faz uso de regras de etiquetagem codificadas manualmente por linguistas; A Probabilística que faz uso de métodos de etiquetagem estatística em que cada palavra possui um conjunto finito de etiquetas possíveis, e é rotulada com suas etiquetas mais prováveis; e, A Híbrida que envolve a combinação das técnicas baseadas em regras e probabilística. |
Lau et al. (2008LAU, R. Y. K. et al. Towards Fuzzy Domain Ontology Based Concept Map Generation for E-Learning. In: LEUNG, H. et al. (Ed.). Advances in Web Based Learning - ICWL 2007. Berlin, Heidelberg: Springer, 2008. (Lecture Notes in Computer Science), p. 90-101. DOI: 10.1007/978-3-540-78139-4_9. https://doi.org/10.1007/978-3-540-78139-...
), Domingues, Favero e De Medeiros (2008DOMINGUES, M. L.; FAVERO, E. L.; DE MEDEIROS, I. P. O desenvolvimento de um etiquetador morfossintático com alta acurácia para o português. In: VALE, O. A. (Ed.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanistas, 2008. p. 267-286.), SOUSA, KEPLER e FARIA (2010SOUSA, M. C. P. de; KEPLER, F. N.; FARIA, P. P. F. de. E-Dictor: novas perspectivas na codificação e edição de corpora de textos históricos. In: CAMINHOS da Linguística de Corpus. São Paulo: Mercado de Letras, 2010. p. 225-246.), A. F. de Alencar (2013bALENCAR, A. F. de. Aelius User’s Manual. [S.l.: s.n.], 2013. Disponível em: <Disponível em: http://aelius.sourceforge.net/manual.html >. Acesso em: 27 dez. 2021. http://aelius.sourceforge.net/manual.htm...
) e Santos e Zadrozny (2014SANTOS, C. N. dos; ZADROZNY, B. Learning Character-level Representations for Part-of-Speech Tagging. In: PROCEEDINGS of the 31st International Conference on Machine Learning (ICML-14). [S.l.: s.n.], 2014. p. 1818-1826.). |
Etiquetagem do Gênero Textual
|
Linguística |
Consiste em etiquetar as principais características do gênero do texto de entrada. Essa técnica possibilita a construção do modelo estrutural em formato arbóreo e permite acrescentar dados linguísticos; informações sobre as relações entre elementos do contexto de produção, ou sentenças ou fragmentos de sentenças da infraestrutura geral do texto; e a visualização das dimensões constitutivas do gênero base. Essa etiquetagem pode delimitar os mais variados elementos constitutivos do gênero textual como: referências bibliográficas, seções, resumo, parágrafos, tabelas, figuras, financiamento, título, subtítulos, autoria, palavras-chave, dentre muitas outras. A aplicação dessa técnica pode recuperar a estrutura básica do texto de entrada, por meio da planificação dos nós raiz e suas possíveis afiliações, que representam a infraestrutura textual. O pré-processamento de um gênero vai ser, de alguma forma, influenciado pelo reconhecimento da superestrutura e da infraestrutura de sua organização composicional. |
Fonseca (2018FONSECA, C. A. AnoTex: anotador de artigo científico para retextualização automática. 2018. Dissertação (Mestrado Profissional em Educação) - Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina. Disponível em: <Disponível em: http://acervo.ufvjm.edu.br/jspui/handle/1/2114 >. Acesso em: 27 dez. 2021. http://acervo.ufvjm.edu.br/jspui/handle/...
). |