| Remoção de Stopwords - (Filtragem de Palavras de Parada) |
Linguística |
Consiste em um processo de filtragem para remoção de palavras de pouca relevância, na tentativa de dimensionar todas as informações que não constituem conhecimento no texto. A ideia dessa filtragem é remover palavras que contêm pouca ou nenhuma informação de conteúdo, como artigos, preposições, pronomes, conjunções, advérbios, numerais e interjeições. Além disso, termos que ocorrem com alta frequência ou raramente ocorrem provavelmente não são de grande relevância e podem ser removidos. |
Luhn (1958), Salton e Mc- Gill (1983), Frakes e Baeza- Yates (1992), Lui, Li e Choy (2007) e De Oliveira Júnior e Esmin (2012). |
|
TF-IDF - (Frequência de Termo - Frequência de Documento Inverso) |
Estatística |
O Term Frequency (TF): baseia-se no pressuposto de que o peso de um termo que ocorre em um documento é diretamente proporcional à sua frequência. Inverse Document Frequency (IDF): baseia-se no pressuposto de que a especificidade de um termo pode ser medida por uma função inversa do número de documentos em que ocorre. Sendo assim, essa técnica consiste em ponderar a importância de cada termo dentro de um corpus de fundo, normalmente, constituído por documentos pertencentes ao mesmo domínio e da eliminação de uma lista de palavras muito comuns. |
Luhn (1958), Jones (1972), Bhatia e Jaiswal (2015), Liu, Li e Feng (2017) e Rocha e Guelpeli (2017). |
|
Latent Semantic Analysis (LSA) (Análise semântica latente) |
Híbrida |
Consiste em um método, que utiliza a sinonímia e a polissemia, para extração e representação do significado semântico de palavras em um contexto. Essa representação é obtida por meio de cálculos e aplicações matemáticas que analisam a relação entre termos e documentos, decompondo-os em vetor de índice. |
Landauer, Foltz e Laham (1998) e Scarton e Aluísio (2010). |
|
N-grams
|
Estatística |
Essa técnica consiste na coocorrência de palavras e permite fazer uma predição estatística de dois, ou mais, termos de um texto que aparecem em uma certa sequência. Um n-gram é uma subsequência contígua de n itens de uma determinada sequência de texto ou fala. |
Cohen (1995), Liu, Webster e Kit (2009), L. F de Alencar (2010), A. F. de Alencar (2013a) e Tonelli e Pianta (2011). |
|
Segmentation - (Segmentação de texto em frases) |
Híbrida |
Consiste na segmentação do conteúdo do texto em sentenças individualizadas, representativas de um conjunto semântico mínimo para definição de uma proposição. |
Lin, Hsieh e Chuang (2009), SOUSA, KEPLER e FARIA (2010) e A. F. de Alencar (2013b). |
|
Tokenization (Segmentação de texto em palavras) |
Híbrida |
Consiste no processo que segmenta uma sequência de caracteres do texto em uma sequência de unidades de significado (palavras) que compõem o texto. Os espaços e pontuação são geralmente adotados como tokens delimitadores para idiomas ocidentais. |
Webster e Kit (1992), SOUSA, KEPLER e FARIA (2010), A. F. de Alencar (2013b) e Silva, Trindade et al. (2015) |
|
Stemming (Lematização e radicalização) |
Linguística |
A Lematização consiste na representação de cada palavra do texto de entrada em sua forma primitiva (lemma). O processo de radicalização das palavras tem como finalidade a remoção de sufixos e prefixos de um termo, para que este seja reduzido ao seu radical (stem). |
Lovins (1968), SOUSA, KEPLER e FARIA (2010) e Rolim, Ferreira e Costa (2016). |
|
Part-of-Speech (POS) Tagging (Etiquetagem morfossintática) |
Linguística |
Consiste em etiquetar as palavras do texto de entrada com suas respectivas classes gramaticais e distribuições sintáticas. Algumas das principais técnicas de etiquetagem morfossintática são: A Baseada em regras que faz uso de regras de etiquetagem codificadas manualmente por linguistas; A Probabilística que faz uso de métodos de etiquetagem estatística em que cada palavra possui um conjunto finito de etiquetas possíveis, e é rotulada com suas etiquetas mais prováveis; e, A Híbrida que envolve a combinação das técnicas baseadas em regras e probabilística. |
Lau et al. (2008), Domingues, Favero e De Medeiros (2008), SOUSA, KEPLER e FARIA (2010), A. F. de Alencar (2013b) e Santos e Zadrozny (2014). |
| Etiquetagem do Gênero Textual
|
Linguística |
Consiste em etiquetar as principais características do gênero do texto de entrada. Essa técnica possibilita a construção do modelo estrutural em formato arbóreo e permite acrescentar dados linguísticos; informações sobre as relações entre elementos do contexto de produção, ou sentenças ou fragmentos de sentenças da infraestrutura geral do texto; e a visualização das dimensões constitutivas do gênero base. Essa etiquetagem pode delimitar os mais variados elementos constitutivos do gênero textual como: referências bibliográficas, seções, resumo, parágrafos, tabelas, figuras, financiamento, título, subtítulos, autoria, palavras-chave, dentre muitas outras. A aplicação dessa técnica pode recuperar a estrutura básica do texto de entrada, por meio da planificação dos nós raiz e suas possíveis afiliações, que representam a infraestrutura textual. O pré-processamento de um gênero vai ser, de alguma forma, influenciado pelo reconhecimento da superestrutura e da infraestrutura de sua organização composicional. |
Fonseca (2018). |