Portuguese Web 2011 (ptTenTen, Palavras parsed) Autor: Equipe Sketch Engine
|
2.757.635.105 palavras* |
Textos de sites de natureza acadêmica / científica (universidades, periódicos, governamentais, repositórios de teses, etc.). Etiquetado pelo parser PALAVRAS (Bick 2000BICK, Eckhard. 2000. The parsing system Palavras, Automatic grammatical analysis of Portuguese in a constraint grammar framework. Doctoral dissertation, Aarhus University.). |
Metadados cruciais como fonte (tipo de publicação: periódico, livro, tese, etc.), ano de publicação e área de conhecimento não estão disponíveis. Não há possibilidade de medir a qualidade da escrita e composição do corpus. |
Portuguese Web 2011 (ptTenTen, Freeling v3) Autor: Equipe Sketch Engine
|
3.900.501.097 palavras |
Textos de sites com natureza acadêmica / científica (universidades, periódicos, governamentais, repositórios de teses, etc.) Etiquetada por Freeling 3.0 (Padró e Stanilovsky 2012PADRÓ, Lluís; STANILOVSKY, Evgeny. 2012. FreeLing 3.0: Towards wider multilinguality. Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA, 1-7. ) |
Metadados cruciais como fonte (tipo de publicação), ano de publicação, área de conhecimento e variedade de língua não estão disponíveis. O país do website é equivalente à variedade do português, o que não é uma abordagem precisa para determinação de informações tão relevantes para o projeto. Não há possibilidade de medir a qualidade da escrita e composição do corpus. |
Corpus Araneum Portugallicum Maius (Portuguese, 15.05) Autor: Vladimír Benko |
862.134.902 palavras |
Textos de sites de natureza acadêmica / científica (universidades, periódicos, governamentais, repositórios de teses, etc.). Para ser usado para linguística contrastiva e projetos lexicográficos bilíngues. |
Metadados cruciais como fonte (tipo de publicação: periódico, livro, tese, etc.), ano de publicação e área de conhecimento não estão disponíveis. Não há possibilidade de medir a qualidade da escrita e composição do corpus. |
Corpus Brasileiro Autor: Tony Berber Sardinha (coordenador) |
1.133.416.757 tokens
|
Corpus geral do português brasileiro. O subcorpus acadêmico contém 258.585.002 tokens de artigos, 310.972.387 tokens de teses e dissertações e 6.947.244 tokens de anais. |
Metadados cruciais, como ano de publicação e área de conhecimento, não estão publicamente disponíveis. Nenhuma informação sobre a qualidade dos textos que compõem o subcorpus acadêmico. Apenas português do Brasil. |
Corpus do Português (Genre/historical version) Autores: Mark Davies e Michael Ferreira |
45 milhões de palavras |
Textos dos anos 1300 aos 1900. Os textos dos anos 1900 perfazem 20 milhões de palavras, com equilíbrio entre os gêneros acadêmico, ficcional, falado e jornal. Seu subcorpus acadêmico é composto por 3.087.052 palavras de Portugal e 2.816.802 do Brasil. |
O subcorpus acadêmico é composto por entradas retiradas de enciclopédias on-line brasileiras e portuguesas. |
CPBA - Corpus do Português Brasileiro Acadêmico Autores: Grupo de pesquisa UPLA, coordenado por Cristina Becker Lopes Perna, na PUCRS |
22.777.993 tokens (Peixoto 2015PEIXOTO, Rafael Marcos Tort. 2015. O Fenômeno (De)Queísta No Corpus do Português Brasileiro Acadêmico. Dissertação de Mestrado. Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS).:44) |
Livros e periódicos de seis diferentes áreas do conhecimento fornecidos por oito universidades brasileiras, compreendendo produções escritas de professores e alunos de graduação e pós-graduação. |
Não disponível publicamente. Apenas português do Brasil. |
CRPC - Corpus de Referência do Português Contemporâneo Autores: Desenvolvido no Centro de Linguística da Universidade de Lisboa (CLUL). |
311 milhões de palavras (falado + escrito) Aproximadamente 310 milhões de palavras de textos escritos |
Corpus de linguagem geral. Português europeu e outras variedades (Brasil, Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe, Goa, Macau e Timor-Leste). Diferentes tipos de texto, incluindo científicos. Textos da segunda metade do século XIX a 2008. |
Metadados não estão consistentemente disponíveis. |