RESUMO
O artigo visa demonstrar como a interconexão entre História Medieval e Ciência de Dados pode contribuir para o avanço dos estudos históricos. Para tanto, apresentaremos os produtos resultantes da pesquisa de Pós-Doutorado intitulada “O pobre e a pobreza na Alta Idade Média (séculos VI-IX): estudo linguístico e histórico”, acerca da pobreza entre os séculos VI e IX no Ocidente continental europeu: i) um banco de dados sobre o léxico da pobreza na Alta Idade Média, disponibilizado para consulta pública online em https://thirisi.github.io/Projeto-PaupeR/; ii) o programa PaupeR, uma nova ferramenta desenvolvida em linguagem R, para geração e consolidação dos dados de forma que os tornem possíveis de ser explorados em diferentes perspectivas estatísticas; e iii) um repositório público com todas as informações geradas por esta pesquisa, onde os visitantes podem acessá-las, baixá-las e copiá-las, disponível no seguinte endereço eletrônico: https://github.com/thirisi/Projeto-PaupeR. Com isso, esperamos contribuir não somente para a compreensão do tema da pobreza no período recortado, mas também lançar bases para novas explorações dos dados, novas interpretações e novas metodologias de análise.
métodos digitais; pobreza; banco de dados
ABSTRACT
This paper aims to demonstrate how the interconnection between Medieval History and Data Science can contribute to advancing historical studies. To this end, we will present the resulting products of the post-doctoral research entitled “O pobre e a pobreza na Alta Idade Média (séculos VI-IX): estudo linguístico e histórico”, made under the supervision of Marcelo Cândido da Silva, with a scholarship by FAPESP (process no. 2018/11355-8) on poverty between the 6th and 9th centuries in the Western Medieval world: i) a database on the lexicon of poverty in the Early Middle Ages, available for the public at https://thirisi.github.io/Projeto-PaupeR/; ii) the PaupeR program, a new tool developed in the R language, for generating and consolidating data in a way that makes it possible to explore it from different statistical perspectives; and iii) a public repository with all the information generated by this research, where visitors can access, download and copy it, available at the following web address: https://github.com/thirisi/Projeto-PaupeR. With this, we hope to contribute not only to understanding the issue of poverty in the period in question, but also to lay foundations for new explorations of historical data, as well as new interpretations and new methodologies for historical studies analysis.
digital methods; poverty; database
O presente texto visa apresentar os resultados oriundos de uma pesquisa anterior, “O pobre e a pobreza na Alta Idade Média (séculos VI-IX): estudo linguístico e histórico”. Esta, cujo objetivo foi compreender como eram denominados os pobres e como era descrita a pobreza no Ocidente entre os séculos VI e IX, período costumeiramente designado por historiadores como Alta Idade Média.
Cientes de que métodos modernos de mensuração da pobreza, como aqueles aplicados pelo Banco Mundial, que se balizam por indicadores de consumo (Haughton; Khandker, 2009), não são diretamente aplicáveis ao recorte cronológico em análise, optamos por um estudo de semântica histórica, observando como a linguagem da documentação compuseram o quadro representativo da pobreza naquele momento. Quem é o pobre? Que termos são utilizados para designá-lo? Em que número isso ocorre? Ele tem uma função particular em cada documento em que aparece? Qual ou quais? Aliando recursos tecnológicos de busca a uma quantidade massiva de dados, disponíveis graças à digitalização dos documentos selecionados, foi nossa intenção responder a essas questões para além das definições da historiografia até o momento.
Para realizar esses objetivos, elaboramos um banco de dados sobre o léxico da pobreza na Alta Idade Média, que teve, como resultado derivado, a criação de novas formas de explorar a documentação. Levou-se em conta as tecnologias informáticas, como a elaboração de programas de computador para a leitura e a extração de dados em grande quantidade, além de sua preparação para visualizações em conjunto, justamente os pontos que abordaremos neste artigo.
Assim, a pesquisa foi dividida, grosso modo, em três etapas: A) levantamento de dados; B) elaboração do banco de dados e sua publicação em formato público; C) desenvolvimento de ferramentas para análise dos dados. Essa estrutura serviu para racionalizarmos os processos envolvidos no cumprimento do nosso objetivo de pesquisa e, dessa maneira, melhor avaliar sua realização. Portanto, convém esmiuçar, para o melhor entendimento de toda atividade, a ocorrência de cada etapa.
A. LEVANTAMENTO DOS DADOS
O levantamento dos dados passou pelo entendimento de que a linguagem é a instância de mediação para a compreensão da pobreza nos documentos dos séculos VI a IX. É na relação entre a linguagem e as representações que ela evoca que se situam a compreensão dos sentidos mobilizados pelos agentes históricos sob escrutínio. Dessa forma, o primeiro passo foi determinar o campo semântico do que se entende por “pobre” na documentação em análise. Esse termo, em língua portuguesa moderna, pode ser traduzido de diversas formas segundo os mais variados dicionários e léxicos de língua latina, linguagem na qual foi redigida a documentação (Friedemann; Koch, 1860; Gaffiot, 1981; Mollat, 1974, 1976; Ramshorn; Lieber, 1841). Definiu-se um conjunto de 191 palavras e expressões em latim que se relacionam, de alguma forma, ao tema do pobre e da pobreza no período referenciado. Além dos substantivos comuns (pauper, egens, inops, mendicus, miser e seus derivados como pauperrimus), palavras e/ou expressões como orph(f)anus, vidua, fames, dives, decima, solidus, oppressio, entre outras, também compõem o campo.
Estabelecidas as palavras de interesse, o próximo passo foi buscar os termos nos documentos. A ferramenta utilizada foi a Electronic Monumenta Germaniae Historica (eMGH). A eMGH é um mecanismo de busca online que procura e identifica itens, correspondentes a palavras-chave ou caracteres especificados pelo usuário, num banco de dados composto pelos documentos editados na coleção Monumenta Germaniae Historica (MGH). Ela é mantida pela editora Brepols e seu acesso é pago.
Como resultado, pesquisas de caráter lexical nos documentos suportados pelo buscador eMGH são muito mais otimizadas em tempo e precisão, já que ele oferece recursos de pesquisa bastante refinados, como operadores booleanos, de proximidade ou caracteres-curinga, por exemplo. A figura abaixo ilustra o que falamos:
Na Figura 1 acima, temos um screenshot da página de pesquisa do eMGH. Nela é possível ver os filtros de pesquisa (por período, autor, título da obra, século ou coleção). No quadro de pesquisa, encontra-se a fórmula utilizada para a busca em si, que foi feita levando em conta as palavras-forma (word-forms), ou seja, a maneira pela qual o texto dos MGH foi codificado na plataforma.
Dessas operações, resulta a figura a abaixo:
A Figura 2 apresenta como são mostrados os resultados da pesquisa lexical sobre pauper na plataforma eMGH. Indica-se a quantidade de sentenças (sententiae) em que a palavra ocorre, o documento específico (com sua referência básica) onde isso acontece e o destaque da palavra em si. Como foi frisado anteriormente, a ferramenta traz um considerável avanço para pesquisas lexicais desse tipo, tendo em vista que outros meios, como a versão digitalizada da MGH (Digitalen Monumenta Germaniae Historica, dMGH), apresentam opções de busca nativas bastante limitadas1. Após a busca, os resultados foram exportados para documentos em formato PDF.
: Página de resultados da pesquisa sobre pauper na coleção Capitularia regum Francorum da eMGH
O levantamento e a coleta das ocorrências dos termos que fazem referência aos temas do “pobre” e da “pobreza” nos documentos alto-medievais presentes na coleção Monumenta Germaniae Historica (MGH), por meio do acesso ao motor de pesquisa eMGH, contou mais de 33.500 ocorrências em cerca de 500 documentos diferentes. Como a análise do volume de dados mostrou-se inexequível para o cronograma da pesquisa à época, optamos por priorizar os substantivos latinos diretamente ligados ao termo “pobre”, como pauper, egens, inops e mendicus, totalizando 2.514 ocorrências nos MGH — das quais 1.773 são do termo pauper e suas declinações, 355 do termo egens e suas declinações, 320 do termo inops e suas declinações e 66 do termo mendicus e suas declinações. Com os dados em mãos, o próximo passo foi tabulá-los. Processo que abordaremos no próximo tópico.
B. A ELABORAÇÃO DO BANCO DE DADOS E SUA PUBLICAÇÃO EM FORMATO PÚBLICO
A codificação de informações históricas em tabelas é um enorme desafio. Isso porque a simplificação de um dado a ponto de reduzi-lo a uma célula de planilha implica em uma série de reflexões e escolhas teóricas, metodológicas e epistêmicas. Em última instância, elaborar um banco de dados em História significa racionalizar o processo de análise a ponto de fazê-lo caber num registro de tabela. Ao fim e ao cabo, uma base de dados em História é a codificação dos processos (no caso, históricos) de modo organizado, que permita sua consulta, análise e comparação otimizada em tempo, espaço e manuseio.
Seguindo uma discussão muito bem elaborada e desenvolvida por Tiago Gil (2021), optamos por um banco de dados orientado pelos documentos. Estes são, afinal, a base da produção de conhecimento histórico e, dentro da nossa acepção, a chave para a compreensão da semântica sobre a pobreza no Ocidente europeu continental entre os séculos VI e IX.Os dados obtidos nos documentos editados na coleção Monumenta Germaniae Historica, seguindo a metodologia exposta anteriormente, foram tabulados em planilhas conforme a Figura 3 abaixo:
Na Figura 3 temos um screenshot do banco de dados que serviu de base tanto para a publicação na plataforma pública online quanto como referência para utilização no programa PaupeR (sobre o qual se falará mais adiante). O banco de dados em formato de planilha foi dividido em duas páginas: “Data”, onde estão codificados os dados da documentação obtidos através do motor de busca eMGH, e “Lexicon”, uma ferramenta desenvolvida que auxiliou no funcionamento do programa PaupeR. A página “Data” apresenta 16 colunas: ID, Divisão MGH, Conjunto documental, Subconjunto documental, Livro, Número do documento, Página, Tipo documental 1, Tipo documental 2, Tipo documental 3, Sujeito associado 1, Sujeito associado 2, Ano início, Ano fim, Região associada e Citação. Onde:
-
“ID” corresponde à identificação da entrada no banco de dados;
-
“Divisão MGH” corresponde à divisão dos MGH à qual pertence a entrada;
-
“Conjunto documental” corresponde ao conjunto documental, dentro dos MGH, ao qual pertence a entrada;
-
“Subconjunto documental” corresponde ao subconjunto documental, dentro dos MGH, ao qual pertence a entrada;
-
“Livro” corresponde, dentro dos MGH, ao livro ao qual pertence a entrada;
-
“Página” corresponde à página à qual pertence a entrada nos MGH;
-
“Tipo documental” e seus níveis (1, 2 e 3), corresponde ao tipo de documento ao qual pertence a entrada, tomando como referência as classificações consolidadas pela historiografia moderna (por exemplo, “lei”, “ata conciliar”, “carta”, “poema”, “biografia”, “capitular”, entre outros). Grosso modo, trata-se de uma tentativa de precisar o gênero em que o documento se encaixa;
-
“Sujeito associado” e seus níveis (1 e 2) busca designar os sujeitos associados à elaboração do documento, quer seja seu autor, quer seja sob sua responsabilidade ou autoridade (por exemplo, um determinado rei ou bispo). Os valores atribuídos ocorrem somente quando a associação é evidente e aceita pela historiografia.
-
“Ano início” e “Ano fim” correspondem ao período em que o documento, e assim a entrada correspondente, foi elaborado. Os valores somente são atribuídos quando há evidência historiográfica a respeito.
-
“Região associada” corresponde à localidade (quando possível de ser determinada) de origem do documento;
-
“Citação” corresponde ao trecho textual, provindo dos MGH, em que se encontra a menção à palavra-chave no documento. No caso do exemplo, trata-se da palavra “pauper”.
Vê-se que, com exceção das colunas “ID” e “Citação”, as outras correspondem essencialmente aos metadados da documentação. Isso foi importante tanto para a publicação e disponibilização das informações para o público, na medida que o informa sobre os documentos em questão, quanto para a análise dos dados no programa “PaupeR”. Na página “Lexicon” da planilha estão os termos que foram mapeados no programa PaupeR, conforme a figura abaixo:
O “Lexicon”, demonstrado na Figura 4, foi dividido em 15 colunas: Termo, Declinação, Classificação 1, Classificação 2, Masculino, Feminino, Neutro, Singular, Plural, Caso nom., Caso gen., Caso dat., Caso ac., Caso abl., Caso voc., em que:
-
“Termo” corresponde ao termo a ser buscado na entrada “Citação”, na página “Data” do mesmo arquivo de planilha;
-
“Declinação” corresponde à declinação do termo em língua latina (de 1 a 5);
-
“Classificação” (1 e 2) corresponde à classificação gramatical do termo, se substantivo, adjetivo, comparativo etc.
-
“Masculino”, “Feminino” e “Neutro” correspondem ao gênero do termo;
-
“Singular” e “Plural” correspondem ao número do termo;
-
“Caso” (nom., gen., dat., ac., abl. e voc.) corresponde ao caso do termo em língua latina.
Elaborou-se uma planilha para cada divisão dos MGH analisados (a saber, Antiquitates, Diplomata, Epistolae, Leges, Scriptores), bem como para outros termos escolhidos para análise (a saber, egens, inops e mendicus) com as mesmas orientações expostas acima.
Essas duas etapas foram as que mais demandaram trabalho na pesquisa. Foram consumidos dois anos de trabalho individual desde a coleta dos dados e sua conversão em formato manipulável à elaboração do banco de dados (que passou por diversas formas antes de encontrar o formato aqui apresentado) e sua publicação. Hoje, com a estrutura já consolidada e um treinamento adequado no fluxo de processos, tais esforços podem ser replicados sem uma demanda tão grande de tempo.
Um dos compromissos assumidos na proposição da pesquisa foi o compartilhamento dos dados gerados por ela. Isso porque partimos da constatação de que: 1) a pesquisa em rede é uma necessidade cada vez mais urgente, ou seja, uma parte importante desse processo é que os pesquisadores consigam colaborar uns com os outros para avançar ou alargar seus respectivos campos científicos e fazer uso de dados gerados em suas pesquisas individuais, além de, se possível, compartilhá-los; 2) os dados coletados na pesquisa desenvolvida eram originários de documentos históricos em domínio público, fruto do esforço de diversas instituições para sua digitalização e divulgação. Sendo assim, nada mais óbvio do que tornar os dados gerados na pesquisa também públicos.
Tornar os dados públicos, no entanto, não é uma coisa simples. Há ferramentas online desenhadas especificamente para a gestão e compartilhamento de dados científicos, como o DMPTool (https://dmptool.org/) e o Zenodo (https://zenodo.org/). Todavia, elas não oferecem os recursos almejados para a realização do nosso projeto. Mais do que os dados crus, a intenção foi possibilitar que os pesquisadores interessados no tema da pobreza na Alta Idade Média pudessem explorar as informações geradas. Assim, optou-se pela publicação online dos dados da pesquisa. Esse processo ocorreu de dois jeitos: o primeiro, com o banco de dados apresentado no item “B” em seu formato final, isto é, com todas as informações reunidas e consolidadas numa única página, e o segundo, em um repositório público com todos os dados gerados durante a pesquisa.
O banco de dados sobre os termos utilizados para designar a pobreza entre os séculos VI e IX está disponível no seguinte endereço eletrônico: https://thirisi.github.io/Projeto-PaupeR/. Após a página de apresentação, com informações sucintas sobre o banco de dados, seus realizadores e financiadores, o usuário é redirecionado para a página do banco de dados propriamente dita, cujo frontispício é reproduzido abaixo:
Esse banco abriga todos os dados gerados pela pesquisa, isto é, as 2.514 ocorrências concernentes aos termos-chave em língua latina da semântica da pobreza nos documentos medievais selecionados: pauper, egens, inops e mendicus. Uma vez que a navegação por todo esse volume de dados se mostraria difícil, optou-se por criar filtros, localizados na parte superior da página, que ajudam ao usuário a refinar sua busca. Eles operam de maneira independente ou articuladas entre si, e tomam como referência as categorias estabelecidas nas planilhas do banco de dados, à exceção de duas: “palavra-chave” e “lema”. “Palavra-chave” faz uma busca pelo termo exato escrito pelo usuário nos trechos documentais das ocorrências hospedadas no site. “Lema” busca por todas as ocorrências em que se encontram os termos-chave, independente da declinação utilizada (por exemplo, uma busca pelo lema “pauper” retorna as ocorrências das formas pauper, pauperum, pauperes, pauperibus e assim por diante). Infelizmente não foi possível incluir outros filtros por uma questão de espaço e funcionalidade da página.
Pensando na funcionalidade, incluiu-se a possibilidade de exportar o conteúdo selecionado pelo usuário em formato .CSV e .JSON, formatos usados tanto por editor de planilhas quanto por operadores de linguagem JavaScript. Essa funcionalidade visou uma maior capacidade de manipulação dos dados pelos interessados, uma vez que eles potencialmente podem ser utilizados de outras formas (por exemplo, implementados num outro site).
A segunda forma de publicação dos dados de modo público foi a criação de um repositório com essa finalidade no GitHub, uma plataforma de hospedagem de códigos-fonte e arquivos. Optou-se por essa solução por ela oferecer não só a possibilidade da hospedagem gratuita, mas funcionalidades de navegação não encontradas em outras plataformas, como as já citadas DMPTool, Zenodo ou mesmo drives virtuais de armazenamento em nuvem como Google Drive, Dropbox ou OneDrive. Destaca-se também, entre as funcionalidades oferecidas pelo GitHub, a possibilidade de outros usuários copiarem o conteúdo do repositório (através da opção “Fork” do site). O endereço eletrônico do repositório é: https://github.com/thirisi/Projeto-PaupeR, cuja página inicial é reproduzida abaixo:
O repositório estrutura-se de maneira semelhante a um diretório de sistema informático, com os dados organizados por pastas segundo seus assuntos:
-
Em “Documentos Históricos” estão os documentos históricos do período medieval utilizados como base para a coleta de dados do PaupeR;
-
Em “Banco de dados” estão os dados tabulados do projeto em formatos .XLSX, .MD e .CSV à semelhança do que foi apresentado no item “A”;
-
Em “Programa PaupeR” encontra-se o programa PaupeR para linguagem R;
-
Os dados são completamente acessíveis por qualquer um com o link indicado acima.
-
C. Elaboração do programa Pauper em linguagem de programação R
Feita a coleta das informações históricas nos documentos e a sua codificação em planilhas, o próximo passo foi justamente encontrar uma forma de articular esse grande volume de dados. A opção foi automatizar esse processo o máximo possível, especialmente considerando o tempo restrito de execução da pesquisa. Para isso, estabelecemos dois princípios norteadores: 1) a coleta e classificação dos termos que aparecem na documentação e, dado o ineditismo quanto ao volume de informações, 2) recursos que permitissem a análise dos dados, especialmente quando observados em conjunto.
Entre as diversas linguagens de programação existentes, duas destacaram-se para nosso interesse: Python e R. Além de serem adequadas ao nosso propósito, ambas são linguagens gratuitas, com bastante popularidade (e, por consequência, suporte nos mais diversos canais, como tutoriais escritos, em vídeo, cursos dedicados, entre outros) e com vastas bibliotecas de funcionalidades complementares. Após a participação no KBR-ULB-UGent Digital Heritage Seminar, organizado pela Ghent University em outubro de 2020, e conversa com o professor Nicolas Perreaux (LaMOP - Université de Paris 1 Panthéon-Sorbonne), optamos pela linguagem R devido à biblioteca de visualização de dados dessa linguagem, muito utilizada em estudos matemáticos e estatísticos. Isso não invalidaria, obviamente, uma escolha da linguagem Python. Hoje, de fato, talvez optaria por ela. Os avanços das funcionalidades desenvolvidas para essa linguagem são notáveis, colocando-a quase em pé de igualdade com a linguagem R, além de possuir um atributo que se destaca: Python é muito mais amigável em ser executada online, diferente de R, que necessita ser instalada numa máquina, mesmo que virtual. Além disso, do ponto de vista profissional, a capacitação em Python é muito mais proveitosa, uma vez que possui uma biblioteca bastante diversa, enquanto R é uma linguagem poderosa, mas de nicho.2
Por questão de espaço, não incluiremos o código do programa desenvolvido, nomeado de PaupeR, neste artigo. A esse respeito, cabe frisar a importante contribuição de Márcio Augusto Diniz, Associate Professor do Department of Population Health Science and Policy da Icahn School of Medicine em Mount Sinai (Nova Iorque/EUA), na redação e ajustes desse código, dada sua expertise na área de análise estatística. De toda forma, ele está disponível no repositório virtual do GitHub indicado anteriormente. A função do programa foi extrair as informações apresentadas nos bancos de dados (conforme apresentados acima, nas Figuras 3 e 4) e, a partir disso, gerar tabulações consolidadas dos dados, vinculando as informações das páginas “Data” e “Lexicon”. Tal processo tomou a seguinte forma:
Como demonstrado na Figura 7, o PaupeR lê o banco de dados e busca, nas ocorrências ali existentes, o “match” entre as páginas “Data” e “Lexicon”, formando, assim, uma nova tabela com todos os dados vinculados a partir do texto histórico tal como encontrado no campo “Citação”, da página “Data”. Temos uma quantificação, então, de todas as ocorrências dos termos objeto de análise — lembrando que pode haver mais de uma ocorrência por citação — encontrados no banco de dados, com precisão de datação, sujeitos envolvidos, documento, além das informações lexicais, como o caso do termo, palavras próximas e classificação linguística. Com isso, ao considerar a totalidade do seu conjunto, é possível explorar os dados de novas maneiras, gerando novas visualizações de suas correlações e alargando as possibilidades de interpretação desses dados de maneira inédita para a historiografia. Esperamos, assim, contribuir para o avanço do entendimento linguístico e histórico da pobreza nos documentos editados nos MGH e datados entre os séculos VI e IX.
Uma das vantagens do programa PaupeR em relação a outras ferramentas de representação do texto em formato digital é que, com os pacotes utilizados (especialmente o tokenizers e o tidyverse), é possível rodar nele qualquer texto em formato de arquivo de texto. Ou seja, o PaupeR é independente de codificações específicas, como aquelas utilizadas pelo Text Encoding Initiative (TEI) — que limita os documentos passíveis de serem utilizados. Assim, uma vez codificado em arquivo de texto, ou seja, transcrito em formato .DOCX, .XLSX, .TXT, .CSV ou outro, qualquer documento histórico (e não somente restrito ao período medieval) pode ser rodado no Programa PaupeR e aproveitar de suas funcionalidades.
A articulação entre o campo das ciências humanas, especificamente da História e da informática, está se configurando como uma necessidade crescente, já que volumes e volumes de informações históricas vêm sendo, cada vez mais, disponibilizadas na internet graças aos esforços institucionais pela digitalização de documentos e sua disponibilização para o público. Dessa forma, a elaboração de ferramentas capazes de lidar com essa grande quantidade de dados inscreve-se na ordem do dia para os pesquisadores, inclusive porque esses recursos têm grande potencial de alargar a compreensão das informações históricas. Por exemplo, a concentração, dispersão ou, ainda, a uniformidade da distribuição dos dados analisados em diferentes escalas (como, por exemplo, espacial, temporal, lexical) podem resultar em novas interpretações sobre sua natureza e função. Nesse sentido, as ferramentas desenvolvidas durante nossa pesquisa demonstram, na prática, a concretização de tais premissas. Vejamos os exemplos abaixo:
Na Figura 8, vemos que, das palavras-forma, pauper é a que aparece mais frequentemente nos documentos analisados. Tal fato demonstra a preponderância do termo para se pensar a pobreza no período em que os registros foram redigidos. Em outras palavras, ler, interpretar, analisar e comparar o termo pauper é incontornável para qualquer reflexão sobre a pobreza no período alto-medieval.
Já a Figura 9 apresenta as ocorrências dos termos analisados por seção dos MGH. A seção Scriptores apresenta o maior número de ocorrências, seguida pela seção Leges e Antiquitates. A compreensão da natureza dessas seções ajudará na compreensão da maneira como os documentos do período registraram o tema da pobreza entre os séculos VI e IX: por exemplo, o fato da seção Leges abrigar majoritariamente textos normativos indicaria uma tentativa de regulação da pobreza?
O conjunto de gráficos que aparecem na Figura 10 apresenta as ocorrências de palavras-forma por seção dos MGH. A palavra “pauper” apresenta preponderância de ocorrências como já discutido anteriormente. A ausência da palavra-forma “mendicus” na seção Diplomata é fato a se notar. Tal constatação denota um sentido específico do uso desse termo, a ponto de não ocorrer em textos considerados “contratuais”?
A distribuição dos termos também é outra questão que chama a atenção. A palavra-forma pauper é preponderante em todos os conjuntos documentais, com egens e inops se revezando como segundo ou terceiro colocados em número de ocorrências. No entanto, embora a palavra-forma egens seja a segunda mais frequente na documentação, somente na seção Antiquitates e Scriptores isso se confirma. Nas seções Diplomata, Epistolae e Leges, esse lugar é ocupado pela palavra-forma inops. A preponderância de inops em documentos de ordem normativa, como os conjuntos de leis e diplomas, representaria algum sentido específico? Já a preponderância de egens junto à seção Antiquitates, que abriga, entre outras coisas, os poemas dos tempos carolíngios e otonianos, representaria a presença dos modelos poéticos da Antiguidade, referência para as cortes carolíngia e otoniana?
A Figura 11 apresenta um novo tipo de informação: a quantidade de ocorrências das palavras-forma por região associada. No último gráfico, que contém as cinco localidades mais citadas na documentação, fica clara a associação da frequência às regiões onde ocorreram concílios (por exemplo, os 5 concílios de 813) — com a observação de que os capitulares, textos normativos expedidos pelos príncipes francos (Silva, 2020), em algumas ocasiões estão associados também ao palácio de Aachen. Tours e Reims também merecem destaque, uma vez que são locais associados a dois prolíficos autores dos séculos VIII e IX: Alcuíno e Incmaro de Reims. Essa questão pode ser ainda mais aprofundada na figura seguinte.
Na Figura 12 apresentam-se as ocorrências das palavras-forma por sujeito associado, isto é, os sujeitos associados à elaboração do documento do qual foi tirada a ocorrência, quer seja seu autor, quer seja sob sua responsabilidade ou autoridade (por exemplo, um determinado rei ou bispo). Carlos Magno (r. 768 - 814) e Luís o Piedoso (r. 814 - 840) aparecem como as autoridades francas mais frequentemente associadas às ocorrências das palavras do campo semântico da pobreza. Mas, como frisado acerca do gráfico anterior (Figura 12), outros sujeitos destacam-se, como Alcuíno e Incmaro de Reims. Ou seja, para conhecer como os pobres e a pobreza eram entendidos nos séculos VIII e IX, é importante visitar as obras atribuídas aos dois autores. O rei merovíngio Dagoberto I (r. 629 - 634) destaca-se não só pela presença das palavras-forma em seus diplomas, mas também pela Gesta sobre esse rei.
O fato de estarmos trabalhando com a linguagem R, uma linguagem voltada para a análise estatística, permite que utilizemos a biblioteca dessa linguagem para explorar os dados de forma mais complexa, gerando, inclusive, novas visualizações da sua totalidade. Um exemplo pode ser demonstrado na Figura 13 abaixo:
Observe a rede de associações entre todos os dados do projeto PaupeR. Essa visualização foi elaborada com os pacotes igraph (Csardi; Nepusz, 2006), dplyr (Wickham et al., 2021), tidyverse (Wickham et al., 2019), ggplot2 (Wickham, 2016), ggraph (Pedersen, 2021). Cada círculo indica uma categoria, e cada conexão uma quantidade de coocorrências. Já as cores mostram as diferentes comunidades identificadas, isto é, grupamentos com conexões mais fortes entre si.4 O tamanho de cada círculo é proporcional à sua intermediação, ou seja, à sua importância enquanto conector de outras categorias. As 100 categorias de maior intermediação estão nomeadas, com nomes também proporcionais à intermediação.
Os termos pauperum, pauperes, pauperibus, pauper e inopia estão entre as categorias mais bem conectadas, demonstrando que estão entre os termos mais utilizados na documentação. Também podemos observar que eles estão em comunidades diferentes, sugerindo que cada um deles tem sua própria “comunidade contextual”. Por exemplo, o termo pauperum tem grande associação com os tipos documentais “Diploma” e “Capitular” (comunidade azul na imagem 16), enquanto pauperibus (amarelo) está associado com o tipo documental “Narrativo”, pauper (marrom) com “Poesia” e inopia (roxo) com “Carta”. Esse mapeamento é útil para direcionar os esforços na compreensão da pobreza entre os séculos VI e IX, na medida em que direciona para certos tipos documentais o entendimento de termos específicos.
Também é possível observar termos de diferentes raízes sendo utilizados em contextos próximos, como inopia e pauperis (roxo), ou pauper e inops (marrom). Isso demonstra uma proximidade semântica entre ambos, já que coocorrem em diversos conjuntos documentais. O termo pauperes apresenta uma característica especial. Ele tem um contexto bem próprio e pequeno (sinalizado pela cor vermelha na Imagem 16), mas que se comunica bastante com outras comunidades da nuvem. A alta intermediação de pauperes (tamanho), apesar da pequena comunidade, sugere que sua comunidade (ou “contexto associado”) é bem própria do termo, mas, ao mesmo tempo, pauperes é utilizado em outros contextos, nos quais outros termos são utilizados. O termo egens e suas derivações, que aparecem entre os 100 mais conectados, ocupam a mesma comunidade de pauper, inops, inopes, egenus e mendicus, todos próximos ao tipo documental “Poesia”.
Ainda sobre tipos documentais, as comunidades amarela (Narrativo), marrom (Poesia) e roxa (Carta) parecem ser as com maior diversidade de termos, enquanto a comunidade azul (Diploma), com o termo de maior centralidade, pauperum, tem menor diversidade de palavras-forma. Em outras palavras, no tipo documental “Diploma” a palavra pauperum é utilizada praticamente de maneira exclusiva. O fato de tal documentação tratar, em muitas ocasiões, da transmissão (venda, compra, troca, doação) de bens (fundiários ou materiais), implica o uso do genitivo plural pauperum, que pode ser traduzido para o português como “dos pobres”? É uma questão pertinente para verificação.
As redes isoladas também demonstram as relações entre os dados gerados na pesquisa. Vejamos o exemplo abaixo:
Essa rede, demonstrada na Figura 14 e cujo epicentro é o tipo documental “Carta”, demonstra as palavras-forma associadas a esse tipo documental e também sujeitos, anos e regiões associadas a ele. Vê-se que autores como Paulino de Aquileia, Lupo de Ferrières, Alcuíno e Frotário de Toul foram proeminentes no uso das palavras pauper, pauperis e inopia em suas missivas, demonstrando que têm profunda importância na reflexão sobre a pobreza no período recortado pela pesquisa desenvolvida. Tais exemplos estão longe de esgotar o tema. De fato, o material coletado abre caminhos de pesquisa a serem explorados por diversas iniciativas. Por exemplo: é possível que Teodulfo de Orleães (m. c. 820) tivesse um entendimento particular da pobreza em suas poesias? Como isso se compara aos seus outros escritos? E a outros autores contemporâneos, como Alcuíno?
Conclui-se, assim, que o potencial de investigação oriundo de ferramentas como as desenvolvidas e demonstradas neste artigo são grandes, tendo capacidade de gerar impacto imediato nas reflexões sobre o tema da pobreza entre os séculos VI e IX. Além disso, um dos produtos do projeto realizado, o programa PaupeR, pode ser utilizado por outros pesquisadores para geração de seus próprios bancos de dados, a partir dos documentos de seu interesse, e, assim, contribuir para o avanço dos estudos medievais na comunidade científica brasileira e alhures.
Em síntese, trata-se de uma nova maneira de pensar o trato das informações históricas. Mais do que textos, objetos arqueológicos ou iconográficos são, também, dados. Como tal, podem (e devem!) assim ser explorados. Em outras palavras, pode-se tirar proveito das novas ferramentas informáticas para alargar nossa compreensão sobre temas da História Medieval, em análises que, antes da volumosa digitalização de documentos, era praticamente impossível. É pensar a História (e a História Medieval) como Ciência de Dados.
REFERÊNCIAS
-
BLONDEL, Vincent D., GUILLAUME, Jean-Loup., LAMBIOTTE, Renaud, LEFEBVRE, Etienne. Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, v. 10, n. 2008. Disponível em: https://doi.org/10.1088/1742-5468/2008/10/P10008 Acesso em: 31 mar. 2024.
» https://doi.org/10.1088/1742-5468/2008/10/P10008 - CSARDI, Gabor; NEPUSZ, Tamas. The igraph software package for complex network research. InterJournal, Complex Systems, n. 16952006.
-
DIGITALEN Monumenta Germaniae Historica (dMGH). Munich, ALE: Monumenta Germaniae Historica - Grundlagen Forschung Mittelalter, 2024. Disponível em: www.dmgh.de Acesso em: 31 mar. 2024.
» www.dmgh.de - ELETRONIC Monumenta Germaniae Historica (eMGH). Turnhout, BEL: Brepols, 2024. programa de computador (software).
- FRIEDEMANN, F.; KOCH, Georg A. Gradus ad Parnassum sive thesaurus latinae linguae poeticus et prosodiacus. Hildesheim, ALE: s/ed., 1860.
- GAFFIOT, Félix. Dictionnaire latin-français. Paris: Hachette, 1981.
- GIL, Tiago. Como se faz um banco de dados (em História). Porto Alegre, RS: Ladeira Livros, 2021.
- HAUGHTON, Jonathan; KHANDKER, Shahidur R. Handbook on Poverty and Inequality, Washington, USA: World Bank, 2009. p. 9-38.
- MOLLAT, Michel. Études sur l'histoire de la pauvreté (Moyen Âge - XVI siècle). Paris: Publications de la Sorbonne, 1974.
- MOLLAT, Michel. Les pauvres au Moyen Âge Paris: Hachette, 1976.
-
PEDERSEN, Tomas L. Ggraph: An Implementation of Grammar of Graphics for Graphs and Networks. versão de pacote 2.0.5., 2021. programa de computador. Disponível em: https://CRAN.R-project.org/package=ggraph Acesso em: 31 mar. 2024.
» https://CRAN.R-project.org/package=ggraph - RAMSHORN, Ludwig; LIEBER, Francis. Dictionary of Latin Synonymes: For the Use of Schools and Private Students. Boston, USA: s/ed., 1841.
- RIBEIRO DA SILVA, Thiago Juarez Os capitulares reais, séculos VI a IX: Produção, codificação, transmissão e recepção. SIGNUM - REVISTA DA ABREM, v. 21, p. 45-63, 2020.
- RSTUDIO. Boston: Posit Software, 2024. programa de computador (software).
-
WICKHAM, H. ggplot2: Elegant Graphics for Data Analysis. New York: Spring-Verlag, 2016. Disponível em: https://ggplot2.tidyverse.org Acesso em: 31 mar. 2024.
» https://ggplot2.tidyverse.org -
WICKHAM, H. et al. Welcome to the tidyverse. Journal of Open Source Software, v. 4, n. 43, p. 1686, 2019,. Disponível em: https://doi.org/10.21105/joss.01686 Acesso em: 31 mar. 2024.
» https://doi.org/10.21105/joss.01686 - WICKHAM, H. et al. Dplyr: A Grammar of Data Manipulation. R package version 1.0.7. 2021. programa de computador.
-
ZALORENSSI, Gustavo. Como o Nexo usa o R para visualização de dados. Jornal Nexo. 8 set. 2023. Disponível em: https://www.nexojornal.com.br/grafico/2023/09/08/Como-o-Nexo-usa-o-R-para-visualiza%C3%A7% C3%A3o-de-dados Acesso em: 31 mar. 2024.
» https://www.nexojornal.com.br/grafico/2023/09/08/Como-o-Nexo-usa-o-R-para-visualiza%C3%A7% C3%A3o-de-dados
-
1
Em que pese a importância da dMGH, a versão digitalizada da Monumenta Germaniae Historica, disponibilizada online pela Sociedade Alemã de Pesquisa (DFG) em parceria com a Biblioteca Nacional da Baviera e, por isso, instrumento imprescindível para a pesquisa de qualquer um que se aventure pelos documentos da Europa continental datados do final do Império Romano do Ocidente ao ano 1500, sua ferramenta de busca nativa é pouco mais otimizada do que aquela realizada de maneira manual. Nela, para realizar uma pesquisa lexical como imaginamos, é necessário buscar a palavra em língua latina caso a caso, estimando possíveis formas que poderia ter tomado na documentação – o que, pelo rigor metodológico esperado, é inviável, já que existiria a possibilidade de deixar passar alguma forma não considerada. Além disso, a apresentação dos resultados é pouco intuitiva e confiável, já que o motor de buscas da dMGH se baseia na proximidade dos caracteres buscados e aqueles encontrados no banco de dados da plataforma. A dMGH está disponível em: http://www.dmgh.de/. Acesso em: 16 abr. 2024.
-
2
O que não é necessariamente um defeito. Em publicação recente, Gustavo Zalorenssi explica, por exemplo, como o jornal Nexo utiliza R para a visualização de dados. Ver (Zalorenssi, 2023).
-
3
As 2.514 entradas de dados foram filtradas, excluindo entradas com valor “NA” em qualquer variável de interesse. O banco de dados final teve 1.401 entradas com as variáveis: “Tipo de Documento”, “Sujeito Associado”, “Região Associada”, “Termo”, “Ano Início” e “Ano Fim”. Acerca dessas categorias, veja o item “B” acima.
-
4
As cores foram identificadas pelo algoritmo de Louvain. Este é um algoritmo que tenta identificar agrupamentos de nodos altamente interativos a partir da maximização da modularidade, uma métrica que captura a compartimentalização da rede em agrupamentos, calculando o quanto as interações dentro desses agrupamentos é maior que as interações entre o agrupamento e o resto da rede. O algoritmo Louvain começa com cada nodo isolado em sua comunidade, e começa a usar as conexões da rede aleatoriamente e a medir sua modularidade. Se ela aumenta, as categorias conectadas são colocadas na mesma comunidade, se diminui, não. E isso ocorre até que a modularidade não aumente mais. Acerca do algoritmo de Louvain, cf. Blondel et al., 2018.
-
FINANCIAMENTO:
Esta pesquisa foi financiada pela Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), processo no. 2018/11355-8.
-
Editor responsável:
Ely Bergo de Carvalho
Datas de Publicação
-
Publicação nesta coleção
21 Fev 2025 -
Data do Fascículo
2025
Histórico
-
Recebido
16 Abr 2024 -
Revisado
1 Out 2024 -
Aceito
16 Set 2024















Fonte: Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte: https://thirisi.github.io/Projeto-PaupeR/. Acesso em: 16 abr. 2024.
Fonte: Disponível em: https://github.com/thirisi/Projeto-PaupeR. Acesso em: 1 out. 2024.
Fonte: Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte Arquivo pessoal.
Fonte: Arquivo pessoal.
Fonte Arquivo pessoal.
Fonte Arquivo pessoal.
Fonte Arquivo pessoal.