Acessibilidade / Reportar erro

Apresentando o COPA-TRAD Versão 2.0. Um sistema com base em corpus paralelo para pesquisa, ensino e prática da tradução

Introducing COPA-TRAD Version 2.0. A Parallel Corpus-Based System for Translation Research, Teaching and Practice

Resumo

Este artigo apresenta o COPA-TRAD Versão 2.0, um sistema com base em corpus paralelo desenvolvido na Universidade Federal de Santa Catarina (UFSC) para a pesquisa, ensino e prática da tradução. O COPA-TRAD permite que o usuário investigue as práticas de tradutores profissionais por meio da identificação de padrões tradutórios relacionados a um determinado elemento ou padrão linguístico. Além disso, o sistema permite a comparação entre a tradução humana e a tradução automática fornecida por serviços amplamente conhecidos na Internet (Google Translate, Microsoft Translator e Yandex). Atualmente, o COPA-TRAD prevê cinco subcorpora (Literatura Infantojuvenil, Textos Literários, Metadiscurso em Tradução, Legendas e Textos Jurídicos) e disponibiliza as seguintes ferramentas: concordanciador paralelo, concordanciador monolíngue, lista de palavras e, uma DIY Tool[,] que permite ao usuário criar seu próprio corpus descartável. O sistema apresenta também uma interface que oferece uma ferramenta de POS-tagging que analisa e classifica as categorias gramaticais de um texto.

Palavras-chave:
Tradução; Corpus paralelo; Sistema COPA-TRAD

Abstract

This paper describes COPA-TRAD Version 2.0, a parallel corpus-based system developed at the Universidade Federal de Santa Catarina (UFSC) for translation research, teaching and practice. COPA-TRAD enables the user to investigate the practices of professional translators by identifying translational patterns related to a particular element or linguistic pattern. In addition, the system allows for the comparison between human translation and automatic translation provided by three well-known machine translation systems available on the Internet (Google Translate, Microsoft Translator and Yandex). Currently, COPA-TRAD incorporates five subcorpora (Children's Literature, Literary Texts, Meta-Discourse in Translation, Subtitles and Legal Texts) and provides the following tools: parallel concordancer, monolingual concordancer, wordlist and a DIY Tool that enables the user to create his own parallel disposable corpus. The system also provides a POS-tagging tool interface to analyze and classify the parts of speech of a text.

Keywords:
Translation; Parallel Corpus; COPA-TRAD System

1. Introdução

O objetivo deste artigo é apresentar à comunidade acadêmica o Corpus Paralelo de Tradução (COPA-TRAD) Versão 2.0, um sistema computacional desenvolvido com vistas à pesquisa, ensino e prática da tradução. O COPA-TRAD V. 2.0 é um sistema online que utiliza um banco de dados com textos-fonte e suas respectivas traduções em até seis idiomas, a saber, português, alemão, espanhol, francês, inglês e italiano. O COPA-TRAD possibilita pesquisas do tipo bidirecional, permitindo selecionar a direção a partir da análise dos textos que será realizada, ou seja, a partir do texto fonte ou do texto traduzido nos seis idiomas mencionados. Além disso, é possível adicionar ao banco de dados mais de uma tradução para o mesmo texto fonte, o que possibilita a investigação de práticas tradutórias de um mesmo elemento ou padrão linguístico em diferentes períodos e contextos linguístico-culturais.

A ideia de criação do corpus surgiu a partir da pesquisa de doutoramento de Fernandes (2004FERNANDES, L. P. Practices of Translating Names in Children’s Fantasy Literature: A Corpus-based Study. Florianópolis, 2004. (Doutorado em Inglês e Linguística Aplicada) - Curso de Pós-Graduação em Inglês, Universidade Federal de Santa Catarina.), que para atingir seu objetivo geral de investigar as práticas associadas à tradução de nomes na literatura infanto-juvenil de fantasia em um período específico (2000-2003), compilou um corpus paralelo bilíngue (português-inglês) de aproximadamente 1.7 milhões de palavras para descrever tais práticas. A partir daí, o trabalho inicial de desenvolvimento do COPA-TRAD teve como responsável, na época, o doutorando Carlos Eduardo da Silva, especialista em engenharia e projetos de software, responsável pela criação de um sistema online para abrigar o corpus, incluindo banco de dados e ferramentas de busca. Houve também a participação de pesquisadores que desempenharam um papel importante na ampliação e melhoria do sistema. Dentre esses pesquisadores, podemos destacar Rossana Cunha, profissional na área de Tecnologia da Informação (TI) com formação em Letras Inglês e Ciência da Computação, e os professores Dr. Michael Toolan e Dr. Paul Thompson da Universidade de Birmingham, Reino Unido, que ofereceram suporte para o melhoramento de algumas das ferramentas do sistema COPA-TRAD. A parceria com os professores da Universidade de Birmingham se deu por meio do Programa Newton Fund Advanced Fellowship Scheme concedido pela British Academy1 1 https://www.thebritishacademy.ac.uk/funding/newton-advanced-fellowships em 2015.

O COPA-TRAD está registrado no Instituto Nacional de Propriedade Industrial (INPI) sob o protocolo de número 13281-6. O registro da versão 2.0 do COPA-TRAD foi publicado no ano de 2017 sob o número 001294-3. O sistema encontra-se hospedado no seguinte endereço eletrônico: copa-trad.ufsc.br e está disponível para toda a comunidade acadêmica e para o público em geral interessado no campo disciplinar Estudos da Tradução.

O desenvolvimento do sistema envolveu a pesquisa realizada em dois programas de pós-graduação, a saber: (i) Programa de Pós-Graduação em Estudos da Tradução (PPGET) e (ii) Programa de Pós-Graduação em Inglês (PPGI), ambos sob a égide do Departamento de Língua e Literatura Estrangeiras (DLLE) do Centro de Comunicação e Expressão (CCE) da Universidade Federal de Santa Catarina - UFSC. Além disso, o projeto de desenvolvimento do corpus participou do extinto University Research Program for Google Translate, que permitiu a inclusão do Google Translate em uma das ferramentas do sistema a fim de comparar a tradução humana extraída dos textos do corpus com a tradução automática gerada por este programa de tradução automática específico (Figura 1). O objetivo dessa comparação era fornecer subsídios para o aperfeiçoamento do Google Translate, um sistema de tradução automática com base em técnicas computacionais de Redes Neurais (Neural Machine Translation) que identifica padrões tradutórios em textos disponíveis online já traduzidos por tradutores humanos (WU et al., 2016WU, Y., SCHUSTER, M., CHEN, Z., LE, Q. V., NOROUZI, M., MACHEREY, W., & KLINGNER, J. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation, (p. 1-23). arXiv preprint arXiv:1609.08144.). Em um segundo momento novos sistemas de tradução automática foram incorporados no COPA-TRAD, a saber, Microsoft Translator e Yandex Translate. Dessa forma, é possível comparar traduções automáticas entre diferentes sistemas de tradução que utilizam abordagens e algoritmos de tradução diferentes (Figura 1).

Figura 1
Captura de tela da interface: COPA-TRAD e tradução automática

A partir dessa breve contextualização do cenário institucional no qual o sistema foi desenvolvido, partimos agora para as especificidades da compilação do COPA-TRAD que dividimos em três estágios principais, seguindo a proposta sugerida por Fernandes (2009FERNANDES, L. P. A Portal into the Unknown: Designing, Building, and Processing a Parallel Corpus. CTIS Occasional Papers, Vol. 4, pp. 16-36, 2009.): projeto, construção e processamento. Na fase do projeto do COPA-TRAD, levamos em consideração os seguintes atributos: objetivo de criação do corpus, tipo de corpus, seleção de textos, línguas envolvidas, direcionalidade, organização entre outros assuntos pertinentes ao projeto. Na fase de construção, descrevemos os passos utilizados na aplicação direta dos atributos utilizados na compilação do corpus eletrônico. Finalmente, na fase do processamento, apresentamos as ferramentas computacionais desenvolvidas para o processamento dos textos do COPA-TRAD e, consequentemente, os formatos de visualização dos dados gerados por essas ferramentas. Essas três fases são mais detalhadas a seguir.

2. Projeto do COPA-TRAD

Na primeira etapa do projeto foi estabelecido o objetivo de criar um corpus eletrônico que permitisse a investigação de práticas tradutórias associadas a vários elementos e padrões linguísticos que pudessem gerar desafios ao tradutor (e.g. nomes próprios, gírias, conjunções verba dicendi, padrões colocacionais e prosódia semântica). A partir desse objetivo inicial, pensamos em aproveitar os esforços que seriam despendidos na compilação do COPA-TRAD para ampliar esse objetivo inicial, incluindo outros tipos de textos e ferramentas que não focalizassem apenas na pesquisa, mas também no ensino e na prática da tradução.

Após essa etapa, partimos para a definição do tipo de corpus que melhor nos auxiliaria a atingir o objetivo proposto. Dentre os tipos possíveis, o corpus paralelo seria o mais indicado para a investigação de práticas tradutórias, pois, conforme Baker (1995BAKER, M. Corpora in Translation Studies. An Overview and Suggestions for Future Research. Target, 7(2). pp. 223-243, 1995.), um corpus paralelo permite que se estabeleça, de forma objetiva, como tradutores lidam com desafios tradutórios na prática da tradução. Essa etapa foi decisiva no desenvolvimento do COPA-TRAD, já que uma das suas principais aplicações é fornecer suporte para que o pesquisador possa investigar práticas tradutórias empregadas principalmente por tradutores profissionais, e com isso fomentar sua reflexão crítica sobre o ato de traduzir, a partir de uma perspectiva empírica.

Com relação à seleção de textos, adotamos uma abordagem em que todo texto incluído no corpus fosse completo e classificado conforme seu respectivo gênero textual dentro dos cinco subcorpora previstos (literatura infantojuvenil; textos literários, meta-discurso em tradução, traduções audiovisuais e textos jurídicos). Tendo em vista o fato de que o corpus é constituído em sua maioria de textos contemporâneos, optamos por manter duas abordagens de acesso aos textos do corpus: (i) abordagem pública em que o usuário tem acesso irrestrito a todos os textos em domínio público que compõem o corpus e a textos com direitos autorais, mas fragmentados; (ii) abordagem restrita em que somente pesquisadores registrados no sistema possuem acesso a todos os textos em domínio público ou não. Assim, o COPA-TRAD possui os seguintes níveis de acesso:

  • Administrador / Moderador - Os usuários que têm privilégios para gerenciar todo o corpus, executar os serviços de processamento e extração e alinhamento, além de moderar os textos submetidos por usuários com vistas a verificar se as informações fornecidas estão corretas e os textos devidamente alinhados. A comunicação entre usuário e moderador se dá por meio de e-mails que o próprio sistema gerencia de forma automática.

  • Usuário Pesquisador - Usuários do grupo de pesquisa TraCor2 2 Grupo de pesquisa Tradução e Corpora: http://www.tracor.ufsc.br (tracor.ufsc.br) e outros pesquisadores devidamente cadastrados no sistema. Esses usuários, possuem privilégios de acesso a todos os módulos, assim como submeter textos por meio de um painel específico e visualizar todos os textos do corpus incluindo os textos com direitos autorais, pois muitos desses textos são objetos de pesquisa de dissertações e teses. Esses usuários também podem enviar traduções adicionais para um texto já cadastrado e disponível no sistema.

  • Usuário Visitante - Demais usuários que possuem acesso às ferramentas de concordância e aos textos em domínio público ou que não possuem direitos autorais. Esses usuários podem acessar o sistema sem necessidade de identificação.

No que diz respeito às línguas envolvidas, atualmente, o COPA-TRAD focaliza os seis idiomas já mencionados, mas o sistema está apto a receber futuramente outras línguas que sejam de interesse do grupo de pesquisa TraCor. Com relação à direcionalidade dos textos, o sistema foi projetado para realizar buscas bidirecionais; ou seja, as buscas podem ser realizadas de originais para traduções e de traduções para traduções.

3. Construção do COPA-TRAD

Após a concepção de todo o projeto, a segunda etapa está relacionada à construção ou execução dos objetivos estabelecidos. Essa etapa pode ser dividida em duas partes, a saber: (i) análise e desenvolvimento técnico do sistema e (ii) compilação dos textos que compõem o corpus. Na parte de análise e desenvolvimento técnico, destacamos a modelagem e criação do banco de dados, o desenvolvimento do sistema, assim como a implementação dos algoritmos de processamento e a indexação do motor de buscas, que, em seguida, foi configurado no servidor em que está localizado o sistema principal do COPA-TRAD. Na parte de compilação dos textos, destacamos o tratamento dos textos e o processo de alinhamento.

3.1 Desenvolvimento técnico do sistema

O sistema foi desenvolvido integralmente online como uma aplicação na nuvem. Por isso, foi utilizada a linguagem de programação PHP na perspectiva do servidor (server side), e no lado do cliente (client side) foi adotada a tríade HTML5, JavaScript e CSS (3), para fornecer ao usuário uma interface mais intuitiva e de mais fácil usabilidade. A partir da perspectiva do servidor, o framework em PHP CodeIgniter3 3 O CodeIgniter é um projeto mantido pela British Columbia Institute of Technology e pode ser encontrado no endereço: https://www.codeigniter.com foi utilizado e personalizado para as necessidades do projeto, sendo todo o código de processamento do corpus construído no formato de bibliotecas complementares desse framework, facilitando, desse modo, a modularização do sistema. Nessa etapa, o banco de dados também foi modelado e posto em funcionamento (MySQL - MyISAM), assim como a configuração, organização dos índices e testes do motor de busca Sphinx4 4 http://sphinxsearch.com do COPA-TRAD. Isso foi necessário para manter uma maior autonomia de todas as requisições realizadas pelo COPA-TRAD, pois o sistema utiliza a tecnologia AJAX (Asynchronous Javascript and XML).

Os módulos de processamento, conforme relatado, foram construídos em um formato reutilizável de bibliotecas. Esses módulos dão suporte às tarefas de processamento, alinhamento e extração lexical dos textos enviados. O primeiro módulo a ser mencionado é o COPA ALIGNER, que é responsável por extrair os parágrafos dos arquivos texto e alinhá-los no banco de dados, criando uma relação de um para um (1:1) segmento do texto-fonte com segmento correspondente do texto-alvo. Caso não haja tradução para o segmento do texto-fonte, o espaço reservado para o segmento do texto-alvo fica vazio, indicando uma omissão. Como esse módulo pode ser ativado por um usuário administrador por meio do painel Web, há um recurso para continuar a execução da tarefa no servidor mesmo nos casos de o usuário administrador perder a conexão com a Internet ou fechar o navegador sem intenção de fazê-lo. Nessa etapa, características previamente cadastradas de cada texto, como nome do autor, idioma, variante do idioma, gênero dentre outras são relacionadas a cada unidade de alinhamento.

Antes da realização e identificação e extração, os tokens (palavras) candidatos passam por um processo de limpeza para a remoção de caracteres indesejados como, por exemplo, símbolos tipográficos de impressões ou de editores de textos. Depois da limpeza inicial, o primeiro módulo utilizado é o COPA-TOKENIZER, que consulta cada tupla da tabela de sentenças no banco de dados para realizar a extração das palavras, que, por sua vez, são armazenadas novamente em uma tabela específica para esse fim no banco de dados. Essa tabela abriga as seguintes informações: Token, Código Hash5 5 MD5 algoritmo criptográfico aplicado a cada palavra para gerar um valor único. Esta técnica facilita a identificação e recuperação no Banco de Dados, tornando o processo mais confiável e rápido. , PoS (Part-of-Speech), Lemma, Idioma, Variação Linguística e Frequência. No caso de um token já existir, um incremento é adicionado à lista de frequência. Nessa fase, cada token é relacionado com a sentença da qual faz parte e também com o texto. Desse modo é possível rastrear a qual sentença e texto um determinado token pertence. O rastreio é feito de forma verticalizada; a partir do token, pode ser encontrada a sentença e, por sua vez, o texto do qual o token faz parte. No COPA-TRAD os tokens não foram normalizados para todos os idiomas, com exceção de palavras de origem estrangeira presentes no idioma inglês. Essas palavras de origem estrangeira são normalizadas utilizando expressões regulares. Conforme pode ser observado na Tabela 1, quaisquer caracteres na linha A são normalizados pelo caractere correspondente na linha B.

Tabela 1
Caracteres que são normalizados em palavras de origem estrangeira no idioma inglês.

Em Processamento de Linguagem Natural e áreas correlatas, definir e delimitar uma palavra ou, mais precisamente, um token é algo que exige cuidado, e cabe aos responsáveis pela análise e desenvolvimento do sistema informático estabelecer o padrão a ser utilizado pela expressão regular. Isso porque, dependendo do projeto a ser executado, a definição de token pode ser diferente como, por exemplo, um parágrafo, uma frase completa ou parte, uma palavra ou até mesmo uma sílaba. Para o COPA-TRAD, as expressões regulares para identificar um token são os seguintes: /[A-Za-z0-9\-\’]+/ para o inglês, '/[A-Za-zÀ-ú0-9\-]+/' para o português, '/[A-Za-zÀ-ú0-9\-]+/' para o espanhol, '/[A-Za-zÀ-úæœ0-9\-\’\']+/' para o francês, '/[A-Za-zÀ-úäöüÄÖÜß0-9\-\’\']+/' para o alemão e '/[A-Za-zÀ-ú0-9\-]+/' para o italiano. É interessante notar que as expressões regulares são semelhantes, com exceção da expressão do francês, que possui ligaduras tipográficas, e a expressão do alemão, em virtude do uso de tremas (ü) e scharfes (().

Conforme observado, a parte de normalização geral não foi conduzida, pois o objetivo inicial do corpus está em consonância, principalmente, com pesquisas qualitativas. No entanto, para palavras estrangeiras dentro do idioma inglês, a regra geral não foi aplicada, pois elas contrapõem às regras definidas na expressão regular do inglês, o que constituía um problema dentro do corpus e na geração de estatística dos types e tokens. Por exemplo, palavras com acentuação gráfica, como termos em francês presentes nos textos do idioma inglês. Para ilustrar, a palavra francesa crepê era segmentada como dois tokens “crep” e “ê” quando presente em textos do inglês. A normalização nesses casos específicos evitou que tal ação indesejada ocorresse.

Uma vez que o processo do COPA-TOKENIZER é finalizado, um novo processo é iniciado. O módulo Grammar faz a análise morfológica de cada token e armazena o resultado obtido na coluna POS da tabela de tokens no Banco de Dados. Nessa etapa, o submódulo Grammar utiliza o analisador morfossintático TreeTagger6 6 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ com parâmetros de treino nos seis idiomas do COPA-TRAD. O TreeTagger fornece o lemma e o PoS. Em seguida, o submódulo “Stats” fica responsável pelo processamento do Standard Type and Token Ratio (STTR)7 7 Standard Type Token Ration (SCOTT, 2001SCOTT, M. Mapping key words to problem and solution. Patterns of Text: in Honour of Michael Hoey, Amsterdam. Benjamins. p. 109-127, 2001., p. 126) que, nesse caso, é calculado na base 1000 e o cálculo do Desvio Padrão (Standard Deviation). Por fim, os submódulos “N-Gram”, “Acronyms” e “ProperNoun” ficam responsáveis pela identificação, extração e armazenamento de n-gramas, acrônimos e nomes próprios respectivamente.

Os motores de busca (search engines), conforme se pode deduzir pelo próprio nome, são mecanismos utilizados para realizar buscas. Para fazer uma analogia, podemos comparar com serviços amplamente conhecidos na Internet como o Google, Yahoo ou o Bing da Microsoft, os quais também são caracterizados como motores de busca, embora de grande porte, com um alto nível de complexidade e sistemas de computação distribuída.

Um dos motores de busca disponíveis para a utilização em projetos computacionais é o Sphinx Search8 8 Site oficial do Sphinx Search: http://sphinxsearch.com/ ou, simplesmente Sphinx (http://sphinxsearch.com), que é uma suíte de ferramentas para indexar, consultar e disponibilizar informações de uma fonte de dados para o usuário. O domínio dessa tecnologia faz parte da área de Recuperação de Informações (Information Retrieval) da Computação. Conforme observado por Curioso et al. (2010CURIOSO, A. et al. Expert PHP and MySQL. Indianapolis: Wiley Publishing, 2010, p. 369-370), o Sphinx provê uma busca rápida, eficiente e relevante, pois um dos segredos dessa agilidade é que o Sphinx cria e mantém um índice próprio desacoplado do Banco de Dados sem causar overload neste último. Por manter um índice próprio de todo o corpus no Sphinx, o COPA-TRAD tem a capacidade de receber um volume considerável de textos sem comprometimento do seu desempenho.

O Sphinx é um sistema que pode indexar uma massa de dados estruturados ou semiestruturados para realizar pesquisas Full-Text em um índice invertido. Conforme observado por Santos e Nunes (2011SANTOS, A.; NUNES, S. Abordagens para a pesquisa por palavra-chave em bases de dados estruturadas. In: INForum 2011. 2011, p. 1-6.), um índice invertido “é constituído por um vocabulário, conjunto distinto de palavras-chave, onde cada palavra guarda um apontador para o início de uma lista invertida que armazena um conjunto de referências para as tuplas da base de dados” (SANTOS & NUNES, 2011SANTOS, A.; NUNES, S. Abordagens para a pesquisa por palavra-chave em bases de dados estruturadas. In: INForum 2011. 2011, p. 1-6., p. 2). Uma diferença no índice do Sphinx é o vocabulário de palavras-chave; ou seja, cada palavra-chave é traduzida para sua forma em 32bit baseada na função polinomial CRC32,9 9 Para mais informações sobre o CRC32 visite: http://www.accuhash.com/what-is-crc32.html isso mantém o índice enxuto e reduzido.

As pesquisas realizadas pelo Sphinx podem ser conduzidas com base em alguns algoritmos disponíveis no motor de busca; tais algoritmos podem ser alterados programaticamente. O padrão é o SPH_RANK_PROXIMITY_BM25.10 10 Para maiores informações visite: http://sphinxsearch.com/docs/2.0.5/boolean-syntax.html Todas as informações que devem fazer parte do índice são definidas com base no escopo do projeto, em um arquivo de configuração. O Sphinx Search é Open Source e foi criado por Andrew Aksyonoff. Ele foi projetado para trabalhar e ser integrado de maneira transparente com o MySQL; no entanto, suporta também outros bancos de dados assim como arquivos em XML, etc.

Em paralelo ao processo técnico descrito anteriormente, foi realizada a compilação dos textos iniciais que compõem o corpus. Muitos dos textos já haviam sido compilados por Fernandes (2004FERNANDES, L. P. Practices of Translating Names in Children’s Fantasy Literature: A Corpus-based Study. Florianópolis, 2004. (Doutorado em Inglês e Linguística Aplicada) - Curso de Pós-Graduação em Inglês, Universidade Federal de Santa Catarina.) e outros foram organizados e digitalizados. O método utilizado na preparação dos textos inseridos no COPA-TRAD permite que esses mesmos textos sejam utilizados sempre que um novo texto-fonte for escolhido para fazer parte do corpus.

Para que o processamento do corpus ocorra com êxito, os textos devem passar por uma limpeza inicial, a fim de eliminar possíveis ruídos que possam conter. Essa limpeza geralmente é feita de modo manual. Os ruídos são, em sua grande maioria, os seguintes:

  • O tipo de codificação heterogêneo textos em ISO-8859-1, UTF-8, UTF-16, Windows-1252, dentre outros;

  • Diferentes formatos de arquivos, como por exemplo, TXT, PDF, DOC, DOCX, ODT, RTF, EPUB, MOBI, dentre outros;

  • Diferentes tipos de quebras de linhas como CR (Carriage Return) ou LF (Line Feed);

  • Textos pela metade ou mal digitalizados, que podem prejudicar o reconhecimento ótico de caracteres (Optical Character Recognition - OCR);

  • Informações paratextuais como:

  • Informações de análises e revisões de jornais na contracapa ou outra seção do livro;

  • Referências bibliográficas;

  • Informações da editora;

  • Informações catalográficas;

  • Informações do autor;

  • Rótulos ou tags no caso de textos utilizados em outros sistemas;

  • Descrição de imagens, tabelas, gráficos;

  • Números de páginas;

  • Índices, dentre outros.

Os textos que compõem o COPA-TRAD são limpos, e geralmente incluem o título da obra, subtítulos e o texto integral per se. O texto a ser enviado deve ser do tipo “raw text” (“texto cru”) sem nenhum tipo de anotação (SINCLAIR, 2004SINCLAIR, J. (2004) Corpus and Text-Basic Principles, in M. Wynne (ed.), Developing Linguistic Corpora: a Guide to Good Practice, pp. 1-20. University of Oxford: AHDS Literature, Languages and Linguistics.).

Após a definição de quais textos fariam parte do corpus, eles foram digitalizados e organizados em arquivos simples do tipo TXT UTF-8 sem marca de ordem byte (BOM).11 11 Byte Order Mark. Este é o padrão do arquivo de texto a ser enviado para o COPA-TRAD. Qualquer tentativa de envio de um texto em formato diferente ou que não respeite o padrão mencionado anteriormente não é permitida.

É necessário frisar que o COPA-TRAD possui um corpus sempre em construção, pois dada a sua natureza, novos textos podem ser adicionados pelos próprios usuários. Só após a avaliação de um moderador, que verifica se os textos adicionados estão de acordo com as diretrizes estabelecidas, é que esses textos poderão fazer parte do corpus ou não. Esse processo de moderação é realizado por meio de um módulo administrativo que foi desenvolvido para esse fim.

4. Processamento do COPA-TRAD

Na etapa de processamento, o projeto desenvolvido foi colocado em execução. Serão descritos os principais módulos e como os textos são processados internamente. Os módulos disponíveis para visualização assim como os diferentes tipos de filtros que podem ser aplicados aos textos do corpus também serão abordados.

Conforme observado, o COPA-TRAD é um sistema constituído das seguintes características: (i) uma interface intuitiva para que o usuário final possa realizar consultas e ter acesso às informações desejadas; (ii) um conjunto de módulos para o processamento dos textos e retenção das informações pertinentes no Banco de Dados; (iii) um motor de buscas para indexar os textos armazenados e fornecer métodos de pesquisa abrangentes e flexíveis ao possibilitar a combinação de várias opções de filtragem. Essas características são explicadas a seguir.

4.1 COPACONC

A primeira ferramenta a ser apresentada é o COPACONC, um concordanciador paralelo multilíngue que permite realizar buscas a partir do texto-fonte para o texto-alvo, texto-alvo para texto-fonte e texto-alvo para texto-alvo (no caso de duas traduções disponíveis para o mesmo texto-fonte). Na versão em produção o COPACONC possui um painel com filtros para realizar buscas específicas no corpus.

Como o motor de buscas tem como base o Sphinx, os principais caracteres coringas para realização de buscas, dentre outros procedimentos de filtragem, estão disponíveis como definido na documentação oficial e manuais do referido motor de busca. O funcionamento do COPACONC é parecido com um serviço de busca na Internet. A grande diferença está no fato de ser necessário escolher as línguas dos textos que serão analisados e exibidos nos lados esquerdo e direito da tela. A interface para interação do usuário com mecanismo de busca foi projetada para ser simples e intuitiva, dispensando o uso de manuais para realizar operações básicas. Caso o usuário deseje realizar buscas de maior complexidade, é possível fazê-las utilizando caracteres coringas. Esses caracteres são os seguintes:

  • Operadores booleanos.

  • Operador AND como em “after & him”.

  • Resultados com “after” e “him”.

  • Operador OR como em “after | him”.

  • Resultados com “after” ou “him”.

  • Operador NOT como em “after -him".

  • Resultados com “after” não/sem “him”.

  • Operadores booleanos compostos para estudar, por exemplo, alguns verbos de ação, como em: “(Harry & jumped) | (Harry & ran)”.

  • Resultados com “Harry” e “jumped” ou resultados com “Harry” e “ran”.

  • Operador de frase exata: esse operador é empregado para procurar palavras ou segmentos de expressões exatas em um texto e pode ser largamente utilizado na investigação da tradução de colocações como em “by the book”; nesse exemplo, as aspas duplas fazem parte do filtro.

  • Operador de início: esse operador é utilizado para marcar palavras que começam em uma frase; as ocorrências subsequentes são ignoradas. O operador de início de frase é o caractere de acento circunflexo como em “ˆtake your time”.

  • Operador de final de sentença: esse operador marca palavras que terminam em uma frase; as ocorrências antes desse ponto são desconsideradas. O sinal é o cifrão; um exemplo é “leave off$”.

  • Operador estrela / asterisco (*): combina parte de um termo com uma parte variável como em “jump*” que pode trazer resultados com “jump”, “jumped”, “jumping” e “jumper”.

O COPA-TRAD também possui um operador de destaque (highlight) para exibir palavras que não foram traduzidas. Esse é um recurso visual bastante útil que pode mostrar se nomes próprios, de lugar, objetos ou palavras de origem estrangeira foram traduzidas ou não.

No COPACONC, há outros recursos para auxiliar o usuário, como a possiblidade de remover da lista de resultados e as entradas que são irrelevantes para o pesquisador. Além disso, é possível imprimir todas as ocorrências, além de consultar meta-informações sobre uma determinada entrada. Outro ponto a ser mencionado é o recurso para consultas em sistemas de tradução automática, como o Google Translate, Bing Translator e o Yandex Translate. O COPA-TRAD possui acesso às APIs dos referidos sistema de tradução. Por meio de um programa de parceria com o Google Acadêmico, o COPA-TRAD tem permissão para consultar o Google Translate sem nenhum tipo de ônus. Assim, ao clicar para traduzir um termo ou frase nos resultados do COPACONC, uma tela surge com a versão original do texto selecionado, a versão da tradução oficial e logo depois a versão traduzida nos respectivos sistemas de tradução mencionados anteriormente. Todas as traduções, assim como o texto original, são acompanhadas de seus respectivos type, tokens e ratio. No topo da listagem exibida, é possível consultar também alguns dados estatísticos sobre a pesquisa realizada, conforme pode ser observado na Figura 2.

Figura 2
Dados estatísticos referentes à pesquisa realizada pelo usuário são mostrados em tempo real (os resultados podem diferir à medida que novos textos forem inseridos).

No COPACONC é possível ainda, delimitar a busca por um subcorpus, idioma e texto específicos. O COPATRAD utiliza o recurso visual de iconografia para facilitar [o] a compreensão do usuário para executar alguma ação no sistema. Esse recurso é padrão em todo o sistema; assim o que é válido no COPACONC também pode ser encontrado em outros módulos com o mesmo visual e ação. Desse modo, os ícones que aparecem nos resultados do COPACONC merecem atenção e podem ser conferidos na Figura 3.

Figura 3
Botões que aparecem nos resultados do COPACONC e suas respectivas funções.

Conforme pode ser observado na Figura 3, os dois primeiros botões referem-se ao texto-fonte e ao texto-alvo correspondente. A posição de tais botões na listagem dos resultados pode variar de acordo com as configurações definidas pelo usuário. No final da listagem de resultados há quatro links adicionais cujas funções a seguir estão relacionadas à exportação dos resultados: Imprimir, Exportar CSV,12 12 Comma-separated values. Exportar XML13 13 eXtensible Markup Language - Resultados com rótulos definidos no padrão XML para facilitar a importação em outras ferramentas de tradução. e por último Exportar PDF.

4.2 MONOCONC

Dando prosseguimento, a próxima ferramenta é o MONOCONC, um concordanciador monolíngue que mostra os resultados na tela seguindo o formato KWIC (ou Key Word in Context). Nesse formato de exibição, a palavra pesquisada fica ao centro e os textos anterior e posterior a esta palavra são mostrados em lados opostos da palavra em evidência. O MONOCONC pode ser utilizado especialmente para investigar as colocações e como uma palavra se relaciona com suas vizinhas, ou seja, para estudar se um conjunto de palavras formam um certo agrupamento padronizado para representar um significado especial. Um filtro de busca que merece destaque no MONOCONC é o caractere coringa estrela ou asterisco “*”, que possibilita fazer combinações diferenciadas conforme pode ser observado no exemplo da Figura 4.

Figura 4
Resultados no MONOCONC gerados a partir do uso do caractere coringa asterisco no subcorpus COPA-TEJ.

4.3 WORDLIST

A ferramenta WORDLIST (Figura 5) fornece uma sequência de opções no painel de filtros para a criação de uma lista de frequência de palavras personalizada para o usuário. As opções de filtro são as seguintes: Subcorpus, Língua, Textos, Elementos Gramaticais, Tipos, Configurações e Extras. A parte do painel chamada de Elementos Gramaticais é dinâmica, e altera-se de acordo com a língua selecionada pelo o usuário. Isto ocorre porque foram utilizados no TreeTagger parâmetros gramaticais (PoS - Part-of-Speech) que melhor se compatibilizam com as características intrínsecas de cada língua. Existe ainda um link no canto inferior “Sobre isso” que quando clicado abre uma tela explicativa com informações sobre cada PoS e os devidos links de referência caso o usuário desejar maiores informações. Dando prosseguimento, em Tipos temos as seguintes sub-opções: Hapax legomena, Lista Geral de Palavras (padrão), Lista de acrônimos, Lista de nomes próprios, 2-grams, 3-grams, 4-grams, 5-grams. Em Extras as sub-opções são: Ativar Stopwords, Mostrar Lemmas e Mostrar PoS. Quando o usuário ativa as Stopwords, elas são carregadas e utilizadas de acordo com o idioma selecionado pelo usuário. O Usuário pode, inclusive, consultar as Stopwords que estão sendo utilizadas e utilizar em outros programas computacionais, pois a lista já é fornecida no formato XML. Mostrar Lemma e Mostrar PoS são apenas recursos de visualização; ou seja, as duas opções mostram ou escodem os elementos referidos da lista final de resultados. Em configurações existem as opções Crescente, Decrescente, Ordem Alfabética, Ordem Alfabética Reversa, Quantidade de Resultados e Número de corte inicial para as frequências.

Figura 5
Captura de tela da ferramenta Wordlist

A análise morfológica dos textos do COPA-TRAD foi realizada através da integração do sistema com a ferramenta TreeTagger, sendo que o COPA-TRAD está referenciado no site oficial desta ferramenta em “Another Online Tagger created by Carlos Eduardo”. Todo o processo de integração do COPA-TRAD com o TreeTagger é bastante extenso e deverá ser abordado em outro artigo sobre o assunto. No momento, basta saber as tecnologias utilizadas e como elas podem auxiliar o usuário pesquisador na investigação de fenômenos tradutórios e, no caso da WORDLIST, fenômenos linguísticos também. Nos resultados, é possível consultar um exemplo em contexto de qualquer palavra listada, a remoção de uma entrada além das opções de impressão e exportação dos dados tal qual descritos na seção sobre o COPACONC.

4.4 CORPUS-BUILDER

Em seguida, temos a ferramenta CORPUS-BUILDER (Figura 6), que conforme mencionada anteriormente, auxilia o usuário a criar um corpus do tipo descartável. Com base na proposta de Yasu Imao (2008IMAO, Y. Javascript-based online concordancer, 2008. Disponível em: <Disponível em: http://www.ne.jp/asahi/yasu/casualconc/casualconcpages/pconc.html >. Acesso em: 9 fev. 2017.
http://www.ne.jp/asahi/yasu/casualconc/c...
), esta ferramenta oferece dois campos textuais para o usuário colocar o seu texto em cada lado, sendo que estes campos são enumerados para facilitar o trabalho de alinhamento. O CORPUS-BUILDER possui uma série de filtros para identificar padrões no texto. Tais filtros oferecem recursos limitados do ponto de vista de ferramenta de busca, mas podem servir para uma pesquisa de pequeno porte, ou para mostrar como um corpus paralelo funciona em sala de aula.

Figura 6
Captura de tela da Ferramenta CORPUS-BUILDER

A limitação desta ferramenta se dá pelo fato de que a busca textual é realizada em tempo de execução com filtros simples, sem banco de dados e motor de busca. São utilizados apenas um JavaScript e expressões regulares para a realização das buscas.

4.4 COPA-STATS

Outra ferramenta disponível é o COPA-STATS, que é a parte do COPA-TRAD relacionada à exibição de estatísticas e gráficos entre outros dados de ordem quantitativa. O COPA-STATS é uma ferramenta dinâmica e automática, pois à medida que novos textos são inseridos ao corpus, todos os dados do COPA-STATS são atualizados. Atualmente é possível criar gráficos (Figura 7) e consultar informações de cada língua e também de textos específicos. O COPA-STATS fornece ainda informações quantitativas detalhadas para cada texto presente no corpus. Estas informações ficam dispostas em uma tabela que pode ser ordenada pelo atributo presente nas colunas. Estes atributos são os seguintes: Título do Texto, Tipo do Texto (original ou tradução), Type, Token, TTR, TTR %, SD (Standard Deviation), STTR (por 1000). Além disso, em uma seção especial do COPA-STATS, é possível gerar gráficos com base na distribuição zipfiana (ZIPF, 1949ZIPF, G. K. Human Behaviour and the Principle of Least Effort. Cambridge: Addison-Wesley Press, 1949.) para cada texto do corpus e comparar os desvios de originais e traduções (Figura 8).

Figura 7
Dados quantitativos por idioma

Figura 8
Distribuições Zipfianas geradas a partir de dois textos do COPA-TRAD

4.5 TREETAGGER CLOUD

O TREETAGGER CLOUD é uma ferramenta que foi projetada para ser de fácil manipulação, e nada mais é do que uma interface para utilização do TreeTagger. Dada as características técnicas de utilização de um software como o TreeTagger, talvez, seja um desafio para usuários com pouca experiência, ou para alunos que estão começando a estudar as ferramentas de análise automática. O TREETAGGER CLOUD oferece suporte aos seis idiomas do COPA-TRAD e os dados já são oferecidos na tela, em tempo real, e formatados para a leitura humana. Tudo o que o usuário precisa fazer é colar o texto a ser analisado no campo textual do lado esquerdo, depois escolher o idioma do texto, o formato de saída e, por último, clicar em Executar. O processamento é realizado em tempo real e o resultado é fornecido para o usuário no lado direito da tela (Figura 9).

Figura 9
Análise do TREETAGGER CLOUD para um texto em alemão

4.6 COPA DASHBOARD

Finalmente, o COPA-TRAD possui uma área específica para todos os usuários registrados no sistema, o COPA-DASHBOARD. Neste painel, o usuário tem acesso a funcionalidades extras, como poder editar as informações do seu cadastro e ter a possibilidade de enviar novos textos ao corpus. Caso o usuário deseje enviar uma segunda tradução, existe uma seção dentro do COPA-DASHBOARD onde é possível realizar o download dos textos originais disponíveis no corpus. Tudo o que o usuário precisa fazer é baixar esse texto original para servir de guia para alinhar a sua tradução. Esta ação é necessária, pois todas as traduções devem seguir o mesmo padrão de alinhamento do texto original. Na tela principal do COPA-DASHBOARD são listados todos os textos que o usuário enviou. Desta forma, o usuário consegue consultar o resultado da aprovação ou não de seu texto, enviado pelos moderadores do sistema. Nesta tela também é possível editar informações dos textos enviados, caso eles ainda não tenham sido aprovados e disponibilizados no corpus. Depois dos textos serem aprovados, o status de edição fica automaticamente bloqueado.

Além disso, temos um módulo de submissão de textos para facilitar e acelerar o processo de envio de textos ao corpus. O painel de envio de textos foi desenvolvido como um passo-a-passo e, com base nas medidas que o usuário toma, os dados que devem ser inseridos se modificam; ou seja, caso o usuário escolha o subcorpus COPA-TEJ ou COPA-LIJ, os campos de preenchimento do formulário se alteram. Na possibilidade do usuário escolher enviar uma tradução adicional para um texto existente, as informações do texto original não precisam ser fornecidas novamente.

5. Considerações finais

O COPA-TRAD é uma ferramenta que está disponível gratuitamente para toda a comunidade acadêmica e pesquisadores interessados no uso de ferramentas com base em corpus. O sistema está disponível desde a sua primeira versão beta em 2011. Com o passar do tempo a ferramenta foi recebendo melhorias, funcionalidades e correções. A cobertura de uso do COPA-TRAD é ampla, especialmente por conta da localização do sistema nos idiomas português brasileiro, inglês e espanhol. Atualmente, o COPA-TRAD possui mais de 200 usuários registrados e distribuídos por várias unidades da federação brasileira, além de outros países como China, Espanha, Itália, França e Inglaterra. Em consonância com Sinclair (2004SINCLAIR, J. (2004) Corpus and Text-Basic Principles, in M. Wynne (ed.), Developing Linguistic Corpora: a Guide to Good Practice, pp. 1-20. University of Oxford: AHDS Literature, Languages and Linguistics.) que aponta o fato de que todo corpus eletrônico precisa “de manutenção e atualizações regulares”,14 14 Once a corpus is in existence, it needs regular maintenance and upgrading. There are always errors to correct and improvements to be made, adaptations to new hardware and software, and changes in the requirements of users (p. 84). é importante dizer que o COPA-TRAD, à medida que sua utilização e divulgação crescem, novas sugestões e contribuições de pesquisadores vêm se somando ao seu aperfeiçoamento contínuo. O COPA-TRAD possui três outras ferramentas que deverão ser objeto de escrutínio futuro, mas que aqui preferimos apenas citá-las: (i) Busca Avançada, uma ferramenta que inclui uma série de filtros (ano de publicação, local de publicação, nacionalidade do autor e do tradutor, etc.), que o usuário poderá selecionar ao executar uma busca mais específica; (ii) Busca Esperta, uma ferramenta que utiliza técnicas de Mineração de Textos e Analise de Sentimentos na pesquisa de Estudos da Tradução com base em Corpus, sugerida por Silva (2014SILVA, C. E. Utilização de Técnicas de Mineração de Textos em Corpora Paralelo para Auxílio na Pesquisa Acadêmica em Estudos da Tradução: Um Estudo de Caso. 64 f. Trabalho de Conclusão de Curso (Especialização) - Curso de Pós-Graduação em Engenharia e Projetos de Software, Universidade do Sul de Santa Catarina, Florianópolis, 2014.); (iii) Auto Aligner, uma ferramenta que oferece uma interface capaz de executar diferentes processamentos para obter um texto alinhado de forma automática. Dentro desse contexto, acreditamos que o sistema COPA-TRAD tem muito a contribuir para a pesquisa, ensino e prática da tradução, seja como (i) uma ferramenta metodológica de base empírica, que auxilie na descrição de textos traduzidos; (ii) uma ferramenta para a formação do tradutor, que venha mostrar como tradutores resolvem seus desafios na prática, ou (iii) um sistema que venha auxiliar tradutores em suas práticas profissionais, descrevendo o que outros tradutores profissionais já fizeram em situações contextuais similares.

Agradecimentos

Agradecemos à British Academy (Newton Fund Advanced Fellowship Scheme) e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq pelo impulso dado ao desenvolvimento tecnológico e inovador desta pesquisa.

Referências

  • BAKER, M. Corpora in Translation Studies. An Overview and Suggestions for Future Research Target, 7(2). pp. 223-243, 1995.
  • CURIOSO, A. et al. Expert PHP and MySQL Indianapolis: Wiley Publishing, 2010
  • FERNANDES, L. P. A Portal into the Unknown: Designing, Building, and Processing a Parallel Corpus CTIS Occasional Papers, Vol. 4, pp. 16-36, 2009.
  • FERNANDES, L. P. Practices of Translating Names in Children’s Fantasy Literature: A Corpus-based Study Florianópolis, 2004. (Doutorado em Inglês e Linguística Aplicada) - Curso de Pós-Graduação em Inglês, Universidade Federal de Santa Catarina.
  • IMAO, Y. Javascript-based online concordancer, 2008. Disponível em: <Disponível em: http://www.ne.jp/asahi/yasu/casualconc/casualconcpages/pconc.html >. Acesso em: 9 fev. 2017.
    » http://www.ne.jp/asahi/yasu/casualconc/casualconcpages/pconc.html
  • SANTOS, A.; NUNES, S. Abordagens para a pesquisa por palavra-chave em bases de dados estruturadas. In: INForum 2011. 2011, p. 1-6.
  • SCOTT, M. Mapping key words to problem and solution Patterns of Text: in Honour of Michael Hoey, Amsterdam. Benjamins. p. 109-127, 2001.
  • SILVA, C. E. Utilização de Técnicas de Mineração de Textos em Corpora Paralelo para Auxílio na Pesquisa Acadêmica em Estudos da Tradução: Um Estudo de Caso 64 f. Trabalho de Conclusão de Curso (Especialização) - Curso de Pós-Graduação em Engenharia e Projetos de Software, Universidade do Sul de Santa Catarina, Florianópolis, 2014.
  • SINCLAIR, J. (2004) Corpus and Text-Basic Principles, in M. Wynne (ed.), Developing Linguistic Corpora: a Guide to Good Practice, pp. 1-20. University of Oxford: AHDS Literature, Languages and Linguistics.
  • WU, Y., SCHUSTER, M., CHEN, Z., LE, Q. V., NOROUZI, M., MACHEREY, W., & KLINGNER, J. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation, (p. 1-23). arXiv preprint arXiv:1609.08144.
  • ZIPF, G. K. Human Behaviour and the Principle of Least Effort Cambridge: Addison-Wesley Press, 1949.
  • 1
    https://www.thebritishacademy.ac.uk/funding/newton-advanced-fellowships
  • 2
    Grupo de pesquisa Tradução e Corpora: http://www.tracor.ufsc.br
  • 3
    O CodeIgniter é um projeto mantido pela British Columbia Institute of Technology e pode ser encontrado no endereço: https://www.codeigniter.com
  • 4
    http://sphinxsearch.com
  • 5
    MD5 algoritmo criptográfico aplicado a cada palavra para gerar um valor único. Esta técnica facilita a identificação e recuperação no Banco de Dados, tornando o processo mais confiável e rápido.
  • 6
    http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
  • 7
    Standard Type Token Ration
  • 8
    Site oficial do Sphinx Search: http://sphinxsearch.com/
  • 9
    Para mais informações sobre o CRC32 visite: http://www.accuhash.com/what-is-crc32.html
  • 10
    Para maiores informações visite: http://sphinxsearch.com/docs/2.0.5/boolean-syntax.html
  • 11
    Byte Order Mark.
  • 12
    Comma-separated values.
  • 13
    eXtensible Markup Language - Resultados com rótulos definidos no padrão XML para facilitar a importação em outras ferramentas de tradução.
  • 14
    Once a corpus is in existence, it needs regular maintenance and upgrading. There are always errors to correct and improvements to be made, adaptations to new hardware and software, and changes in the requirements of users (p. 84).

Datas de Publicação

  • Publicação nesta coleção
    27 Abr 2020
  • Data do Fascículo
    Jan-Apr 2020

Histórico

  • Recebido
    01 Jul 2019
  • Aceito
    22 Nov 2019
Universidade Federal de Santa Catarina Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Bloco B- 405, CEP: 88040-900, Florianópolis, SC, Brasil, Tel.: (48) 37219455 / (48) 3721-9819 - Florianópolis - SC - Brazil
E-mail: ilha@cce.ufsc.br