Acessibilidade / Reportar erro

UMA IMPLEMENTAÇÃO COMPUTACIONAL DE CONSTRUÇÕES VERBAIS PERIFRÁSTICAS EM FRANCÊS

RESUMO:

Este artigo descreve o tratamento da passiva e do passado composto na FrGramm, uma gramática computacional do francês implementada na Gramática Léxico-Funcional (LFG) usando o software XLE. Devido à dualidade de auxiliares e concordância do particípio passado (PTPST), a segunda perífrase exibe uma maior complexidade estrutural em francês do que em línguas como inglês e português, representando, consequentemente, um maior desafio à implementação computacional. Uma dificuldade adicional é a modelação das regularidades morfológicas e sintático-semânticas da passiva. A FrGramm resolve esse problema por meio de uma regra lexical produtiva. Também implementa as restrições que governam a formação das duas perífrases verbais, exceto a concordância do PTPST com o objeto direto. A im ple men ta ção foi avaliada pela aplicação de um analisador sintático automático (parser) a 157 sentenças gra ma ti cais e 279 construções a gramati cais. Todas as sentenças do primeiro con junto foram ana li sa das corretamente. Apenas duas construções do segundo que violam a pre cedência do auxiliar do passado composto so bre o da passiva foram analisadas como gra ma ticais. A FrGramm é a úni ca gramática LFG do fran cês com essa cobertura atualmente dis po nibilizada livremente. Uma versão futura dará con ta da concordância do PTPST com o objeto direto e evitará a hipergeração referida.

PALAVRAS-CHAVE:
Linguística computacional; Análise sintática automática profunda; Gramática léxico-funcional; LFG/XLE; Morfologia de estados finitos; Perífrases verbais em francês; Voz passiva

ABSTRACT:

This paper describes the treatment of passive and compound past tense in FrGramm, a computational grammar of French, implemented within Lexical-Functional Grammar (LFG) using the XLE software. Due to the dual auxiliary system and past participle agreement, the latter periphrasis manifests greater structural complexity and therefore presents a greater challenge to computational implementation in French than in languages such as English and Portuguese. An additional difficulty is modeling the morphological and syntactic-semantic regularities of the passive construction. In FrGramm, this problem is solved by means of a productive lexical rule. FrGramm also implements the constraints governing the building of both verbal periphrases, excepting participle object agreement. The implementation was evaluated by applying a parser to a set of 157 grammatical sentences and a set of 279 ungrammatical sentences. All sentences from the former set were correctly parsed. Only two constructions from the latter set that violate the linear precedence of the compound past auxiliary over the passive auxiliary were analyzed as grammatical. FrGramm is the only LFG grammar of French with similar coverage that is freely available on-line. A future version will handle participle object agreement and avoid the mentioned overgeneration.

KEYWORDS:
Computational linguistics; Deep syntactic parsing; Lexical-Functional grammar; LFG/XLE; Finite-state morphology; French verbal periphrases; Passive voice

Introdução

A Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar) é uma teoria gerativa amplamente difundida tanto em estudos teó ri cos, descritivos ou tipológicos quanto na linguística computacional. Esse modelo tem fundamentado análises de um ex pres si vo número de línguas, das mais diferentes famílias linguís ti-cas (BRESNAN, 2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001.). Muitas des sas análises foram implementadas no computador, em par te no âmbito de projetos de de sen volvimento de sistemas de análise sintática automática (parsing) de nível profundo, vol ta dos para o processamento se mântico de textos em linguagem natural.1 1 O levantamento mais atualizado e abrangente das línguas com gramáticas computacionais (ou fragmentos de gramática) implementadas no formalismo da LFG contém 27 línguas (MÜLLER, 2016, p. 213-214).

O francês, ainda nos anos de 1990, foi uma das primeiras línguas a terem suas estru tu ras sintáticas matematicamente descritas no formalismo da LFG e implementadas em sistemas de parsing (ZWEIGENBAUM, 1991ZWEIGENBAUM, P. Un analyseur syntaxique pour grammaires lexicales-fonctionnelles. T.A. Informations, Paris, v. 32, n. 2, p.19-34, 1991. Disponível em: <https://perso.limsi.fr/pz/FTPapiers/ZweigenbaumTAI91.pdf>. Acesso em: 10 fev. 2016.
https://perso.limsi.fr/pz/FTPapiers/Zwei...
; FRANK, 1996FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244.; SCHWARZE, 1998SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998.; BUTT et al., 1999BUTT, M. et al. A grammar writer's cookbook. Stanford: CSLI, 1999.). Por conta da evolução tecnológica, algumas dessas abordagens, como as de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. e Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998., acabaram se tornando obsoletas, pela impraticabilidade de exe cu tar os respectivos sistemas de parsing em plataformas atuais. Outro problema é os códigos-fon te dessas implementações ou os respectivos analisadores sintáticos (parsers) não estarem livremente disponíveis. Esse é também o caso das abordagens mais recentes, a saber, os parsers SxLFG e XLFG as sim como as gramáticas do francês construídas para testá-los (CLÉMENT; KINYON, 2001CLÉMENT, L.; KINYON, A. XLFG – an LFG Parsing Scheme for French. INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 6., 2001. Proceedings… Stanford: CSLI, 2001. p.47-65.; BOULLIER; SAGOT; CLÉMENT, 2005BOULLIER, P.; SAGOT, B.; CLÉMENT, L. Un analyseur LFG efficace pour le français: SxLfg. In: TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES, 12., 2005. Actes… Dourdan, 2005. p.403-408. Disponível em: < http://www.atala.org/taln_archives/TALN/TALN-2005/taln-2005-court-004>. Acesso em: 9 fev. 2016.
http://www.atala.org/taln_archives/TALN/...
; CLÉMENT, 2014CLÉMENT, L. XLFG. Bordeaux: University Bordeaux, 2014. Disponível em: <http://www.xlfg.org/>. Acesso em: 22 fev. 2016.
http://www.xlfg.org/...
; SAGOT, [2015?]SAGOT, B. Page web de Benoît Sagot – équipe Alpage (INRIA/Paris 7): SxLFG. Paris: Université Paris Diderot, [2015?]. Disponível em: <http://alpage.inria.fr/~sagot/sxlfg.html>. Acesso em: 22 fev. 2016.
http://alpage.inria.fr/~sagot/sxlfg.html...
).

O presente artigo foca o tratamento de construções verbais perifrásticas na FrGramm, uma gramática computacional do francês que recentemente implementamos no Xerox Linguistic Environment (XLE), software que representa o estado da arte atual no de sen vol vi men to e parsing de gramáticas no formalismo da LFG (CROUCH et al., 2011CROUCH, D. et al. XLE documentation. Palo Alto: Palo Alto Research Center, 2011. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html> Acesso em: 22 fev. 2016.
http://www2.parc.com/isl/groups/nltt/xle...
).2 2 Este artigo aprofunda aspectos de uma introdução à teoria da LFG e ao desenvolvimento de gramáticas computacionais no XLE, utilizando exemplos do francês, recentemente publicada em língua alemã, fruto de parceria com Christoph Schwarze (SCHWARZE; ALENCAR, 2016). A FrGramm é uma versão significativamente melhorada do fragmento de gramática do capítulo 8 desse livro. Na divisão de trabalho para elaboração dessa obra, coube ao autor deste artigo a implementação dos diferentes fragmentos de gramática e a redação das respectivas seções de capítulos. Essas gramáticas refletem intenso diálogo entre os dois autores. Por eventuais erros, contudo, este autor assume a inteira responsabilidade. Gra ças à a mi ga bi li da de e eficiência, esse sistema tem sido utilizado há mais de uma década tan to no en si no e pes qui sa quanto em aplicações de escala industrial. Além disso, é distribuído gratuitamente, sob uma licença de uso para fins não comerciais.3 3 Para obter o XLE, consultar a página <http://www2.parc.com/isl/groups/nltt/xle/>.

Uma alternativa ao XLE é o XLFG, mais voltado para o ensino e pesquisa em LFG (CLÉMENT; KINYON, 2001CLÉMENT, L.; KINYON, A. XLFG – an LFG Parsing Scheme for French. INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 6., 2001. Proceedings… Stanford: CSLI, 2001. p.47-65.). No entanto, esse sistema não es tá disponível para download, mas deve ser utilizado on-line (CLÉMENT, 2014CLÉMENT, L. XLFG. Bordeaux: University Bordeaux, 2014. Disponível em: <http://www.xlfg.org/>. Acesso em: 22 fev. 2016.
http://www.xlfg.org/...
). Por outro lado, a gramática do francês mais completa implementada nesse sistema, disponível no respectivo site, tem co ber tura muito limitada. Analisa perífrases com o auxiliar avoir ‘ter’, mas hi per gera amplamente, implementando apenas ínfima parcela das restrições envolvidas nessas construções.

Como é comum na literatura, neste trabalho designamos por LFG/XLE a variante notacional do formalismo da LFG implementada no XLE. A motivação principal para o desenvolvimento da FrGramm em LFG/XLE foi disponibilizar livremente uma gramática de média cobertura sintática do francês para utilização no ensino e pesquisa em áreas como teoria gra matical formal, linguística computacional ou processamento automático de linguagem natural. Antes da FrGramm, a única gramática amplamente acessível para uso com o XLE, num con texto didático, era a gramática do inglês que integra a documentação desse sistema (KING, 2004KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
). No entanto, como se sabe, o francês apresenta diversas particularidades sintáticas em relação ao inglês. Consequentemente, uma adaptação da referida gramática do inglês para processar o francês está longe de constituir uma tarefa trivial. Por outro lado, traduzir, do for malismo do XLFG para o do XLE, a gramática do francês de Clément (2014)CLÉMENT, L. XLFG. Bordeaux: University Bordeaux, 2014. Disponível em: <http://www.xlfg.org/>. Acesso em: 22 fev. 2016.
http://www.xlfg.org/...
, acima referida, não seria tão difícil para um usuário experiente. O problema, porém, é que essa gramática, co mo apontamos, tem cobertura muito limitada e analisa como gramaticais exemplos simples que violam as regularidades da formação de tempos compostos em francês.

A FrGramm, que tem cobertura muito mais ampla, não padece desse tipo de hipergeração. Entre outras abordagens, incorpora elementos de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. e Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998., as du as gramáticas computacionais do francês cujas implementações estão suficientemente deta lha das na literatura, mas não é uma reimplementação; pelo contrário, foi desenvolvida a partir do ze ro e preenche lacunas dessas duas propostas. É a única gramática do francês em LFG/XLE dis tribuída livremente na Internet, sob licença de uso que permite mo dificações pe los usuários e redistribuição das versões modificadas.4 4 As condições de uso são detalhadas em <http://creativecommons.org/licenses/by-nc-sa/4.0/>. O código-fonte, os conjuntos-teste bem como os resultados da avaliação da gramática estão disponíveis em https://github.com/lfg-french-grammar. Desse modo, pode ser ampliada para cobrir outros fenômenos, adaptada para enfoques gramaticais diferentes ou para outras línguas.

Dentre os vários fenômenos implementados na FrGramm 1.0, a atual versão da gramática, sobressaem, pela maior complexidade e maior contraste com os fatos análogos em língua inglesa, as construções verbais perifrásticas do francês exemplificadas em (1)-(5). Essas perífrases constituem-se de uma forma finita (doravante VFIN) de être ‘ser’ ou avoir ‘ter’ e de um particípio (doravante PTCP).

As sentenças (1), (2) e (4) exemplificam o passado composto (passé composé). Diferentemente do português e do inglês, o francês, nesse tempo perifrástico, tal como o italiano e o alemão, exibe uma divisão entre os intransitivos: verbos inacusativos como arriver ‘chegar’ selecionam o auxiliar être, enquanto verbos inergativos como danser selecionam avoir (FRANK, 1996FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244.). Um contraste adicional, representando fator extra de complexidade para u ma implementação computacional, é a concordância exibida pelo particípio passado (doravante PTPST). No caso de verbos do primeiro grupo de intransitivos, o PTPST manifesta concordância com o sujeito (ver (1)); essa concordância é bloqueada nos verbos do segundo grupo (ver (2)). Por outro lado, o PTPST de verbos transitivos, em construções com a ordem canô nica SVO, como em (4), não é flexionado; a flexão de gênero e número, porém, é obrigatória nesses verbos em construções com o objeto anteposto, como na oração relativa em (6):

A sentença (3) exemplifica a voz passiva num tempo simples (no caso, o presente do indicativo), enquanto (5) exemplifica a passiva no passado composto, reunindo as complexidades das duas construções perifrásticas.

A forma superficial de (3) é a mesma de (1). A exemplo de outras línguas românicas como o português, o particípio passivo (doravante PTPASS) exibe flexão de gênero e número concordando com o sujeito, o que não ocorre em línguas como o inglês. Tal como (1), há uma analogia aparente de (3) com construções predicativas adjetivais do tipo de (7):

Na LFG, a passiva resulta da aplicação de uma regra lexical sobre as entradas de ver bos que governam um objeto direto (doravante OBJ) (KAPLAN; BRESNAN, 1982KAPLAN, R. M.; BRESNAN, J. Lexical-functional grammar: a formal system for grammatical representation. In: BRESNAN, J. (Org.). The mental representation of grammatical relations. Cambridge: MIT Press, 1982. p.173-281.). Essa re gra modela as relações sistemáticas entre formas verbais ativas e passivas. Desse modo, essas úl timas não precisam ser listadas no léxico, o que sim pli fica a codifica ção desse componente e representa uma grande economia de espaço de armazenamento. A im ple men ta ção com pu ta cio nal dessa abordagem, contudo, não é trivial. De fato, é preciso dar conta tanto das al te ra ções na morfologia e subcategorização verbais quanto das relações semânticas entre as duas diáteses.5 5 Diáteses são alternâncias regulares da valência verbal, compreendendo tanto fenômenos de voz, como na oposição entre ativa e passiva, quanto alternâncias não expressas por voz verbal (BUSSMANN, 2002). Um fator de complicação são os verbos de controle do OBJ como forcer ‘forçar’. Nes ses verbos, na ativa, o sujei to do infinitivo é controlado pelo OBJ da oração principal (ver (4)). Na passiva, porém, o controlador passa a ser o sujeito da oração principal (ver (5)). Uma das principais vantagens do XLE é oferecer um eficiente mecanismo para im plementação de re gras lexicais. A utilização desse mecanismo numa de ter mi nada gramática, contudo, implica o preenchimento de duas condições: (i) formulação de res trições adequadas para dar conta dos exem plos gramaticais, excluindo, ao mesmo tempo, construções agra maticais que violam es sas restrições; (ii) implementação de um analisador morfológico. Neste artigo, mostramos em que medida a FrGramm satisfaz essas duas exigências.

Pelos desafios que co lo cam, essas duas construções verbais perifrásticas são, portanto, bastante interessantes do pon to de vista do desenvolvimento de gramáticas computacionais. Essa é uma das razões de as termos escolhido como foco do presente artigo, que apresenta a FrGramm pela primeira vez ao público de língua portuguesa. Mostraremos como a FrGramm implementa esses fenômenos, de modo a analisar corretamente exemplos como (1)-(5) e com a construção análoga de (7), ao mesmo tempo excluindo exemplos agramaticais.

Uma implementação dessas perífrases é também relevante do ponto de vista teórico, haja vista as análises discrepantes de que têm sido objeto no quadro da LFG. Quais as propriedades computacionais de cada análise concorrente? Este artigo representa uma contribuição a essa linha de investigação, ao implementar uma dessas análises no XLE. Como a FrGramm é disponibilizada livremente, análises concorrentes poderão ser mais facil men te im ple mentadas no mes mo sistema usando a FrGramm como base e comparadas em re lação à com plexidade, em ter mos dos recursos computacionais de tempo ou espaço consumidos (PRATT-HARTMANN, 2010PRATT-HARTMANN, I. Computational complexity in natural language. In: CLARK, A; FOX, C.; LAPPIN, S. (Org.). The handbook of computational linguistics and natural language processing. Malden: Wiley & Blackwell, 2010. p.43-73.).

Antes de concluir esta introdução, vejamos os principais pontos de divergência na análise das construções (1)-(5) e (7) no quadro atual da LFG. Patejuk e Przepiórkowski (2014)PATEJUK, A.; PRZEPIÓRKOWSKI, A. In favour of the raising analysis of passivisation. INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 19., 2014. Proceedings… Stanford: CSLI, 2014. p.461-481., por exemplo, argumentam que, em polonês, na passiva, tal como na construção predicativa adjetival, o verbo być ‘ser’ é um verbo de alçamento, cujo único argumento semântico é um XCOMP.6 6 O termo verbo de alçamento é empregado na literatura da LFG seguindo a tradição da gramática gerativa transformacional. No entanto, na análise desses verbos na LFG, não há movimento de constituinte, dado o caráter não transformacional dessa teoria. Na LFG, essa é uma função gramatical com uma posição argumental aberta, a ser preenchida via controle funcional (BRESNAN, 2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001.). Desse modo, em sentenças como (3) ou (7), o sujeito sentencial realiza um argumento semântico não da cópula, mas do XCOMP. Conforme essa abordagem, subjaz a (3) e (7) uma estrutura bipredicacional: a primeira predicação é expressa pela cópula, a segunda, pelo XCOMP.

Essa abordagem, porém, não é consensual, como se pode constatar no ParGramBank, um treebank paralelo de 10 línguas, gerado por gramáticas LFG/XLE (SULGER et al., 2013SULGER, S. et al. ParGramBank: the ParGram paralell treebank. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 51., 2013. Proceedings… Sofia: Association for Computational Linguistics, 2013. p.550-560.). As divergências, nesse corpus, nas análises de línguas como o norueguês, inglês, alemão e po lo nês se referem ao estatuto do VFLEX e do PTCP, por um lado, e do adjetivo, por outro. A ques tão em relação ao adjetivo é se essa categoria ins tan cia ou não um XCOMP. Nas análises do polonês, o PTCP, analogamente ao adjetivo de cons tru ções do ti po de (7), funciona como nú cleo de um AP, o qual realiza o XCOMP do VFLEX. Nas aná li ses do inglês, ao contrário, o PTCP é o verbo principal nas construções passivas, con fi gu ran do uma es trutura mo no pre di ca cio nal, ao passo que o AP predicativo realiza a função gramatical fechada PREDLINK.

Nesses dois pontos, discrepam três das primeiras gramáticas computacionais do francês. Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244., por exemplo, adota a análise bipredicacional para a passiva e os tempos compostos. O adjetivo predicativo realiza nessa abordagem a função ACOMP, que é um XCOMP adjetival. Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998. e Butt et al. (1999)BUTT, M. et al. A grammar writer's cookbook. Stanford: CSLI, 1999., por sua vez, implementam uma análise monopredicacional, na qual o VFLEX é um auxiliar sem estrutura argu men tal. O adjetivo predicativo realiza em Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998. um ACOMP, mas em Butt et al. (1999)BUTT, M. et al. A grammar writer's cookbook. Stanford: CSLI, 1999., a função fechada PREDLINK. A FrGramm implementa a análise monopredicacio nal para as construções verbais (1)-(5); na análise de (7), atribui ao AP a função XCOMP.

Além desta introdução, este trabalho se estrutura em mais 4 seções. Na próxima seção, delineamos o quadro teórico e o sistema computacional utilizados para implementar a FrGramm. A seção seguinte tem como objeto a metodologia, expondo os conjuntos de dados e os procedimentos empregados na implementação das perífrases verbais. Objeto da pe núl ti ma seção é a arquitetura geral da FrGramm, o papel de seus diferentes módulos, com ênfase na modelação das restrições envolvidas nas construções verbais perifrásticas, e a testagem da gramática. A última seção expõe as considerações finais.

O modelo gerativo da LFG e o sistema XLE

A LFG é uma vertente da gramática gerativa (BRESNAN, 2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001.; FALK, 2001FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001.). Graças à formalização matematicamente explícita, gramáticas de línguas naturais elaboradas no formalismo da LFG são diretamente implementáveis no computador. A implementação computacional de fenômenos gramaticais oferece duas vantagens principais em relação a des cri ções formuladas numa língua natural e/ou não completamente formalizadas. A primeira é a possibilidade de utilização em aplicações de tecnologia da linguagem natural, como tradutores automáticos, programas de anotação de corpora, de extração de informações, de resolução de perguntas etc. O exemplo mais notável desse último tipo de apli cação é o IBM Watson, que em 2011 venceu dois cam pe ões hu manos no programa televisivo de perguntas e respostas norte-americano Jeopardy (BEST, 2013BEST, J. IBM Watson: the inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next. TechRepublic, 2013. Disponível em: <https://www.techrepublic.com/article/ibm-watson-the-inside-story-of-how-the-jeopardy-winning-supercomputer-was-born-and-what-it-wants-to-do-next/>. Acesso em: 16 abr. 2016.
https://www.techrepublic.com/article/ibm...
). Esse sistema se baseia no parsing sintático pro fun do por meio de formalismo análogo à LFG (MCCORD; MURDOCK; BOGURAEV, 2012MCCORD, M. C.; MURDOCK, J. W.; BOGURAEV, B. K. Deep parsing in Watson. IBM Journal of Research and Development, Armonk, v. 56, n. 3/4, p. 1-15, 2012.). A segunda van ta gem é a pos-si bi lidade de testar, de forma au to mática, a coerência interna e a adequação em pí ri ca das análises em vastos conjuntos de dados, como listas de sentenças gramaticais e agramaticais, treebanks etc.

Um atrativo da LFG para a comunidade acadêmica é a disponibilidade gratuita do XLE. Trata-se de ambiente de desen vol vi mento e testagem de gramáticas bas tan te e fi-cien te e a mi gável, que constrói automaticamente um parser para uma dada gramática elaborada na variante notacional do formalismo da LFG denominada LFG/XLE. Um diferencial desse sis te ma em relação a alternativas como o XLFG é a pos sibilidade de integrar um transdutor lexi cal pa ra análise mor fológica, o que reduz significativamente o esforço de codificação do léxico. Outra van ta gem do XLE é o su por te à implementação de geradores e tradutores automáticos.

Em LFG/XLE, uma gramática consiste minimamente de dois componentes, a saber, as regras de estrutura sintagmática anotadas e o léxico. Esse último pode constituir-se de (i) formas plenas e/ou (ii) lemas. No for mato (i), há uma en trada lexical para cada for ma fle xionada. Em pequenas gramáticas, es se formato é mais fá cil de implementar; em gra má ti cas de grande cobertura, porém, é inviável se a lín gua em ques tão não dis põe de um lé xi co de for mas plenas que possa ser adaptado. O for ma to (ii) é o mais enxuto e de de sen vol vi mento me nos custoso. Pressupõe, con tudo, um com po nente mor fo lógico im ple men ta do como um trans dutor lexical, um tipo de au tômato de es ta dos finitos que associa for mas fle xionadas a re presentações lexicais (BEESLEY; KARTTUNEN, 2003BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.). Mais adiante, ve re mos como o trans dutor lexical que de sen volvemos no âmbito da Fr Gramm 1.0 sim plifica enormemente a implementação com pu ta cional da pas si va e do pas sa do com posto.

O parser gerado pelo XLE para uma dada gramática pode ser automaticamente apli ca do a uma construção individual ou a um corpus. Para cada construção gramatical, o sistema ge ra automaticamente as diferentes representações sintáticas que a gramática atribui à cons tru ção. A Figura 1 e a Figura 2 exibem representações sintáticas produzidas pelo XLE.

Figura 1
Estrutura C de (4) gerada pelo XLE a partir da FrGramm 1.0
Figura 2
Estrutura F de (4) gerada pelo XLE a partir da FrGramm 1.0

Diferentemente dos modelos chomskyanos, como a Teoria da Regência e da Ligação (TRL) e o Programa Minimalista (PM), a LFG nega a existência, na linguagem humana, de trans formações sintáticas (BRESNAN, 2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001.; FALK, 2001FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001.). Na LFG, as árvores, uma vez ge ra das, não sofrem mais modificações; apenas no léxico se admitem transformações. Desse mo do, no caso de (4), a árvore gerada é apenas a da Figura 1. Nesse modelo, uma estrutura de constituintes (doravante estrutura C, do inglês c-structure) gramatical projeta um outro nível de representação, que é a estrutura funcional (estrutura F, do inglês f-structure). Na Figura 2, te mos a estrutura F correspondente à estrutura C da Figura 1. Na Figura 1, CS 1 no canto superior esquerdo indica que se trata da primeira estrutura C atribuída à sentença pelo parser (no caso, só há uma, pois se trata de sentença não ambígua). A projeção dos nós da estrutura C da Figura 1 sobre a estrutura F da Figura 2 é representada por meio dos índices numéricos dessas estruturas. Por exemplo, o nó mais alto da Figura 1, a categoria Root (‘raiz’ em inglês), que representa a sentença matriz, porta o índice 172. O nó S, que representa a sentença, é o nó 170, enquanto o VPaux (VP com auxiliar) é representado pelo índice 184. Os índices 172, 170 e 184 designam, na Figura 2, a estrutura F de toda a sentença.

Estruturas F de sintagmas, como as dos NPs ou a do VPaux da Figura 1, resultam da u ni fi ca ção das estruturas F dos seus constituintes. A unificação é a operação ma te má ti ca fundamental da LFG e de modelos análogos, como a HPSG (MÜLLER, 2016MÜLLER, S. Grammatical theory: from transformational grammar to constraint-based approaches. Berlin: Language Science Press, 2016. Disponível em: <http://langsci-press.org/catalog/book/25>. Acesso em: 22 mar. 2016.
http://langsci-press.org/catalog/book/25...
). Essa operação reúne as informações de duas ou mais estru tu ras F em uma ú ni ca es tru tu ra, desde que os valores dos diferentes atributos não conflitem (FRANCEZ; WINTNER, 2012FRANCEZ, N.; WINTNER, S. Unification grammars. Cambridge: CUP, 2012., p. 85).

Estruturas F são matrizes de atributos e valores (AVMs, do inglês attribute-value matrices). Formalizam a noção de traço (feature), recorrente em diversas teorias linguísticas. Nesse contexto, um traço é um atributo (como GEN ‘gênero'e NUM ‘número’ na Figura 2) com um va lor (FEM ‘fe mi ni no’, SG ‘singular’ etc.). Por exemplo, conforme a Figura 2, la reine tem os traços GEN=FEM, NUM=SG, PERS=3 e SPEC=DEF. Os dois úl ti mos es peci fi cam a pessoa gramatical e a es pe ci fi ca ção do sin tag ma, que, no ca so, é de finida. A es trutura F da sentença possui, en tre outros, os traços CLAUSE_TYPE=DECLAR, MOOD=IND e PASSIVE=-, indicando que se trata de sentença declarativa, indicativa e ativa.

Atributos do tipo de NUM ou PERS da Figura 2 têm valores atômicos, que podem ser de três tipos: (i) uma cadeia de caracteres, co mo em NUM=SG, (ii) um número natural, como em PERS=3, ou (iii) um valor de verdade (“+” ou “-”), como em PASSIVE=-. Além disso, atributos podem ter valores não atômicos. O poder descritivo das AVMs como formalismo para a descrição de estruturas linguísticas ad vém justamente da possibilidade de um atributo ter como valor uma outra AVM. Com isso, esse formalismo pode dar conta da recursividade das estruturas sintáticas nas línguas naturais. Exemplos de atributos com um valor complexo na Figura 2 são as funções gramaticais SUBJ (sujeito), OBJ e XCOMP.

Estruturas F não só codificam as propriedades gramaticais das sentenças, mas também constituem input para o processamento semântico (MÜLLER, 2016MÜLLER, S. Grammatical theory: from transformational grammar to constraint-based approaches. Berlin: Language Science Press, 2016. Disponível em: <http://langsci-press.org/catalog/book/25>. Acesso em: 22 mar. 2016.
http://langsci-press.org/catalog/book/25...
). A contri bui ção se mân tica de cada núcleo lexical individual para a construção do signi fi ca do sen ten cial é re pre sen tada por meio do atributo PRED. Núcleos funcionais (de ter mi nan-tes, au xi liares etc.) não pos suem um atributo PRED, uma vez que sua contribuição para a estrutura F da sentença é meramente gramatical. No caso de núcleos lexicais avalentes, o valor de PRED, denominado forma semântica, é convencionalmente representado pelo lema en tre as pas sim ples, por exemplo PRED=’REINE’. No caso de núcleos lexicais portadores de va lên cia, como o ver bo forcer em (4), a forma semântica é denominada forma lexical e es pe ci fica a va lência en tre pa rênteses angulares (FALK, 2001FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001., p. 13). Desse modo, a entrada le xi cal para u ma for ma ativa desse verbo contém a equação (8):

Fórmulas como (8) são chamadas esquemas funcionais. Esses esquemas não só in te gram as entradas lexicais como também são utilizados como anotações nas regras de estruturação sintagmática para restringir a projeção da estrutura C sobre a estrutura F. Em (8), o verbo forcer é um pre dicado de três argumentos, a serem realizados, respectivamente, pelas es truturas F do SUBJ, OBJ e XCOMP. A realização de argumentos de um predicado é go ver na da por dois prin cí pios de boa formação de estruturas F: a Condição da Completude determina que todos os argumentos sejam realizados, enquanto a Condição da Coerência exclui as fun ções gramaticais re gidas não especificadas na valência do predicado.

Na Figura 2, a fórmula geral (8) é instanciada como (9):

Em (9), os lugares vazios do predicado de (8) estão preenchidos pelas estruturas F do SUBJ, OBJ e XCOMP, referidas, respectivamente, pelos índices 1, 25 e 29. Lugares argu mentais em formas semânticas só podem ser preenchidos por estruturas F que possuem um atributo PRED. Por conveniência mnemônica, o XLE também insere, nos lugares argumentais de for mas semânticas de valência saturada, as representações ortográficas dos predicados das fun ções gramaticais que realizam esses argumentos, como, no caso de (9), por exemplo, o lema REINE na primeira posição argumental.

O algoritmo de parsing deriva, para a sentença (3), a fórmula (9) a partir de (8) por meio das anotações funcionais.7 7 Um detalhamento do algoritmo de parsing da LFG foge ao escopo do presente trabalho. Consulte-se a esse respeito, por exemplo, Bresnan (2001, p. 56-60). O símbolo “^” cor responde à me ta va riá vel “” na no ta ção tradicional da LFG. Essa metavariável é instanciada, na estrutura F de um constituinte, por variável que designa a estrutura F do nó pai dessa categoria. No exemplo em tela, “^” refere-se ao nó pai de forcé, ou seja, a categoria V. Por funcionar como núcleo do VPaux, as in for ma ções as sociadas a V são pro jetadas para a es tru tura F da sentença. Desse modo, uma expressão do tipo (^ GF) na forma lexical de um verbo, onde GF designa uma função gra ma ti cal, equivale a ‘GF da sentença’, por exemplo, (^ OBJ) equivale a ‘objeto direto da sentença’.

Para concluir esta seção, tratamos das regras lexicais, que desempenham um papel fundamental na análise das diáteses na LFG. Essas regras, jun to ao restante aparato formal da teoria, dispensam a postulação de transformações sintáticas. Equi va lem a fun ções que, apli ca das sobre entradas le xicais, geram outras en tradas. No XLE, essas operações manipulam ape nas os esquemas funcionais das en tra das; não podem, por-tan to, ma nipular a forma dos le xe mas, derivando uma forma passiva como forçados a partir da su fi xação da forma ativa. O XLE, contudo, permite contornar essa de fi ciên cia, integrando um analisador morfológico ao parser, solução adotada pela FrGramm 1.0, como veremos mais adiante.

Agora, nos limitamos a u ma formalização simplificada da regra da passiva em línguas do tipo do francês. Tarefa des sa re gra é modelar a relação sistemática entre os verbos principais de exemplos como (3) e (10), por um lado, e (11), por outro. São os seguintes os fatos principais a serem modelados: (i) a to do particípio passivo corresponde uma forma ativa que rege um OBJ; (ii) o OBJ da forma ativa é realizado como SUBJ na forma passiva; (iii) o SUBJ da ativa é realizado facul ta ti va mente como oblíquo na passiva (SCHWARZE; ALENCAR, 2016SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016., p. 149).

Essas generalizações estão sintetizadas em (12) (SCHWARZE; ALENCAR, 2016SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016.). Em (12) (ii), a fun ção gramatical OBL, em lín guas como o francês, é a dos com ple-men tos ver bais pre po si cio na dos não passíveis de pro no mina li za ção por clítico dativo, diferindo, por tanto, da função OBJ2 (objeto in direto ou ob je to secundário), passível dessa cli ti ci za ção. Nes se caso, OBL ex pres sa o agente da passiva. Em (12) (iii), NULL representa a não rea liza ção desse ar gu men to. O nível (iv) é modelado na LFG como estrutura A (a-structure, do inglês argument structure), desempenhando um im por tan te papel na arquitetura da teoria (FALK, 2001FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001., p. 105 et passim). Essa estrutura, porém, não está implementada no XLE.

To man do como base apenas as propriedades de (12), a passiva pode ser modelada co mo uma operação que incide sobre as funções gramaticais da en tra da lexi cal da for-ma ati va, deri vando, por meio das transformações de (13), duas entradas le xi cais pa ra o particípio passivo. A primeira entrada subjaz a exemplos como (10), a segunda, a exemplos como (3).

Na primeira linha de (13), temos uma disjunção lógica, expressa pelo conector “|”. Essa primeira parte da regra compreende duas alternativas: pela primeira, o SUBJ é convertido em OBL; pela segunda, o SUBJ é convertido em NULL, o que resulta no seu apagamento. Na segunda linha da regra é codificada a transformação do OBJ em SUBJ.

Dados e procedimentos

Esta seção trata dos dois conjuntos de dados utilizados na implementação da pas si va e do pas sado composto na FrGramm 1.0. O conjunto-teste positivo define o recorte gra-matical im ple mentado. O conjunto-teste negativo permite verificar se as restrições que caracterizam os fenômenos em questão foram corretamente implementadas, evitando a hipergeração. Obje to da se ção são também as noções de fragmento e de desenvolvimento em espiral.

Como vimos, a LFG é um modelo matematicamente explícito. Disso decorre que a modelação de um fenômeno gramatical precisa se restringir a um fragmento da língua, i.e. um conjunto definido de sentenças. O trabalho com fragmentos é praxe na sintaxe computacional (FRANCEZ; WINTNER, 2012FRANCEZ, N.; WINTNER, S. Unification grammars. Cambridge: CUP, 2012.).

Estreitamente relacionada a essa prática é a adoção de um desenvolvimento em espiral. Conforme essa técnica de design de software, desenvolve-se primeiro uma versão mais sim ples de um programa (um protótipo), que abarca apenas parte do problema que o software objetiva resolver; em seguida, em sucessivas etapas, esse protótipo é progressivamente incrementado, de modo a dar conta de cada vez mais facetas do problema (ZELLE, 2004ZELLE, J. M. Python programming: an introduction to computer science. Wilsonville: Franklin, Beedle & Associates, 2004.). A apli cação dessa técnica na elaboração de uma gramática consiste em co meçar com a im ple men tação de um fragmento reduzido do recorte gramatical, expandindo a cobertura desse pro tótipo por meio da implementação de fragmentos sucessivamente mais abrangentes.

Para poder ser testado no computador, um modelo linguístico computacional deve constituir um fragmento de gramática capaz de analisar construções que exemplificam as diferentes facetas do fenômeno em questão. Isso implica implementar outros fenômenos presentes nessas construções. Por exemplo, um fragmento de gramática capaz de analisar sentenças passivas precisa tratar também da concordância, da ordem das palavras, da estrutura do sintagma preposicional etc.

A LFG concebe um fenômeno gramatical como uma série de restrições que definem um conjunto de construções gramaticais por oposição a um conjunto de construções agramaticais. Essa concepção tem duas consequências imediatas para a implementação computacional de uma análise. A primeira é que ela deve ser testada em relação a dois conjuntos-teste: o conjunto-teste positivo, com as sentenças gramaticais, e o conjunto-teste negativo, com construções que violam as restrições postuladas. A segunda consequência é que a implementação deve cobrir construções superficialmente análogas, mas fundamentalmente diferentes em termos de restrições, como, por exemplo, em (1), (3) e (7).

Nesses exemplos, temos uma mesma estrutura superficial, que podemos esquematizar como SUBJ est X ‘SUBJ é X’, onde X é um constituinte que concorda em gênero e número com o SUBJ. Trata-se, porém, de três construções distintas: (7) é uma construção predicativa adjetival, (1), uma sentença no passado composto, enquanto (3) é uma sentença passiva. Que restrições caracterizam a passiva, distinguindo-a das outras duas construções? É evidente que somente uma implementação conjunta das três construções permite estabelecer os conjuntos de restrições que as distinguem entre si.

O conjunto-teste positivo contém apenas sentenças construídas. A razão para não se utilizar, na construção de um fragmento de gramática, exemplos extraídos de textos reais é evi tar uma série de dificuldades. Em primeiro lu gar, para testar o fragmento em exemplos reais, seria preciso implementar um vasto léxico. Na fase inicial de desen vol vi men to de um frag mento de gramática, isso significaria des viar es forços da com ple xa tarefa de mo delação for mal e implementação computacional da sin taxe. Em segundo lu gar, exemplos reais de um de terminado fenômeno normalmente instanciam complexidades sintáticas que não se referem especificamente a esse fenômeno, como na ocorrência de construção passiva em (14).

Dada a complexidade da passiva e do passado composto em francês, nos restringimos, para implementar esses fenômenos na FrGramm 1.0, ao recorte gramatical exemplificado em (1)-(5), (7), (10), (11) e (15)-(21). Esse recorte inclui, portanto, também a construção predicativa adjetival.

Explicitamos em (22) o leque de fenômenos modelados na FrGramm 1.0. relacionados diretamente com a passiva e o passado composto. A concordância do PTPST com o OBJ não foi contemplada nessa versão (ver (6)).

O conjunto-teste positivo que serviu de base para a implementação da FrGramm 1.0 consiste de 157 sentenças gramaticais. O conjunto-teste negativo, que contém 279 sentenças agramaticais, foi construído manualmente a partir do primeiro por meio da transformação sis temática das sentenças gramaticais em agramaticais. Por exemplo, a partir de (1), (16), (18) e (19) geraram-se sentenças agramaticais como (23)-(33), violando-se uma ou mais de uma das restrições relativas à concordância, forma verbal, seleção do auxiliar, passivização etc.

Aspectos da implementação

À FrGramm 1.0 subjazem os módulos da Figura 3, que configuram uma arquitetura padrão para gramáticas LFG/XLE (BUTT et al., 1999BUTT, M. et al. A grammar writer's cookbook. Stanford: CSLI, 1999.; KING, 2004KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
; CROUCH et al., 2011CROUCH, D. et al. XLE documentation. Palo Alto: Palo Alto Research Center, 2011. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html> Acesso em: 22 fev. 2016.
http://www2.parc.com/isl/groups/nltt/xle...
): (i) FST-TOK, um toquenizador; (ii) FST-MORPH, um analisador morfológico; (iii) XLE-LEXICON, um conjunto de entradas lexicais; (iv) XLE-TEMPLATES, moldes análogos a ma cros parametrizadas de determinadas linguagens de programação; (v) XLE-SYN-RULES, regras independentes de contexto anotadas com esquemas funcionais. Os módulos com o pre fi xo FST são transdutores de estados finitos, implementados por meio do XFST (BEESLEY; KARTTUNEN, 2003BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.). O prefixo XLE indica a implementação do componente em LFG/XLE.

Figura 3
Arquitetura da FrGramm 1.0

A partir desses componentes, o XLE constrói um parser, o qual pode ser aplicado na aná lise de sentenças inteiras ou sintagmas individuais. Para cada construção gramatical (conforme a gramática subjacente, no caso a FrGramm), o XLE apresenta o respectivo conjunto de estruturas C. Sentenças tratadas como sintaticamente ambíguas pela FrGramm, como (15), projetam mais de uma estrutura C. No caso em tela, são geradas pelo XLE duas estruturas C, comparem-se (34a) e (34b). Cada estrutura C válida, por sua vez, projeta uma ou mais de uma es trutura F, representando as diferentes leituras da sentença em termos funcionais.

Detalhemos cada um dos componentes da Figura 3, começando pelo mais básico, o toquenizador FST-TOK. A função desse módulo é segmentar uma cadeia de caracteres, dada co mo entrada do parser, em uma sequência de tokens, i.e. palavras e sinais de pontuação, que são delimitados pelo símbolo “@”, como na toquenização da sentença (11) em (35). A lém disso, realiza outra tarefa importante no pré-processamento de sentenças, que é a nor ma li za ção (PALMER, 2010PALMER, D. D. Text preprocessing. In: INDURKHYA, N.; DAMERAU, F. J. (Org.). Handbook of natural language processing. 2.ed. Boca Raton, Florida: Chapman & Hall/CRC, 2010. p.9-30.). Essa tarefa consiste em converter as formas variantes de um token em uma forma padrão, como no exemplo (35), em que o determinante Le ‘o’ é minusculizado.

O componente morfológico FST-MORPH é um transdutor lexical (BEESLEY; KARTTUNEN, 2003BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.). Na versão atual da FrGramm, esse analisador se restringe a 39 verbos da 1ª conjugação, totalizando 1794 formas. Por exemplo, para a forma flexionada annonce, que instancia a 1ª e 3ª pessoas do singular do presente do indicativo e do subjuntivo do verbo annoncer ‘anunciar’, o transdutor retorna as quatro representações de (36).

A exemplo das representações de (36), as análises geradas pelo componente morfológico constituem-se do lema seguido de uma sequência de etiquetas que codificam, respectivamente, a categoria lexical (V=verbo), o tempo e o modo (PRS=presente do indicativo, SBJP=presente do subjuntivo), a pessoa e o número (SG=singular).

O analisador morfológico FST-MORPH foi implementado conforme a arquitetura esquematizada na Figura 4. Os quatro componentes da esquerda foram compilados em trans du to res e combinados por meio de operações de estados finitos para produzir o componente da di reita. Os módulos ROOTS1 e ROOTS2 contêm radicais.9 9 A atual versão do componente morfológico da FrGramm não contempla a morfologia derivacional, pelo que os componentes ROOTS1 e ROOTS2 contêm apenas raízes verbais. O primeiro consiste de radicais de verbos regulares como regarder ‘ver’ que não sofrem alterações na conjugação, ao passo que o segundo constitui-se de radicais de verbos como annoncer que sofrem algum tipo de alte ra ção ortográfica sistemática. No caso de annoncer, <c> final é substituído por <ç> antes de vo gal posterior, como em annonçons ‘anunciamos’. Quatro outros tipos de alteração sistemática no radical de verbos da 1ª conjugação foram contemplados. Os verbos acheter ‘comprar’, répéter ‘repetir’, jeter ‘jogar’ e exiger ‘exigir’ exemplificam esses quatro tipos.10 10 Por falta de espaço, não podemos detalhar mais esse aspecto. A construção do analisador morfológico será tema de trabalho futuro.

Figura 4
Arquitetura do componente morfológico da FrGramm 1.0

O componente MORPH-RULES é uma gramática no formalismo LEXC (BEESLEY; KARTTUNEN, 2003BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.). Essa gramática modela a combinatória de radicais e flexões verbais. É com pilada num trans dutor que codifica uma relação de pares (p,w), onde p é uma re pre sen ta ção lexical do tipo de (36) e w, uma forma flexionada intermediária como, por exemplo, mang^ons, do paradigma de manger ‘comer’. O último componente da morfologia é STEM-ALT-RULES, que consiste de regras de reescrita que modelam as alternâncias ortográficas das cinco subclasses de ver bos acima referidas. Essas regras se aplicam sobre formas intermediárias como mang^ons e derivam formas finais como mangeons ‘comemos’.

Como nosso foco é a implementação de construções verbais peri frás ti cas, vejamos como o analisador morfológico trata o particípio, forma verbal constitutiva dessas construções. Em (37), transcrevemos parte de ses são de li nha de comandos do XFST. Por meio do comando load, carregamos o analisador (armazenado no arquivo binário fst-morph) e, em seguida, por meio do comando up, o aplicamos na análise de alguns particípios franceses.

No FST-MORPH, os particípios do francês são classificados conforme o Quadro 1. Nessa classificação, a primeira divisão é entre particípios ativos (PTPST) e particípios passivos (PTPASS). O segundo critério é a concordância, que se aplica apenas na primeira sub ca tegoria. Ao passo que o PTPASS sempre concorda com o seu SUBJ, o PTPST realiza essa concordância apenas com verbos de auxiliar être, como no caso de arriver. Tipicamente, são inacusativos (UNACC é abreviatura de unaccusative), enquanto os intransitivos que selecionam avoir (como danser) são inergativos (UNERG é abreviatura de unergative).11 11 A distinção entre inacusativos e inergativos não corresponde exatamente à distinção entre verbos que selecionam être ou avoir no passado composto. Há várias exceções importantes (SCHWARZE; ALENCAR, 2016, p. 160).

Quadro 1
Classificação dos particípios no FST-MORPH

Os exemplos em (37) evidenciam que o FST-MORPH hipergera. De fato, para cada verbo, o analisador constrói todos os três particípios, independentemente de suas propriedades valenciais. Por exemplo, para verbos não transitivos, como danser, arriver e ordonner, são gerados particípios passivos.12 12 Verbos geralmente possuem mais de uma valência. Não apassiváveis são as variantes dos verbos referidos sem um OBJ em sua moldura de subcategorização. Por outro lado, formas como dansé e arrivé são caracterizadas pelo analisador como ambíguas entre PTPST+UNERG e PTPST+UNACC, quando só a primeira e a última são, respectivamente, válidas.

Qual a razão para essa hipergeração e quais as suas consequências no parsing sintático por meio da FrGramm 1.0? A hipergeração decorre de uma decisão nossa a respeito do design da gramática. Naturalmente teria sido possível, no âmbito da implementação do FST-MORPH, restringir a geração dos três tipos de particípio com base nas duas propriedades sintáticas em jogo, a valência verbal (regência de um OBJ) e a seleção do auxiliar. De fato, a morfologia de estados finitos fornece meios de expressar essas restrições de forma elegante.13 13 As duas referidas restrições podem ser codificadas na gramática LEXC, por exemplo, por meio de flag diacritics (BEESLEY; KARTTUNEN, 2003). Dada a arquitetura da gramática da Figura 3, porém, a codificação de classes de valência na morfologia levaria a uma redundância na gramática, uma vez que, em LFG/XLE, essa informação precisa ser codificada nas formas semânticas dos verbos, nas respectivas entradas do componente lexical, como vimos em (8). Por outro lado, o fato de a morfologia hipergerar não implica necessariamente que a sintaxe hipergere. Isso pode ser evitado por meio de restrições na sintaxe que funcionem como filtro para as formas agramaticais da morfologia. Veremos mais adiante que a FrGramm implementa essas restrições, evitando a geração das construções do conjunto-teste negativo do tipo das exemplificadas em (23)-(32).

O módulo XLE-LEXICON possui três tipos de entradas lexicais. O primeiro tipo são en tradas de formas plenas (full-form entries), que codificam as propriedades morfossintáticas de itens não contemplados na mor fo lo gia. Co mo vimos, na FrGramm 1.0, apenas verbos da 1ª con jugação estão codi fi ca dos no trans dutor le xical. Desse modo, os demais itens estão co di fi ca dos como entradas de formas ple nas. Em (38), temos a entrada para a forma est, 3ª pessoa do singular do indicativo do verbo pleno e do auxiliar être.

Em LFG/XLE, entradas lexicais para itens homônimos como être obedecem ao esquema geral de (39):

Nesse esquema, as expressões em caixa alta e itálico indicam os diferentes tipos de elementos constitutivos de uma entrada lexical. No caso de (38), a forma é est, as categorias são V (verbo) e Aux (auxiliar) e o separador é “*”. Esses três elementos são obrigatórios. Os esquemas funcionais estão em (39) entre parênteses, para indicar que são facultativos.

Em (38), estão contemplados três usos de être. Em (i)-(iii), temos a variante que fun ciona como cópula na construção predicativa adjetival, que analisamos como verbo de alça mento. A linha (i) especifica a valência, como valor do atributo PRED. Trata-se de verbo que exige um SUBJ e um XCOMP. Observe que o SUBJ se encontra em (38) fora dos parênteses angulares. Isso indica que se trata de função gramatical subcategorizada pelo verbo, mas que não realiza argumento semântico do predicado verbal. Como vimos, a função XCOMP re pre senta uma classe de complementos verbais com uma po sição argumental aberta, a ser preen chi da via controle por outra função gramatical do mesmo predicado. A linha (ii) caracteriza, inicialmente, essa variante como verbo de controle do sujeito. Em seguida, o predicado CAT do XLE determina que o XCOMP seja realizado como AP ou PP.14 14 Por falta de espaço, não podemos explicar aqui todos os detalhes da notação do XLE. Para tanto, remetemos a Crouch et al. (2011). A linha (iii) especifica os traços flexionais: o tempo verbal, o modo e a con cor dância. Nessa mesma linha, temos a in vo cação de dois moldes, definidos no módulo XLE-TEMPLATES (Figura 3). O primeiro é o molde IND, que estabelece o modo indicativo. Em seguida, a invocação do molde V-AGR com os argumentos 3 e SG estabelece a concordância de 3ª pessoa do singular.

Nas linhas (iv)-(vi), temos, numa disjunção lógica delimitada por chaves, a segunda e terceira variantes, ou seja, os auxiliares da voz passiva (linha (iv)) e do passado composto (linhas (v)-(vi)). A invocação dos moldes V-AGR e IND na linha (vii) encontra-se fora da disjunção porque essas propriedades são comuns aos dois auxiliares. Como categorias funcionais, ambos não possuem um atributo PRED, que, como vimos, codifica a informação semân ti ca das categorias lexicais. Dessa forma, os auxiliares contribuem apenas com traços morfossintáticos para a estrutura F da sentença. As equações com o atributo CHECK em (iv) e (v) evitam a hipergeração em exemplos do tipo de (27), em que ocorre repetição agramatical de um auxi liar. Essa repetição é licenciada pelo caráter recursivo das regras de estruturação do VP (v. infra). O atributo CHECK foi proposto por King (2004)KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
apenas para assegurar a boa formação sintática; em nada contribui para a descrição das propriedades gramaticais de uma sen tença. A equação com o atributo PASSIVE restringe o em prego desse auxiliar a es truturas pas sivas. A última equação do auxiliar da passiva especifica que o tempo verbal é o presente.

O auxiliar do passado composto exige o particípio passado de verbo que seleciona o auxiliar être (linha (v)). A equação (^ UNACC) = + em (vi) força a concordância do particípio com o sujeito sentencial, em exemplos do tipo (1). A segunda equação especifica que o tempo verbal é o passado composto (SCHWARZE, 2001SCHWARZE, C. Do sentences have tense? In: INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 6., 2001. Proceedings… Stanford: CSLI, 2001. p.449-463., p. 5).

Analogamente a (38), (40) codifica, para a 3ª pessoa do singular do presente do indicativo de avoir, tanto o uso quanto verbo pleno quanto como auxiliar. Diferentemente do auxiliar être do passado composto, especificado com o traço (^ UNACC) = + em (38), o auxiliar avoir é inespecificado para o atributo UNACC. A razão para isso é que o particípio, nesse ca so, pode apresentar concordância ou não, dependendo do tipo de estrutura (cf. (4) e (6)).

O segundo tipo de entradas do módulo XLE-LEXICON tem como objeto as etiquetas da morfologia. As análises geradas pelo transdutor lexical não são diretamente interpretáveis pelo XLE. É necessário traduzir essas representações para esquemas funcionais. Em (41), reproduzimos as entradas desse tipo que se referem diretamente à im ple mentação da pas siva e do passado composto. As duas primeiras entradas in-vocam os moldes PPAST e PASS, que são definidos em (42). A definição do molde PPAST, por sua vez, in vo ca o molde ACT, de fi ni do em (43). O léxico inclui entradas para todas as etiquetas produzidas pelo transdutor, permitindo, por exemplo, que +F e +SG sejam convertidas nos traços GEN=FEM e NUM=SG.

Nas entradas do tipo de (41), o separador não é o asterisco “*”, reservado a formas plenas como em (38), mas a palavra-chave “XLE”. As etiquetas +PTPST, +PTPASS etc., ge radas pelo analisador morfológico, são tratadas como sufixos verbais pelo XLE, razão de a categoria desses elementos em (41) ser V_SFX (do inglês verbal suffix). As equações funcionais atribuídas a esses sufixos são herdadas pelos verbos que os incorporam. Com isso, o particípio passivo exige um valor positivo para o atributo PASSIVE, ao passo que o particípio passado é especificado como VFORM=PART_PAST e PASSIVE=-. Os dois tipos de particípio pas sa do, por sua vez, são diferenciados por meio do valor do atributo UNACC. Se exigido um valor positivo (3ª linha de (41)), a concordância deve realizar-se; se definido um valor negativo (4ª linha de (41)), a concordância é bloqueada. As informações atribuídas desse modo aos três tipos de particípio, em interação com as entradas dos auxiliares (ver (38) e (40)), a regra lexical da passiva e as regras de estruturação sintagmática anotadas permitem que a gramática analise corretamente os exemplos do conjunto-teste positivo e reconheça como agramaticais os exemplos do conjunto-teste negativo do tipo de (23)-(32).15 15 Como veremos mais adiante, a atual versão da FrGramm não modela a precedência linear do auxiliar do passado composto relativamente ao auxiliar da passiva, analisando como gramaticais exemplos do tipo de (33) em que a ordem desses auxiliares está invertida.

O terceiro tipo de entrada do componente XLE-LEXICON é exemplificado pelas entradas de (44)-(46), que subjazem às variantes verbais de (1), (2) e (18), respectivamente.

Essas entradas codificam propriedades dos lemas das formas flexionadas geradas no componente morfológico, propriedades essas não contempladas pelas etiquetas morfológicas. No caso da FrGramm, essas propriedades adicionais são a forma lexical do verbo (que in clui a va lência), a seleção do auxiliar e a concordância do particípio passado, entre ou tras. A in vo ca ção de moldes como os do Quadro 2 permite especificar essas in for mações de forma bastante com pacta. Cada um des ses moldes codifica as propriedades comuns a todos os membros da classe. Por outro lado, as propriedades es pe cí fi cas de um mem bro particular da classe são es pe cificadas por meio de pa râmetros. Por exemplo, em (44) e (45), os moldes UNACC_V e UNERG_V são invocados com apenas um ar gu men to, que é o le ma do verbo. Em (46), con tu do, o molde DIRECTIVE é invocado com três ar gumentos: o le ma (ORDONNER), a função sin tática controladora (OBJ2) e a forma do complementador (DE).

Quadro 2
Exemplos de moldes de classes valenciais na FrGramm 1.0

A passivização é uma importante propriedade lexical. Como a FrGramm especifica que verbos são passivizáveis? As entradas em (47) respondem a essa pergunta.

Seguindo a implementação padrão da passivização em LFG/XLE (KING, 2004KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
), essas entradas invocam o molde PASSIVE, que possui um único argumento: a invocação de um molde de classe valencial (Quadro 2). Trata-se, portanto, da aplicação de uma operação sobre o output de outra. Exemplifiquemos. A aplicação do molde TRANS sobre seu argumento gera os esquemas funcionais próprios dos verbos transitivos. Aplicado sobre esses esquemas, o molde PASSIVE realiza as transformações de (13), gerando, em interação com as in for ma ções codificadas nas entradas de sufixos verbais (ver (41)), entradas lexicais ativas e passivas.

Em (48), temos a definição do molde PASSIVE da FrGramm, uma adaptação do molde análogo proposto por King (2004)KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
em sua gramática LFG/XLE do inglês.

Esse molde tem como único parâmetro um conjunto de esquemas funcionais (variável _SCHEMATA). A definição do molde compreende uma disjunção: a primeira alternativa se refere à diátese ativa, a segunda, à diátese passiva. Essa última, por sua vez, compreende outra disjunção entre duas alternativas, dependendo da transformação do SUBJ em NULL ou em OBL. Nessa última alternativa, exige-se que o valor do atributo CASE (caso) do OBL seja PAR. Comum às duas variantes da passiva é a transformação do OBJ em SUBJ, que, no caso de verbos de controle do OBJ, como forcer em (5), ocorre tanto na forma lexical do verbo quanto na equação de controle funcional.

A esse respeito, comparem-se as estruturas F da Figura 2, Figura 5 e Figura 6. Tanto na estrutura F da sentença ativa quanto nas estruturas F das respectivas passivas, o parser in sere a estrutura F de les chevaliers como segundo argumento de FORCER, na predicação principal, e primeiro argumento de ACHEVER, na predicação secundária. Por outro lado, a estrutura F de la reine é inserida como primeiro lugar argumental de FORCER independentemente da realização desse argumento como SUBJ na Figura 2 ou como OBL na Figura 6.

Figura 5
Estrutura F de (5) gerada pelo XLE a partir da FrGramm 1.0
Figura 6
Estrutura F simplificada de (21) gerada pelo XLE a partir da FrGramm 1.0

Como vimos, na arquitetura da LFG, a estrutura F de uma sentença constitui o input para a projeção da representação do significado sentencial. As análises da Figura 2, Figura 5 e Figura 6 evidenciam que a FrGramm produz as estruturas F esperadas para sentenças passivas e contrapartes ativas, que, no caso de verbos de controle do OBJ do tipo de forcer, constituem um desafio maior ao tratamento computacional do que construções mais simples como (3) e (11). Essas estruturas F permitem, a partir da conversão dos valores do atributo PRED de cada sentença em formas lógicas, calcular as relações semânticas de acarretamento entre (4) e (5) e de equivalência entre (4) e (21) (CRUSE, 2000CRUSE, D. A. Meaning in language: an introduction to semantics and pragmatics. Oxford: Oxford University Press, 2000., p. 28-30).

Retomemos agora a questão da hipergeração morfológica. Na sintaxe, as restrições propostas atuam como filtro das formas hipergeradas. Por exemplo, a análise morfológica de arrivé como particípio passado não flexionado (i.e. arriver+V+PTPST+UNERG) é bloqueada na sintaxe porque, por um lado, o sufixo +UNERG projeta UNACC=- (ver (41)); por outro lado, a entrada lexical de arriver em (44) projeta UNACC = +. Ora, essas duas especificações são incompatíveis, porque os valores do atributo UNACC, por serem diferentes, não unificam.

Em (48), em vez da equação (^ PASSIVE) =c +, que exige um valor positivo para o a tri buto PASSIVE, como propõe King (2004)KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
, temos a equação (^ PASSIVE) = +, que define es se valor como positivo, satisfazendo a exigência imposta pelos particípios passivos gerados na morfologia (ver (42)). Expliquemos, por meio da construção agramatical (32), como o mol de da passiva filtra particípios passivos de verbos não transitivos, como ordonner na variante de (46). Para a forma ordonnée, o analisador morfológico gera as representações de (49) e (50). Pela entrada em (46), esse verbo, por meio do molde DIRECTIVE (Quadro 2), tem o atributo AUX especificado como AVOIR, o que exclui a primeira representação, por que a etiqueta +UNACC exige auxiliar com o traço UNACC=+ (ver (41)). Conforme (38), o auxiliar do passado composto é a única variante de être com essa especificação, porém, exige ver bo com AUX=ÊTRE. A análise (50), por sua vez, é excluída porque +PTPASS exige PASSIVE=+ (ver (41)). No entanto, a única maneira de um verbo receber esse traço é por meio do molde da passiva em (48), o qual, conforme (46), não é aplicado sobre esse verbo.

O último módulo da arquitetura da Figura 3 é XLE-SYN-RULES. Constitui-se de regras de estruturação sintagmática anotadas. Limitamo-nos aqui ao sintagma verbal. Seguindo Butt et al. (1999)BUTT, M. et al. A grammar writer's cookbook. Stanford: CSLI, 1999. e King (2004)KING, T. H. Starting a ParGram grammar. 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
http://www2.parc.com/isl/groups/nltt/xle...
, mas divergindo de Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998. e de Schwarze e Alencar (2016)SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016., distinguimos, com base no tipo de núcleo, entre VPv e VPaux, conforme (51). Nessa definição, VP é uma metacategoria, recurso do XLE que permite tanto expressar ge ne ra li za ções linguísticas quanto simplificar as regras de estrutura sintagmática e as estruturas C, uma vez que esse tipo de categoria não projeta nó na estrutura C. A Figura 1 exem pli fi ca os dois ti pos de VP. En quanto o primeiro é nucleado apenas por V, conforme (53), o se gundo, de fi nido em (52), é conucleado por Aux e V.17 17 Sobre a noção de conúcleo (co-head) na LFG, ver Falk (2001, p. 39). Na teoria de Bresnan (2001, p. 132), conúcleos de natureza funcional são núcleos estendidos de uma categoria lexical. A motivação dessa distinção é excluir exemplos como (26), em que o verbo principal erroneamente precede o auxiliar. No entanto, noutras regras, como na própria regra (52), VPv e VPaux são intercambiáveis, fato que é capturado por meio da metacategoria VP.

O exemplo (53) transcreve parte da regra do VPv, “[…]” indica os trechos suprimidos. Esse sintagma verbal se expande obrigatoriamente em um V e, facultativamente, em uma dis jun ção cujos membros representam as diferentes possibilidades de com plementação verbal (não arroladas exaustivamente aqui), co di ficadas por meio das metacategorias IO, DO, OBL-PP e IC, definidas em (54).

As definições de (54) consistem de categorias sintagmáticas anotadas com esquemas funcionais que especificam o tipo de função gramatical de ca da categoria, a saber, OBJ2, OBJ, OBL e XCOMP, respectivamente. No caso da metacategoria IO, exige-se que o atributo CASE possua o valor À. A metacategoria VP ocorre também do lado direito de (53), para dar conta dos com ple mentos infinitivais de verbos de controle. Dado o ca ráter recursivo dessa ex pansão, cons tru ções bastante complexas com vários complementos en cai xa dos e com mais de um auxiliar, co mo (17) ou (20), podem ser analisadas pela gramática.

Concluímos esta seção com a avaliação da FrGramm. Aplicado o respectivo parser gerado no XLE sobre o con junto-teste positivo, todas as sentenças gramaticais re ceberam as estruturas C e F esperadas. Apenas 8 sentenças receberam duas análises, devido à am bi gui da de de ane xa ção de um PP locativo, exem pli fi ca da em (34). A aplicação do parser ao conjunto-teste negativo, porém, revelou a necessidade de ajustes, na próxima versão da gramática, no módulo XLE-SYN-RULES. De fato, duas das 279 sentenças desse con jun to foram clas si fi ca das como gra ma ti cais pelo parser. Trata-se de (33) e um outro exemplo estruturalmente análogo, em que a ordem dos auxiliares avoir e être está in ver ti da; com pare-se (33) com a construção gramatical em (16). Isso mostra que a FrGramm 1.0 hi pergera nes se as pecto, não mo de lando a relação de precedência entre esses dois auxiliares, uma vez que avoir deve preceder être quando ambos funcionam como auxiliares de um dado verbo principal.

Considerações finais

Neste artigo, descrevemos o tratamento da passiva e do passado composto na FrGramm 1.0, uma gramática computacional do francês de média cobertura sintática que re centemente implementamos em LFG/XLE. Devido à duplicidade de auxiliares e à concordân cia do particípio no passado composto, esse fenômeno gramatical apresenta maior complexi dade em francês do que em línguas como português e inglês. Por outro lado, a análise dessas construções bem como da construção predicativa adjetival, superficialmente análoga à pas siva, tem sido objeto de controvérsias na teoria da LFG.

A FrGramm é a única gramática do francês desse porte implementada em LFG que es tá acessível on-line de forma irrestrita, sob licença que permite a redistribuição de modi fica ções. Desse modo, constitui plataforma para testagem das propriedades computacionais das di ferentes abordagens teóricas dessas construções no formalismo LFG/XLE, podendo também ser adaptada para outros sistemas.

Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. e Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998. são os dois fragmentos de gramática do francês anteriores diretamente comparáveis à nossa abordagem, por estarem documentados de forma su fi cientemente detalhada para permitir uma reimplementação no XLE. Como a FrGramm se posiciona em relação a essas duas propostas? Em primeiro lugar, a FrGramm tem cobertura mui to mais ampla do que o fragmento de Schwarze (1998)SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998., que não inclui o passado composto. Esse trabalho não explicita se a regra da passiva, tanto em sua dimensão morfológica quanto lexical, foi de fato implementada.

O fragmento de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. é bem mais abrangente que o recorte gramatical modelado na FrGramm. Enquanto nosso fragmento se restringe a sentenças declarativas com os constituintes em sua ordem canônica, o de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. inclui sentenças interrogativas, relativas e vá rias outras construções com deslocamento de constituintes. Isso permite à gramática de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. contemplar a concordância do PTPST com o OBJ. Seguindo a téc nica de de sen volvimento em espiral, esse fenômeno teve de ficar fora da primeira versão da Fr Gramm, da da a complexidade do tratamento dessas construções.

Uma deficiência importante da gramática de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. é não integrar um analisador morfológico, limitando-se a um léxico de formas plenas. Desse modo, cada particípio pas si vo é codificado individualmente no léxico, por meio de um molde específico para ca da clas se valencial. Consequentemente, não há nessa abordagem uma única regra da passiva.

A FrGramm preenche essas lacunas da abordagem de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244.. Incorpora um transdutor lexical que analisa as formas de um grupo de verbos da 1ª conjugação, o que possibilita a integração entre morfologia e léxico na modelação computacional da regra da passiva. Uma única regra de passivização contempla todas as classes de valência pas si vi zá veis. Várias clas ses de valência foram implementadas, incluindo cópulas e verbos de con tro le do objeto. Es ses últimos representam uma dificuldade extra para o tratamento com pu ta cional, u ma vez que o controlador, na passiva, passa a ser o sujeito. A FrGramm contempla os as pec tos mor fo lógicos, sintáticos e semânticos da passiva enquanto processo lexical produtivo, pro du zindo estruturas F adequadas tanto para construções simples quanto para estruturas de controle.

Dadas essas características, a FrGramm, abstraindo-se a menor cobertura sintática, revela-se superior à proposta de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. em modularidade e escalabilidade. A FrGramm pos sui uma única regra da passiva, válida para todas as classes de valência a pas si vá veis, en quan to a abordagem de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. pressupõe uma regra para cada classe. Essa diferença se revela decisiva na ampliação do léxico. Na FrGramm, para dar conta de sentenças com um verbo como avancer ‘avançar’, por exemplo, basta incluir a raiz avanc no com ponente ROOTS1 da morfologia e especificar as valências no léxico de lemas, nos moldes de (44)-(47). A inclusão de novos itens lexicais na gramática de Frank (1996)FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996. p.97-244. é bem mais trabalhosa.

A avaliação da FrGramm produziu resultados bastante satisfatórios. O respectivo parser analisou corretamente as 157 sentenças gramaticais do conjunto-teste positivo, que compreende exemplos na voz ativa e passiva tanto no presente do indicativo quanto no passado composto. As estruturas F geradas para todos os exemplos gramaticais foram as esperadas. Das 279 sentenças agramaticais do conjunto-teste negativo, apenas duas não foram analisadas corretamente. A gramática lhes atribui uma estrutura F válida. Essas duas sentenças estão no passado composto da voz passiva. A razão para essa deficiência é que a atual versão da FrGramm não modela a relação de precedência linear entre os auxiliares avoir e être nesse tipo de exemplo. Esse problema será sanado na próxima versão da gramática, que terá sua co bertura ampliada para dar conta da concordância do PTPST com o OBJ.

Com isso, esperamos contribuir para o debate, no âmbito da LFG, a respeito da estrutura pre dicacional das duas construções verbais perifrásticas, ana li sa das neste artigo como monopredicacionais. De fato, essa nova versão da gramática pode ser adaptada para implementar a análise bi pre dicacional, permitindo comparar, no XLE, a complexidade computacional das duas abordagens concorrentes.

  • 1
    O levantamento mais atualizado e abrangente das línguas com gramáticas computacionais (ou fragmentos de gramática) implementadas no formalismo da LFG contém 27 línguas (MÜLLER, 2016MÜLLER, S. Grammatical theory: from transformational grammar to constraint-based approaches. Berlin: Language Science Press, 2016. Disponível em: <http://langsci-press.org/catalog/book/25>. Acesso em: 22 mar. 2016.
    http://langsci-press.org/catalog/book/25...
    , p. 213-214).
  • 2
    Este artigo aprofunda aspectos de uma introdução à teoria da LFG e ao desenvolvimento de gramáticas computacionais no XLE, utilizando exemplos do francês, recentemente publicada em língua alemã, fruto de parceria com Christoph Schwarze (SCHWARZE; ALENCAR, 2016SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016.). A FrGramm é uma versão significativamente melhorada do fragmento de gramática do capítulo 8 desse livro. Na divisão de trabalho para elaboração dessa obra, coube ao autor deste artigo a implementação dos diferentes fragmentos de gramática e a redação das respectivas seções de capítulos. Essas gramáticas refletem intenso diálogo entre os dois autores. Por eventuais erros, contudo, este autor assume a inteira responsabilidade.
  • 3
    Para obter o XLE, consultar a página <http://www2.parc.com/isl/groups/nltt/xle/>.
  • 4
    As condições de uso são detalhadas em <http://creativecommons.org/licenses/by-nc-sa/4.0/>. O código-fonte, os conjuntos-teste bem como os resultados da avaliação da gramática estão disponíveis em https://github.com/lfg-french-grammar.
  • 5
    Diáteses são alternâncias regulares da valência verbal, compreendendo tanto fenômenos de voz, como na oposição entre ativa e passiva, quanto alternâncias não expressas por voz verbal (BUSSMANN, 2002BUSSMANN, H. (Org.). Lexikon der Sprachwissenschaft. 3.ed. Stuttgart: Kröner, 2002.).
  • 6
    O termo verbo de alçamento é empregado na literatura da LFG seguindo a tradição da gramática gerativa transformacional. No entanto, na análise desses verbos na LFG, não há movimento de constituinte, dado o caráter não transformacional dessa teoria.
  • 7
    Um detalhamento do algoritmo de parsing da LFG foge ao escopo do presente trabalho. Consulte-se a esse respeito, por exemplo, Bresnan (2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001., p. 56-60).
  • 8
  • 9
    A atual versão do componente morfológico da FrGramm não contempla a morfologia derivacional, pelo que os componentes ROOTS1 e ROOTS2 contêm apenas raízes verbais.
  • 10
    Por falta de espaço, não podemos detalhar mais esse aspecto. A construção do analisador morfológico será tema de trabalho futuro.
  • 11
    A distinção entre inacusativos e inergativos não corresponde exatamente à distinção entre verbos que selecionam être ou avoir no passado composto. Há várias exceções importantes (SCHWARZE; ALENCAR, 2016SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016., p. 160).
  • 12
    Verbos geralmente possuem mais de uma valência. Não apassiváveis são as variantes dos verbos referidos sem um OBJ em sua moldura de subcategorização.
  • 13
    As duas referidas restrições podem ser codificadas na gramática LEXC, por exemplo, por meio de flag diacritics (BEESLEY; KARTTUNEN, 2003BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.).
  • 14
    Por falta de espaço, não podemos explicar aqui todos os detalhes da notação do XLE. Para tanto, remetemos a Crouch et al. (2011)CROUCH, D. et al. XLE documentation. Palo Alto: Palo Alto Research Center, 2011. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html> Acesso em: 22 fev. 2016.
    http://www2.parc.com/isl/groups/nltt/xle...
    .
  • 15
    Como veremos mais adiante, a atual versão da FrGramm não modela a precedência linear do auxiliar do passado composto relativamente ao auxiliar da passiva, analisando como gramaticais exemplos do tipo de (33) em que a ordem desses auxiliares está invertida.
  • 16
    No contexto da FrGramm, as designações inacusativo e inergativo têm caráter meramente mnemônico, uma vez que se referem não à semântica verbal, mas à seleção do auxiliar do passado composto. Ver nota 11.
  • 17
    Sobre a noção de conúcleo (co-head) na LFG, ver Falk (2001FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001., p. 39). Na teoria de Bresnan (2001BRESNAN, J. Lexical-functional syntax. Malden: Blackwell, 2001., p. 132), conúcleos de natureza funcional são núcleos estendidos de uma categoria lexical.

Agradecimentos

Agradecemos a Valeria de Paiva pela intermediação junto a John Maxwell e Daniel Bobrow, ambos do Palo Alto Research Center da Xerox (PARC), para obtenção de uma licença não comercial gratuita do XLE. Nossos agradecimentos se estendem a essa empresa bem como a todos os pesquisadores envolvidos na criação desse software. Somos também grato a Christoph Schwarze, Jessé de Sousa Mourão e os revisores anônimos pelos valiosos comentários e sugestões a respeito de versões anteriores deste artigo. No entanto, todos os erros remanescentes são de nossa responsabilidade.

REFERÊNCIAS

  • BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology Stanford: CSLI, 2003.
  • BEST, J. IBM Watson: the inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next. TechRepublic, 2013. Disponível em: <https://www.techrepublic.com/article/ibm-watson-the-inside-story-of-how-the-jeopardy-winning-supercomputer-was-born-and-what-it-wants-to-do-next/>. Acesso em: 16 abr. 2016.
    » https://www.techrepublic.com/article/ibm-watson-the-inside-story-of-how-the-jeopardy-winning-supercomputer-was-born-and-what-it-wants-to-do-next/
  • BOULLIER, P.; SAGOT, B.; CLÉMENT, L. Un analyseur LFG efficace pour le français: SxLfg. In: TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES, 12., 2005. Actes… Dourdan, 2005. p.403-408. Disponível em: < http://www.atala.org/taln_archives/TALN/TALN-2005/taln-2005-court-004>. Acesso em: 9 fev. 2016.
    » http://www.atala.org/taln_archives/TALN/TALN-2005/taln-2005-court-004
  • BRESNAN, J. Lexical-functional syntax Malden: Blackwell, 2001.
  • BUSSMANN, H. (Org.). Lexikon der Sprachwissenschaft 3.ed. Stuttgart: Kröner, 2002.
  • BUTT, M. et al. A grammar writer's cookbook Stanford: CSLI, 1999.
  • CLÉMENT, L. XLFG Bordeaux: University Bordeaux, 2014. Disponível em: <http://www.xlfg.org/>. Acesso em: 22 fev. 2016.
    » http://www.xlfg.org/
  • CLÉMENT, L.; KINYON, A. XLFG – an LFG Parsing Scheme for French. INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 6., 2001. Proceedings… Stanford: CSLI, 2001. p.47-65.
  • CROUCH, D. et al. XLE documentation Palo Alto: Palo Alto Research Center, 2011. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html> Acesso em: 22 fev. 2016.
    » http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html
  • CRUSE, D. A. Meaning in language: an introduction to semantics and pragmatics. Oxford: Oxford University Press, 2000.
  • FALK, Y. N. Lexical-functional grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI, 2001.
  • FRANCEZ, N.; WINTNER, S. Unification grammars Cambridge: CUP, 2012.
  • FRANK, A. Eine LFG-Grammatik des Französischen. In: BERMAN, J.; FRANK, A. Deutsche und französische Syntax im Formalismus der LFG Tübingen: Niemeyer, 1996. p.97-244.
  • KAPLAN, R. M.; BRESNAN, J. Lexical-functional grammar: a formal system for grammatical representation. In: BRESNAN, J. (Org.). The mental representation of grammatical relations Cambridge: MIT Press, 1982. p.173-281.
  • KING, T. H. Starting a ParGram grammar 2004. Disponível em: <http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html>. Acesso em: 10 nov. 2012.
    » http://www2.parc.com/isl/groups/nltt/xle/doc/PargramStarterGrammar/starternotes.html
  • MCCORD, M. C.; MURDOCK, J. W.; BOGURAEV, B. K. Deep parsing in Watson. IBM Journal of Research and Development, Armonk, v. 56, n. 3/4, p. 1-15, 2012.
  • MÜLLER, S. Grammatical theory: from transformational grammar to constraint-based approaches. Berlin: Language Science Press, 2016. Disponível em: <http://langsci-press.org/catalog/book/25>. Acesso em: 22 mar. 2016.
    » http://langsci-press.org/catalog/book/25
  • PALMER, D. D. Text preprocessing. In: INDURKHYA, N.; DAMERAU, F. J. (Org.). Handbook of natural language processing 2.ed. Boca Raton, Florida: Chapman & Hall/CRC, 2010. p.9-30.
  • PATEJUK, A.; PRZEPIÓRKOWSKI, A. In favour of the raising analysis of passivisation. INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 19., 2014. Proceedings… Stanford: CSLI, 2014. p.461-481.
  • PRATT-HARTMANN, I. Computational complexity in natural language. In: CLARK, A; FOX, C.; LAPPIN, S. (Org.). The handbook of computational linguistics and natural language processing Malden: Wiley & Blackwell, 2010. p.43-73.
  • SAGOT, B. Page web de Benoît Sagot – équipe Alpage (INRIA/Paris 7): SxLFG. Paris: Université Paris Diderot, [2015?]. Disponível em: <http://alpage.inria.fr/~sagot/sxlfg.html>. Acesso em: 22 fev. 2016.
    » http://alpage.inria.fr/~sagot/sxlfg.html
  • SCHWARZE, C. Do sentences have tense? In: INTERNATIONAL LEXICAL-FUNCTIONAL GRAMMAR CONFERENCE, 6., 2001. Proceedings… Stanford: CSLI, 2001. p.449-463.
  • SCHWARZE, C. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. 2.ed. Konstanz: Fachgruppe Sprachwissenschaft der Universität Konstanz, 1998.
  • SCHWARZE, C.; ALENCAR, L. F. de. Lexikalisch-funktionale Grammatik: eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung. Tübingen: Stauffenburg, 2016.
  • SULGER, S. et al. ParGramBank: the ParGram paralell treebank. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 51., 2013. Proceedings… Sofia: Association for Computational Linguistics, 2013. p.550-560.
  • ZELLE, J. M. Python programming: an introduction to computer science. Wilsonville: Franklin, Beedle & Associates, 2004.
  • ZWEIGENBAUM, P. Un analyseur syntaxique pour grammaires lexicales-fonctionnelles. T.A. Informations, Paris, v. 32, n. 2, p.19-34, 1991. Disponível em: <https://perso.limsi.fr/pz/FTPapiers/ZweigenbaumTAI91.pdf>. Acesso em: 10 fev. 2016.
    » https://perso.limsi.fr/pz/FTPapiers/ZweigenbaumTAI91.pdf

Datas de Publicação

  • Publicação nesta coleção
    May-Aug 2017

Histórico

  • Recebido
    Abr 2016
  • Aceito
    Jan 2017
Universidade Estadual Paulista Júlio de Mesquita Filho Rua Quirino de Andrade, 215, 01049-010 São Paulo - SP, Tel. (55 11) 5627-0233 - São Paulo - SP - Brazil
E-mail: alfa@unesp.br