39
Relações Anafóricas no Português Falado: Uma Abordagem Baseada em Corpus (A Corpus-based Approach to Anaphora in Spoken Portuguese) Marco ROCHA (Universidade Federal de Santa Catarina) ABSTRACT: This paper describes corpus-based research on anaphoric relations in spoken Portuguese, relying on data collected in dialogues recorded in real- life situations. The essential analitycal tool is a corpus annotation which classifies each case of anaphora according to four attributes described in the paper. The research project as a whole is concerned with possible applications in natural language processing, particularly regarding natural language interfaces to databases. KEY-WORDS: Anaphora; Corpus annotation; Corpus linguistics; Natural language processing. RESUMO: O trabalho descreve pesquisa baseada em corpus sobre relações anafóricas no português falado, desenvolvida a partir de dados coletados em diálogos gravados em situações da vida real. A ferramenta de análise essencial da pesquisa é uma anotação de corpus que classifica cada caso de anáfora segundo quatro atributos descritos no trabalho. O projeto de pesquisa como um todo está relacionado ao desenvolvimento de possíveis aplicações no processamento de linguagens naturais em sistemas computacionais, particularmente no que diz respeito a interfaces em linguagem natural para acesso a bancos de dados. PALAVRAS-CHAVE: Anáfora; Anotação de corpus; Lingüística de corpus; Processamento de linguagens naturais. Introdução

Relações Anafóricas No Português Falado

Embed Size (px)

DESCRIPTION

Anáforas na fala

Citation preview

Relaes Anafricas no Portugus Falado: Uma Abordagem Baseada em Corpus

Relaes Anafricas no Portugus Falado: Uma Abordagem Baseada em Corpus(A Corpus-based Approach to Anaphora in Spoken Portuguese)

Marco ROCHA (Universidade Federal de Santa Catarina)

ABSTRACT: This paper describes corpus-based research on anaphoric relations in spoken Portuguese, relying on data collected in dialogues recorded in real-life situations. The essential analitycal tool is a corpus annotation which classifies each case of anaphora according to four attributes described in the paper. The research project as a whole is concerned with possible applications in natural language processing, particularly regarding natural language interfaces to databases. KEY-WORDS: Anaphora; Corpus annotation; Corpus linguistics; Natural language processing.

RESUMO: O trabalho descreve pesquisa baseada em corpus sobre relaes anafricas no portugus falado, desenvolvida a partir de dados coletados em dilogos gravados em situaes da vida real. A ferramenta de anlise essencial da pesquisa uma anotao de corpus que classifica cada caso de anfora segundo quatro atributos descritos no trabalho. O projeto de pesquisa como um todo est relacionado ao desenvolvimento de possveis aplicaes no processamento de linguagens naturais em sistemas computacionais, particularmente no que diz respeito a interfaces em linguagem natural para acesso a bancos de dados. PALAVRAS-CHAVE: Anfora; Anotao de corpus; Lingstica de corpus; Processamento de linguagens naturais.

Introduo

A investigao das relaes anafricas exige sempre uma definio inicial daquilo que se pretende analisar, uma vez que, em meio vasta quantidade de estudos produzidos sobre o assunto, o termo anfora muitas vezes utilizado para significar fenmenos distintos. Conforme assinala Bosch (1983), a palavra anfora foi, em certo sentido, uma soluo hbil para os problemas causados pelo termo pronominalizao, pois o sentido literal da palavra pronome pode levar a interpretaes inadequadas. Pronomes so mais do que um substituto para um substantivo ou sintagma nominal que poderia ser utilizado em seu lugar. O enfoque baseado na substituio tambm encontra dificuldades para lidar com referncias pronominais a entidades do discurso que no foram explicitamente introduzidas ou cujos referentes so passagens inteiras de discurso (ver Hirst 1981, o prprio Bosch 1983 e Carter 1987 para levantamentos detalhados dos enfoques em questo).

As abordagens que permaneceram dentro dos limites da gramtica sentencial notadamente a gramtica gerativa desenvolveram estudos sobre anforas sintaticamente controladas. Com isto, um grande nmero de casos foram desconsiderados como anforas "pragmaticamente controladas", que no tinham lugar na teoria lingstica. Alm disto, desenvolveu-se, como parte integrante destas abordagens, um hbito de criar exemplos, ao invs de extra-los de dados observveis no uso cotidiano da lngua. Esta prtica foi justificada com base na crena de que o verdadeiro conhecimento lingstico deveria ser procurado fora da linguagem cotidiana conforme usada em contexto para fins de comunicao.

Uma consequncia positiva da mudana de terminologia foi a possibilidade de associar aos pronomes fenmenos que no constituem referncia pronominal, utilizando, no obstante, uma nomenclatura adequada. Sob o nome de anfora, os pronomes podem ser analisados como uma manifestao de um processo muito mais amplo: o uso de uma variedade de mecanismos lingsticos para gerar coeso, conforme definida em Halliday e Hasan (1976). Embora os pronomes permaneam sendo o objeto de anlise mais freqente das pesquisas relacionadas s relaes anafricas, diversos estudos buscam discutir outras formas de referncia anafrica, tais como sintagmas nominais anafricos no-pronominais e elipses verbais ver , por exemplo, Webber (1979) e Hoey (1991).

Esta expanso do conceito aconteceu em grande parte atravs de pesquisas que focalizavam fenmenos discursivos, como Fox (1987), as quais foram realizadas no apenas por lingistas, mas tambm por pesquisadores nas reas de psicolingstica e processamento computacional de linguagens naturais (doravante, PLN). A necessidade de apresentar alternativas de explicao para problemas ainda difceis de tratar dentre eles a resoluo de referncias anafricas , aliada dificuldade de mapear os modelos abstratos da lingstica de base sentencial at as enunciaes da lngua cotidiana, com os quais estes campos do conhecimento tm necessariamente que lidar, motivou o esforo tanto para incorporar aspectos textuais anlise dos fenmenos estudados, quanto para fortalecer a base emprica das investigaes.

Diante destas variaes no arcabouo terico e metodolgico no qual as pesquisas se inserem, no surpreendente que a literatura produzida a respeito das relaes anafricas utilize o termo para significar uma gama varivel de fenmenos lingsticos1. Especificamente, as diferenas mais freqentes nas investigaes em questo dizem respeito incluso ou no de referncias anafricas intersentenciais; utilizao ou no de amostras de uso real da lngua; e incluso ou no de uma variedade maior de termos anafricos, embora o pronome de terceira pessoa permanea sendo o termo anafrico prototpico e mais freqentemente estudado.

A metodologia da lingstica de corpus oferece uma alternativa para aqueles pesquisadores que resistem ao distanciamento da teoria lingstica em relao lngua usada no cotidiano. As gramticas e teorias, nas pesquisas baseadas em corpus, so desenvolvidas a partir de um levantamento abrangente de um nmero significativo de ocorrncias de um fenmeno dado, em amostras de uso da lngua em situaes da vida real. Exemplos criados so a exceo, e no a regra. Todos os casos do fenmeno estudado so includos na anlise, e noes de estatstica, tais como freqncia e probabilidade, desempenham um papel central na formulao da teoria.

Alm disto, as abordagens baseadas em corpus podem ser associadas aos modelos conexionistas em PLN, uma vez que estes modelos pressupem habitualmente um corpus de treinamento. As redes conexionistas so atualmente uma alternativa de abordagem relativamente estabelecida em inteligncia artificial, em parte devido s srias dificuldades enfrentadas pelos sistemas precedentes de PLN ao lidar com a linguagem natural irrestrita. Segundo os que advogam a adoo de modelos conexionistas ou baseados em corpus em PLN, parte do problema a preocupao excessiva, at ento, com a formulao de regras de base lgica para lidar com as linguagens naturais, com uma contrapartida de descaso pela coleta e anlise de dados e exemplos de uso da lngua para comunicao (ver Harris 1992).

A quantidade de pesquisa produzida com uso de abordagens baseadas em corpus tem crescido ininterruptamente nos ltimos anos, embora seja ainda pequena em termos de estudos orientados para as relaes discursivas, como o caso das relaes anafricas. A metodologia da lingstica de corpus no exatamente uma abordagem nova, como demonstrado em Francis (1992). Contudo, o advento do computador digital alterou radicalmente as possibilidades deste tipo de abordagem, uma vez que o armazenamento de enormes quantidades de dados, sob a forma de corpora de grande porte, tornou-se relativamente fcil, particularmente com o barateamento do custo das mquinas nos ltimos anos. A eficincia com que os computadores realizam operaes de busca e recuperao permite que uma grande quantidade de ocorrncias de um dado fenmeno seja analisada com rapidez e preciso.

Deste modo, a lingstica de corpus est intimamente relacionada lingstica computacional, um termo genrico utilizado para abranger praticamente qualquer uso de computadores para a anlise e gerao de lnguas humanas. Compreende-se, portanto, que uma parcela substancial da pesquisa produzida segundo abordagens baseadas em corpus venha da rea de inteligncia artificial, muitas vezes em projetos conjuntos com lingistas. As abordagens baseadas em corpus constituem-se em uma alternativa importante para a soluo de problemas de PLN que as abordagens baseadas em regras tm dificuldade de resolver. Este trabalho busca contribuir para este esforo de pesquisa e, portanto, discute sucintamente a possibilidade de utilizar os resultados aqui descritos em aplicaes tais como interfaces em linguagem natural para acesso a banco de dados, traduo de mquina e aprendizado de lnguas com ajuda de computador.

O estudo descrito em seguida teve como objetivo fundamental investigar as relaes anafricas em dilogos na lngua portuguesa, de maneira a estabelecer padres de ocorrncia baseados no uso cotidiano da lngua para comunicao. A fonte de dados utilizada o Corpus de Dilogos Clnicos do Rio de Janeiro (doravante, CDC-RJ), cujas caractersticas sero descritas no decorrer do trabalho. O processo de formulao das concluses partiu de um mnimo de noes tericas a priori, buscando evoluir no sentido de uma gramtica das relaes anafricas baseada na observao (Aarts 1991).

O estudo dos fenmenos anafricos em dilogos reais envolve uma variedade de formas de referncia, realizadas por pronomes, sintagmas nominais e formas verbais, muitas vezes organizados em cadeias de referncia. Alm disso, a interpretao correta do discurso falado requer o controle dos diferentes referentes em tempo real. Os fenmenos anafricos so, na verdade, to ubquos, e aparecem sob formas to diversas, que a definio do objeto de estudo de fato bastante difcil. Ainda mais importante, as exigncias de processamento que a resoluo destas referncias requer tambm so diferentes e no variam de maneira simtrica em relao aos diversos termos anafricos2. Sendo assim, ocorrncias distintas do mesmo pronome podem requerer processamento diferente, com uso diferenciado dos meios de resoluo de anforas que o discurso e o conhecimento lingstico dos participantes fornecem. Por outro lado, ocorrncias de termos anafricos de tipo diferente podem ser resolvidas por meio de processos semelhantes.

Uma descrio dos fenmenos anafricos adequada a uma abordagem baseada em corpus, e, portanto, to desprovida de pressupostos tericos quanto possvel, parte da existncia de elementos do discurso que estabelecem uma relao especial com um outro elemento deste mesmo discurso. A interpretao semntica, em seu aspecto textual, depende no apenas do reconhecimento da existncia desta relao, mas tambm da identificao do antecedente correto, uma operao complexa que ultrapassa o estabelecimento de uma correspondncia trivial entre os elementos em questo. Esta operao chamada freqentemente de resoluo da anfora.

Neste enfoque, portanto, anfora o nome dado a esta relao ou processo no qual um termo anafrico, em uma instncia de discurso dada, se vincula a um elemento identificvel chamado de antecedente para que a interpretao semntica seja realizada com xito3. Estes elementos tm que estar presentes no discurso ou ser inferveis do que foi dito. O ambiente fsico circundante e a situao em que o discurso ocorre so tambm fontes cruciais de informao para que a interpretao correta se concretize, sobretudo nos casos de dixis4 na lngua falada. Esta ser a definio adotada neste trabalho.

Os casos de anfora foram analisados com base no que estava foneticamente realizado, sem pressupor qualquer processo de resoluo da referncia em questo. Deste modo, as noes de pronome zero e categoria vazia no foram a priori consideradas necessrias para a construo do modelo de classificao utilizado nesta pesquisa para a anlise de fenmenos anafricos5. Conseqentemente, a noo de verbo anafrico foi utilizada para classificar o termo anafrico nas ocorrncias de anfora em que a estrutura argumental do verbo requer a recuperao de um elemento do discurso. Sintagmas preposicionais e adverbiais foram tambm analisados como anafricos em ocorrncias em que a estrutura sintagmtica incompleta de uma enunciao requer a recuperao de elementos do discurso para a interpretao semntica. A classificao de termos anafricos, juntamente com os demais atributos associados a cada caso de anfora, ser descrita em maior detalhe na seo que aborda o modelo de classificao.

A forma de discurso na qual a pesquisa se concentra o dilogo de obteno de informaes ou orientado para a realizao de uma tarefa de qualquer tipo. No caso da lngua portuguesa, dois aspectos das relaes anafricas em dilogos chamam a ateno do analista. O primeiro aspecto a omisso do sujeito ou do objeto, ou ainda de ambos, uma caracterstica comum do portugus falado. A referncia a uma entidade do discurso a ser identificada detectada atravs da estrutura argumental, a qual estabelece o conjunto de argumentos essenciais aos diferentes verbos da lngua. Uma vez que o sujeito no esteja realizado, preciso identific-lo no discurso ou inferi-lo com base nas informaes transmitidas atravs deste contexto discursivo, sejam elas de natureza estritamente lingstica ou relacionadas ao conhecimento que decorre da experincia de mundo e da situao em que a conversao se passa.

O segundo aspecto digno de nota o fenmeno das cadeias de referncia, isto , de termos anafricos vinculados a outros termos anafricos que os precedem em cadeia. Em ltima anlise, a resoluo ocorre atravs de um termo anafrico no incio da cadeia. Estas cadeias so de extrema importncia na lngua falada, sobretudo em dilogos, onde so muito mais freqentes. Se comparados lngua escrita ou lngua falada expositiva formal, os dilogos tipicamente lidam com um nmero bem menor de referentes aos quais se faz referncia repetidamente (ver Biber 1992 para um anlise comparativa dos sistemas de referncia no discurso escrito e falado na lngua inglesa). No caso do portugus, porm, estas cadeias so em parte construdas tambm com base na estrutura argumental.

Se comparado com lnguas como o ingls e outras do ramo germnico, possvel obervar que o portugus no possui um pronome neutro que possa ser utilizado como termo anafrico nos casos em que o referente um ser inanimado ou abstrao. Ainda que a funo de pronome neutro sobreviva em portugus, em certa medida, nos pronomes demonstrativos isto, isso e aquilo, a repetio sistemtica destes pronomes soaria no mnimo estranha e intuitivamente inadequada em muitos contextos. Pode-se observar, deste modo, que o controle constante da estrutura argumental um aspecto fundamental da interpretao semntica relacionada s referncias anafricas, permitindo a identificao de sujeitos e objetos que no estejam foneticamente realizados.

Ainda explorando a anlise comparativa com a lngua inglesa, poder-se-ia dizer que esta ltima se baseia em pronomes (como he, she, it and they) e operadores (os verbos auxiliares de modo geral) para sinalizar a necessidade de recuperar elementos no discurso anterior, possibilitando a interpretao semntica. Em conseqncia, a omisso de elementos apresentados na pergunta torna as respostas uma forma de referncia anafrica, uma vez que sua interpretao depende da recuperao destes elementos6. Em portugus, esta mesma funo realizada por formas verbais com argumentos omitidos.

Os dois aspectos mencionados acima e sua realizao no sistema de referncias do portugus falado foram sistematicamente explorados no estudo. O restante do artigo est organizado da seguinte maneira: na prxima seo, descrita a metodologia empregada na coleta de dados e na anlise propriamente dita; a seo subseqente apresenta o modelo de classificao utilizado na anlise dos casos de anfora encontrados no corpus; a quarta seo discute os resultados do estudo e aponta possveis desdobramentos significativos a serem desenvolvidos a partir destes resultados. A ltima seo resume a investigao realizada e sugere aplicaes possveis.

1. Metodologia

A descrio da metodologia utilizada no estudo est dividida em duas subsees. Na primeira, descreve-se o corpus coletado para os propsitos da pesquisa e o processo de coleta. Na segunda subseo, os fundamentos das abordagens de base em corpus so definidos em maior detalhe.

1.1. O corpus

Uma vez decidido que a pesquisa utilizaria uma abordagem baseada em corpus, concentrando-se no portugus falado, o prximo passo foi selecionar um corpus adequado aos propsitos da pesquisa. A idia de um corpus como fonte de material para pesquisa sobre linguagem no nova para os pesquisadores brasileiros. Sob a influncia de abordagens orientadas para a investigao sociolingstica, pelo menos uma iniciativa nacional de coleta de material da lngua falada o Norma Urbana Culta (NURC) foi implementada e levada a cabo em vrias capitais brasileiras. Diversos outros projetos de carter local foram tambm realizados.

A maior parte das pesquisas, tanto no Brasil como em outras partes do mundo, se concentra em fenmenos fonticos, morfolgicos e sintticos. O nvel do discurso menos freqentemente enfocado. Vrias razes contribuem para esta tendncia, entre elas o grau muito menor de consenso em relao s teorias explicativas relacionadas aos fenmenos do discurso. Um segundo fator, diretamente relacionado aos corpora de dilogos, que as exigncias habituais de autenticidade no so to facilmente atendidas quanto na lngua escrita. A autenticidade de dados extrados de um jornal, enquanto amostras de lngua escrita, por exemplo, praticamente garantida, uma vez que o texto no produzido em conseqncia de uma iniciativa de pesquisa lingstica. Isto tambm verdade para a quantidade enorme de textos escritos diariamente em muitas lnguas, criando assim um montante substancial de dados disponveis para os lingistas.

A fim de atingir o mesmo nvel de autenticidade em um corpus de lngua falada, necessrio registrar dilogos que ocorram naturalmente em interaes entre pessoas enquanto se dedicam a suas atividades dirias. As dificuldades que isto implica no so de pequena monta. A primeira deciso crucial escolher hora e local apropriados para realizar as gravaes. Isto geralmente exige negociaes, j que as pessoas tendem a no aceitar muito facilmente a idia de serem gravadas em situaes que digam respeito a seu trabalho. As condies de gravao podem ser desfavorveis ou mesmo imprevisveis. Dependendo do ambiente onde as gravaes ocorram, pode ser inteiramente impossvel controlar interferncias potencialmente desastrosas na rotina das gravaes.

Deste modo, no surpreendente que os pesquisadores que tentam coletar dados da lngua falada prefiram mtodos menos arriscados, o que geralmente significa gravar em ambientes protegidos, tais como estdios ou dependncias das universidades. Os informantes recebem algum tipo de tarefa, a qual gera uma interao mediada pela fala, ou so simplesmente entrevistados por um pesquisador sobre algum tpico considerado adequado. Este , sem dvida, um mtodo vlido de obter dados da lngua falada, mas as limitaes, para propsitos de pesquisa que incluem a investigao de fenmenos do discurso, so inegveis. Os dados coletados desta maneira no so autnticos stricto sensu, uma vez que as conversaes no teriam ocorrido se uma iniciativa de pesquisa dada no estivesse em curso.

Neste sentido, o CDC-RJ um corpus autntico. As gravaes foram feitas nas dependncias da UnATI (Universidade Aberta da Terceira Idade), um projeto de tratamento holstico, pesquisa e formao de pessoal qualificado para a terceira idade, ligado Universidade do Estado do Rio de Janeiro.A UnATI opera em um dos andares do edifcio principal da Universidade do Estado do Rio de Janeiro. Suas atividades institucionais incluem vrios cursos tais como yoga, dana de salo, oficina de poesia e lnguas estrangeiras psicoterapia, recreao e aconselhamento alimentar e legal. No aspecto clnico, h consultas com mdicos e enfermeiros, fisioterapia e entrevistas com os assistentes sociais. Estas ltimas so geralmente voltadas para a seleo de novos alunos-pacientes para admisso na UnATI, segundo uma variedade de critrios em sua maioria relacionados impossibilidade de obter tratamento de outro modo.

As gravaes foram feitas em ambos os locais e contm dilogos entre pacientes ou parentes de pacientes e a equipe, incluindo profissionais de assistncia de sade de todos os nveis, assim como alguns dilogos entre membros da equipe. Os gravadores foram operados pelos prprios membros da equipe, de modo que, uma vez que os procedimentos bsicos haviam se tornado claros, o pesquisador nada fez, alm de trazer os gravadores e fitas pela manh e recolh-los ao final do dia. Em conseqncia do esprito altamente cooperativo da equipe da UnATI, muitas horas de dilogos foram gravadas durante aproximadamente duas semanas.

Devido s limitaes habituais de tempo e financiamento, a maior parte deste material no foi sequer transcrito, uma vez que excede em muito as exigncias da pesquisa para a qual foi coletado, em termos de dados, assim como do estudo apresentado aqui. Cerca de dez dilogos j foram de fato digitalizados. Seis deles foram suficientes para suprir os 3045 casos de anfora analisados no presente estudo.

1.2. A abordagem

A lingstica de corpus no se constitui em um ramo da lingstica, no sentido que o so disciplinas como a sociolingstica ou a psicolingstica. Trata-se, na verdade, de uma metodologia de anlise lingstica, e no de uma rea de pesquisa. possvel, portanto, estudar fontica, sintaxe ou semntica, alm dos prprios ramos acima citados, por meio de um corpus, uma vez que este seja adequado para a iniciativa de pesquisa em questo (ver Leech 1992, McEnery e Wilson 19967). Uma vez que a ferramenta fundamental para a investigao de um corpus qualquer o computador (ver Leech 1992), fica pressuposto que o corpus seja legvel por mquina, e a rea comum entre a lingstica de corpus e a lingstica computacional torna-se naturalmente ampla e em constante expanso.

Em relao dicotomia chomskyana entre competncia e desempenho ou seus desenvolvimentos mais recentes, a lingstica de corpus se concentra no desempenho lingstico e no na competncia. Em termos sucintos (ver Sampson 1987 e Leech 1992 para um tratamento mais completo), a metodologia de base em corpus no considera a competncia como o assunto por excelncia da lingstica, e, na verdade, v a separao entre a competncia mental de um falante da lngua e sua manifestao no uso cotidiano como superdimensionada nas abordagens gerativistas. Por isso mesmo, a nfase das investigaes baseadas em corpus recai sobre a descrio lingstica, ao invs de sobre a busca de universais lingsticos.

A tendncia a encarar a descrio e anlise da lngua, conforme usada na vida real, como uma atividade menor ou de cunho "no-terico" da mesma maneira como se poderia separar lepidopterologistas de colecionadores de borboletas inteiramente rejeitada na lingstica de corpus. A anlise do corpus envolve o processamento mental da linguagem investigada, trazendo consigo, portanto, a necessidade de desenvolver modelos psicolgicos do processamento. Estes modelos, porm, so desenvolvidos a partir da observao da linguagem em uso, e no revelia desta linguagem.

Vale destacar que a maioria das aplicaes do conhecimento lingstico seja em educao, traduo ou PLN dizem respeito a lnguas especficas e no a universais. Desta forma, as abordagens de base em corpus associam a lingstica, como cincia, tecnologia e verificao independente de resultados, como j verdadeiro h sculos nas cincias naturais. Encarar resultados como um aspecto menor da investigao cientfica compromete gravemente qualquer iniciativa no sentido da avaliao da qualidade dos modelos e teorias construdos.

Ainda dentro da mesma vertente de anlise, termos como "quantitativa" ou "empirista", quando associados a uma metodologia, parecem trazer, desde a ascenso e subseqente predomnio da gramtica gerativista, algum tipo de conotao pejorativa cuja validade no mnimo discutvel. O uso de noes como freqncia e probabilidade no exclui a anlise qualitativa, nem muito menos o uso de regras e modelos, apenas fundamenta estes construtos com nmeros, o que, em si, dificilmente pode ser encarado como metodologicamente inadequado.

Na realidade, a questo da freqncia faz invariavelmente parte da seleo de material a ser includo em atividades didticas relacionadas a lnguas, como fcil verificar em qualquer mtodo de ensino de lngua estrangeira. No h, portanto, nenhuma razo para desprezar os mtodos estatsticos bastante teis que j foram desenvolvidos em outras reas para fazer previses quanto ao comportamento lingstico de, por exemplo, usurios de um sistema computacional capacitado a processar linguagem natural. Na verdade, isto j sistematicamente praticado, e seria positivo que os lingistas participassem com maior intensidade neste florescente ramo da pesquisa cientfica.

Em suma, a lingstica de corpus baseia-se no desenvolvimento de gramticas a partir da observao da linguagem em uso. Nas pginas que se seguem, espera-se poder exemplificar como esta abordagem lida com um fenmeno reconhecidamente difcil de tratar como as relaes anafricas, e que alternativas de soluo tem a oferecer para as aplicaes mais comuns do conhecimento lingstico, onde as relaes anafricas continuam a colocar dificuldades considerveis para professores, tradutores e projetistas de sistemas.

2. O modelo de classificao

Os fenmenos anafricos foram classificados segundo quatro atributos, a saber: o tipo de termo anafrico; o tipo de antecedente; o papel topical do antecedente; e a estratgia de processamento. Cada caso de anfora encontrado na amostra foi classificado segundo estes atributos, de acordo com as categorias possveis para cada um deles. O processo de desenvolvimento deste modelo de classificao ser apresentado aqui como algo acabado, mas foi, na verdade, desenvolvido a partir do processo de anlise dos casos de anfora encontrados no corpus, e, assim, reiteradamente corrigido e aperfeioado at que tivesse sido alcanado um padro considerado satisfatrio para a anlise coerente dos dados do corpus (ver Rocha 1998 para uma descrio completa).

2.1. O tipo de termo anafrico

Os termos anafricos foram classificados em trs grandes grupos, a saber:

pronomes;

verbos e adjuntos adverbiais;

nomes.

No primeiro grupo, foram includos todos os pronomes pessoais de terceira pessoa, invariavelmente considerados como termos anafricos, assim como: todos os pronomes possessivos substantivos; os pronomes possessivos adjetivos de terceira pessoa; todos os pronomes demonstrativos substantivos; todos os pronomes reflexivos de terceira pessoa; os pronomes indefinidos algum, nenhum, todo, muito, pouco, vrios, tanto e quanto, em todas as suas flexes, quando usados como pronomes substantivos; e os numerais empregados com funo de ncleo de sintagma nominal.

Na categoria dos verbos e adjuntos adverbiais foram agrupados os verbos anafricos, abrangendo as formas verbais de terceira pessoa sem sujeito explcito, inclusive os verbos de ligao; todas as formas verbais de verbos transitivos sem objeto explcito; todas as formas verbais de verbos de ligao sem predicativo do sujeito explcito; todos os advrbios utilizados em enunciaes onde o sintagma verbal a que se relacionam no est explcito, inclusive os sinais de resposta sim e no; todos os sintagmas preposicionais utilizados em enunciaes onde o sintagma verbal a que se relacionam no est explcito; e alguns outros casos raros envolvendo oraes subordinadas que exigem a recuperao da principal a que esto vinculadas. Abaixo dado um exemplo de sintagma preposicional anafrico8.

(1) A: mas a senhora continua com a mesma com o mesmo sintoma? B: com o mesmo problema

No fragmento de conversao acima, o sintagma preposicional com o mesmo problema s pode ser interpretado se for vinculado enunciao precedente adequadamente. Deste modo, tanto os sintagmas preposicionais quanto os advrbios anafricos so muitas vezes respostas a perguntas ou reaes a declaraes feitas pelo interlocutor. O terceiro grupo dos nomes inclui sintagmas nominais anafricos, inclusive as repeties literais, e adjetivos que qualificam ncleos omitidos de sintagmas nominais, os quais tm que ser recuperados no contexto do discurso.

Em relao aos pronomes, algumas opes foram feitas no que diz respeito ao caso oblquo dos pronomes pessoais de terceira pessoa. Embora os pronomes tonos do caso oblquo de primeira e segunda pessoa sejam utilizados regularmente no portugus falado, o mesmo no verdade em relao s formas de terceira pessoa. Os pronomes retos so empregados com freqncia, mesmo quando se trata de um objeto direto. Estas ocorrncias foram includas como pronomes objetos na amostra de casos de anfora, sem qualquer distino em relao s demais formas. Um exemplo mostrado abaixo.

(2) B: eu consegui matricular ele no INPS perto de casa

Nos usos de pronomes de terceira pessoa em contrao com a preposio de, as ocorrncias foram invariavelmente classificadas como casos do tipo de termo anafrico pronome objeto, mesmo quando a funo semntica da contrao , claramente, de possessivo, como no exemplo abaixo:

(3) A: quais so as queixas dele?

A posse, no portugus falado, quase que invariavelmente denotada atravs destas contraes nos casos de terceira pessoa. Isto resultou em freqncias muito baixas de termos anafricos classificados como qualquer dos dois tipos de pronomes possessivos mencionados acima, uma vez que os pronomes de primeira e segunda pessoa, onde a incidncia maior, no foram, de modo geral, includos na amostra, j que, na maioria dos casos, no sinalizam referncia anafrica, exceto nos casos de discurso relatado.

Em relao aos verbos anafricos, tambm foi necessrio rever a definio estabelecida inicialmente para que ocorrncias cuja classificao se mostrou problemtica pudessem ser includas na amostra. Os verbos anafricos foram descritos acima como uma forma verbal que exige a recuperao de elementos da sua estrutura argumental no contexto do discurso para sua interpretao semntica. Conforme assinalado anteriormente, isto requer, para fins de processamento, que a presena de argumentos essenciais dos verbos seja constantemente verificada em relao a um padro de estrutura argumental incorporado a um lxico pr-existente em uma mquina ou na mente de um usurio da lngua.

Ao realizar a coleta de casos de anfora no corpus, o analista utilizou um procedimento bsico: verificar a presena de um sujeito em todos os sintagmas verbais, e dos objetos necessrios em todos os verbos transitivos, alm dos predicativos nos verbos de ligao. Sempre que um dos argumentos essenciais no era encontrado, a ocorrncia era classificada como um verbo anafrico. O contexto discursivo era ento analisado para identificar o antecedente e a estratgia de processamento, conforme classificao apresentada mais adiante. Um exemplo de verbo anafrico mostrado abaixo.

(4) A: a senhora sabe se tem algum exame de sangue da senhora? de colesterol, de glicdio? B: 'tava ... foi a foi a a doutora pediu, n? A: pediu?

A primeira ocorrncia da forma verbal pediu tem um sujeito explcito, mas no h objeto direto na enunciao. Entretanto, pedir um verbo transitivo que requer um objeto direto e, muitas vezes, um objeto indireto tambm, embora, neste caso, parea ser desnecessrio incluir este ltimo na anlise. A ocorrncia ento analisada como um verbo anafrico, o que significa que o discurso foneticamente realizado no fornece os argumentos essenciais do verbo conforme esperado. O objeto direto tem que ser recuperado no turno precedente, embora o verbo da enunciao no seja pedir, mas sim ter em seu sentido existencial, o qual no requer um sujeito, mas necessita de um objeto.

A ocorrncia subseqente de pediu no explicita nenhum dos dois argumentos, e por isso analisada como um caso de referncia anafrica dupla por meio de um nico termo anafrico, j que preciso recuperar dois antecedentes no discurso anterior. Casos como este no so incomuns. Contudo, h sentenas do portugus que so analisadas, segundo Cunha (1985), como no tendo sujeito, identificadas por certos verbos e usos tpicos de formas verbais, listados abaixo:

sintagmas verbais que expressam fenmenos naturais

o verbo haver quando denota existncia

os verbos haver, fazer e ir quando se referem a tempo transcorrido

o verbo ser quando se refere a tempo

A esta lista devem ser acrescentadas as ocorrncias do verbo ter que tambm denotem existncia, j que so bastante comuns no portugus falado. A inexistncia de sujeito nestas formas verbais no foi considerada um caso de anfora. As ocorrncias destes verbos em que o objeto ou o predicativo do sujeito estavam omitidos foram, porm, includas na amostra como casos de anfora, j que estes argumentos so necessrios interpretao semntica. Um problema de soluo mais difcil se relaciona s formas verbais que tm funo de marcadores do discurso, seja em perguntas de confirmao ou em respostas a perguntas. Estas ocorrncias no podem ser tratadas de maneira uniforme, uma vez que elas, em muitos casos, desempenham funes discursivas simultaneamente ao papel esperado determinado pelo sentido lexical do verbo, como no exemplo abaixo.

(5) A: e ele, como que ele 't de sade, Joana? quais so as queixas dele? B: olha sade ele no ... no 't bem, n? ele aposentado, mas continua trabalhando, entendeu?

O sentido literal de entendeu no se adequa muito claramente ao contexto, j que a enunciao precedente declarativa e transmite informaes simples, que no exigem nenhuma forma especial de entendimento. A forma verbal em questo cumpre, principalmente, a funo pragmtica de certificar-se da ateno do ouvinte e mant-la focalizada no que est sendo dito. No obstante, o verbo entender, nesta acepo, um transitivo direto que exige um objeto. Nada nos verbetes de dicionrios da lngua portuguesa (ver Hollanda 1986) sugere a possibilidade deste tipo de ocorrncia como intransitivo, e tambm no h qualquer comentrio em Cunha (1985). Porm, estas ocorrncias so muito freqentes, e extremamente difcil, e, em certos casos, impossvel especificar o objeto direto destas formas verbais.

Uma maneira de lidar com estas ocorrncias seria deix-las tambm de fora da amostra, como ocorrncias do verbo entender com sentido alterado, as quais no incluiriam um objeto direto em sua estrutura argumental. O primeiro problema com este tipo de soluo , evidentemente, que no existe nenhum precedente deste tipo de anlise na literatura de referncia, diferena dos verbos sem sujeito discutidos anteriormente. O segundo problema decorre do fato de que possvel detectar pelo menos parte do sentido lexical do verbo ainda preservado. O terceiro problema deriva da existncia de ocorrncias muito semelhantes no corpus em que a interpretao semntica pode ser muito mais "referencial". Na realidade, parece existir um continuum de referencialidade (ver Schiffrin 1987) neste tipo de ocorrncia, variando desde o sentido lexical estrito do verbo at o uso para funes exclusivamente pragmticas, em que o sentido lexical da forma verbal praticamente irrelevante.

No decorrer da anlise dos dados do corpus, foi possvel observar a rica complexidade da interao entre relaes anafricas, estrutura argumental, marcadores do discurso e perda de sentido lexical, com a contrapartida de um aumento do peso da funo pragmtica das formas verbais. Em muitos casos envolvendo perguntas de confirmao ou respostas com os argumentos omitidos, formas verbais dos verbos entender e saber so utilizadas com variados graus de preservao do sentido e de contrapartida em termos de reforo do papel pragmtico.

Estas ocorrncias apresentam complexidade ainda maior se forem consideradas tambm as ocorrncias dos verbos de ligao ser e estar, cuja estrutura argumental exige a identificao de um sujeito e de um predicativo do sujeito. Em termos de processamento, torna-se necessrio especificar quais as situaes em que um determinado verbo ser considerado com sua estrutura argumental padro e quais exigem solues em que esta estrutura descartada em favor de uma interpretao como marcador discursivo. O problema semelhante ao do tratamento de termos como pronomes demonstrativos que, embora tipicamente anafricos, ocorrem como no-referenciais em colocaes especficas, ainda que, no caso destes ltimos, o levantamento dos ambientes que propiciam as alteraes no tenha que lidar com uma complexidade to grande de graus de referencialidade.

A soluo encontrada para o problema ser apresentada mais adiante, uma vez que extrapola o mbito da classificao dos tipos de termo anafrico, envolvendo tambm o tipo de antecedente e a estratgia de processamento.

3.2. O tipo de antecedente

A classificao do tipo de antecedente diz respeito basicamente dicotomia implcito/explcito, sendo que o segundo tipo predomina fortemente, pelo menos em dilogos. Abaixo h dois exemplos de anfora. No exemplo (6), o antecedente no sinto sede durante o dia est explcito na enunciao anterior. A variao de pessoa no foi considerada no estudo como suficiente para que a classificao do antecedente oracional fosse classificada de maneira diferente.

(6) A: e sede, a senhora sente muita sede durante o dia? B: nenhuma

No exemplo (7), o antecedente acar est implcito devido forte ligao semntica com glicose. Parece razovel afirmar que, em termos de processamento, a ativao de elementos prximos do campo semntico tem participao importante na identificao de referncias deste tipo.

(7) A: mas a senhora alguma vez j fez algum exame de glicose para ver se tem algum problema B: bom, quando eu fiz estava passando uns dez pontinhos mas o mdico falou que era tambm da idade e no ia passar remdio s suspender o acar

H ocorrncias, porm, em que a classificao do antecedente difcil, tais como a expresso por isso ou por aquilo no exemplo (8) abaixo.

(8) B: sobre a urina? A: B: no, eu nunca prestei ateno se era por isso ou por aquilo que eu comesse, entendeu

A expresso cristalizada no se refere especificamente a nenhum alimento em particular, embora seja composta por dois pronomes demonstrativos, ambos tipicamente empregados na funo de termo anafrico. Tendo em vista o processamento automtico de relaes anafricas, para o qual o estudo pretende contribuir, importante incluir todas as ocorrncias de palavras tipicamente anafricas, de modo a estabelecer os padres de ocorrncia. No caso em questo, no h um antecedente stricto sensu para os termos anafricos. Casos como este receberam a classificao de no-referencial.

certamente relevante assinalar que estes casos no constituem relao anafrica propriamente dita, uma vez que no h antecedente a ser identificado. Por outro lado, sua incluso permite avaliar com que freqncia palavras tipicamente utilizadas como termos anafricos, como o caso dos demonstrativos em questo, so empregadas em situaes em que a relao anafrica no se concretiza conforme esperado, e, sobretudo, permite estudar estas situaes de modo a estabelecer em que contextos ocorrem. Isto pode ser da maior importncia para o processamento automtico de anforas, uma vez que um interpretador de anafras em um sistema qualquer no persistiria em tentativas inteis de identificar um antecedente especfico.

Tambm verdade que a anlise destes padres de ocorrncia contribui para o esclarecimento inclusive do aspecto psicolingstico do processamento de relaes anafricas, ao levantar a questo das expresses cristalizadas e outras formas mais complexas de processamento com base em esquemas, geralmente discutidas na literatura da lingstica de corpus sob a denominao de colocaes. A noo de colocao pode ser definida como a co-ocorrncia sistemtica de itens lexicais, com a possibilidade de um tratamento estendido para abranger as estruturas lxico-gramticas propostas na lingstica sistmica. A questo voltar a ser discutida na subseo relativa s estratgias de processamento.

A anlise dos dados do corpus revelou, gradativamente, que seria necessrio criar uma quarta possibilidade de classificao de antecedentes para lidar com casos como o do exemplo (9) abaixo. Segundo o critrio estabelecido para a determinao do carter anafrico de um verbo qualquer, verifica-se a presena dos argumentos essenciais em forma explcita na enunciao. Caso haja omisso, fica caracterizada a anfora. No caso da forma de terceira pessoa do singular do verbo ser abaixo, o sujeito est omitido e precisa ser recuperado no contexto do discurso para que a interpretao semntica se complete com xito.

(9) A: a senhora prefere fazer o exame num hospital aqui no Hospital Carlos Pinto B: no, no preferncia, eu fui fazer a, mas teve esses problemas, A: teve esses problemas

A anlise do contexto aponta para um antecedente implcito de difcil especificao. A melhor soluo est provavelmente em uma expresso genrica, tal como o problema ou a questo, que se referem quilo que est sendo discutido ou falado no momento de maneira relativamente vaga. Contudo, preciso que haja alguma maneira pr-definida de lidar com ocorrncias como estas, j que elas no so particularmente incomuns. Foi criada a categoria do antecedente implcito no discurso para classificar este tipo de ocorrncia. Tais situaes demonstram a importncia das abordagens baseadas em corpus, uma vez que a anlise dos dados do corpus coloca questes autnticas que provavelmente no seriam lembradas. A confiana na prpria intuio, sem o confronto com dados da lngua conforme utilizada para comunicao, tem conseqncias sobre o processamento automtico de linguagens naturais, tornando os sistemas construdos excessivamente frgeis diante da enorme variedade de situaes possveis da vida cotidiana.

2.3. O papel topical do antecedente

Este atributo constitui uma tentativa de incorporar a relao freqentemente mencionada entre topicalidade e anfora ao modelo de classificao. Utilizando informaes estatsticas simples, tais como freqncia e distribuio, juntamente com dados tais como a posio da primeira ocorrncia no texto e a classificao do constituinte como sintagma nominal, foi especificado um tpico do discurso para cada dilogo, alm de um tpico de segmento para cada passagem de dilogo em que se verificasse continuidade de tpico. Foram definidos tambm elementos temticos do discurso e elementos temticos de segmento, a fim de classificar entidades do discurso (no sentido utilizado em Weber 1979) importantes que no fossem tpicos.

A anlise do corpus demonstrou que, em muitos casos, uma diviso em subsegmentos se faz necessria, e cada um dos subsegmentos recebeu um tpico, chamado de tpico de subsegmento. Algumas outras categorias foram utilizadas para casos raros de difcil classificao que no necessrio analisar aqui. Estas categorias foram utilizadas para definir um papel topical para cada antecedente detectado em todos os casos de anfora includos na amostra. Esta definio de papis topicais resulta, em ltima anlise, numa especificao da estrutura da topicalidade de um dilogo dado.

Uma discusso completa desta estrutura da topicalidade impossvel dentro dos limites deste trabalho. No obstante, vale destacar que estas informaes desempenham papel fundamental na resoluo de casos de anfora particularmente complexos e difceis de resolver, onde o termo anafrico est distante o suficiente de seu antecedente para que existam vrias alternativas de antecedentes sintaticamente viveis entre o termo anafrico e o antecedente correto.

2.4. A estratgia de processamento

A estratgia de processamento foi considerada como uma varivel necessria para a anlise das relaes anafricas, j que o tipo de termo anafrico e o tipo de antecedente no so suficientes para definir com exatido o caminho a ser percorrido para a resoluo de uma referncia anafrica. Uma vez que o estudo pretende contribuir para o processamento automtico de relaes anafricas em sistemas computacionais capacitados a lidar com linguagens naturais, foi considerada essencial uma maior preocupao com definies relativas ao processamento, investigando as associaes entre o termo anafrico, o antecedente e o processamento, de modo a estabelecer padres de ocorrncia que pudessem orientar um interpretador de anforas em um sistema atuante no mundo real.

Foram estabelecidas quatro categorias abrangentes para definir as possveis estratgias de processamento empregadas na resoluo de anforas. A primeira delas foi chamada de processos sintticos, e diz respeito a resolues de referncias anafricas baseadas em concordncia e proximidade, isto , o antecedente o primeiro candidato adequado encontrado no discurso precedente, levando em conta gnero e nmero do termo anafrico empregado. Tais solues podem ser implementadas com relativa facilidade em um sistema de computadores atravs de um algoritmo "ingnuo", isto , uma seqncia de procedimentos que ignora toda a informao de natureza semntica, como o descrito em Hobbs (1986). Um exemplo deste tipo de resoluo para anfora dado abaixo.

(10) B: fiz a ... aquele negcio que anda na esteira A: uhum foi o teste ergomtrico, n? B: , fiz aquilo

As cadeias de referncia foram tambm consideradas como um processo sinttico, uma vez que o algoritmo "ingnuo" localizaria um outro termo anafrico, o qual, em princpio, j teria sido previamente analisado e resolvido. Embora as cadeias de referncia apresentem problemas de soluo no to simples quanto a simples escolha do primeiro candidato adequado para o processamento, no parece excessivo pressupor que as informaes de natureza sinttica seriam suficientes para garantir o xito da interpretao. Porm, no exemplo abaixo, h trs ocorrncias de pronome demonstrativo anafrico, sendo que a terceira faz parte de uma contrao com a preposio de. Esta ocorrncia no faz parte de uma cadeia de primeiros candidatos e seria resolvida incorretamente com uso do algoritmo "ingnuo".

(11) B: eu tinha assim um pelgio A: sei, aquilo que cai assim embaixo do olho B: no, filha, um ... do colesterol d assim feito umas gordurinhas A: aham B: ento, eu tinha demais A: uhum B: a eles tiraram A: isso em funo do colesterol? B: o mdico diz que A: nossa B: do colesterol A: e a voc fez uma uma pequena cirurgia B: , ele aproveitou, tirou pele tambm e A: aham B: e tirou a A: mas voc ficou legal disso, depois controlou o colesterol e ficou, ficou, no volta no n? no reincide no?

O pronome demonstrativo na ltima enunciao do fragmento acima refere-se a pelgio, mas o primeiro candidato adequado seria pele, uma vez que o demonstrativo isso no discrimina o gnero do referente. Mesmo que elementos de semntica lexical fossem utilizados, a expresso ficar legal no eliminaria a possibilidade do referente ser pele com base em restries selecionais. Somente fatores de natureza discursiva podem garantir o processamento com xito deste tipo de referncia, onde necessrio ignorar um ou mais candidatos adequados mais prximos e localizar um antecedente mais distante. Este tipo de estratgia de processamento, e algumas variantes dela, foi denominada como conhecimento discursivo, uma vez que preciso incluir fatores do contexto do discurso para viabilizar o processamento. As referncias diticas tambm esto includas nesta categoria.

O terceiro tipo de estratgia de processamento diz respeito a um fenmeno j mencionado, as colocaes, e recebeu o nome de conhecimento de colocaes. Imagine-se que o lxico mental possua uma lista de expresses cristalizadas cujo processamento est pr-determinado em conseqncia da experincia acumulada no uso da lngua. Esta lista pode incluir combinaes entre itens lexicais, traos semnticos comuns a um grupo de itens lexicais e estruturas sintticas (ver Rocha 1998 para uma lista detalhada). O levantamento realizado no corpus, atravs da classificao da estratgia de processamento, permitiria, portanto, que esta mesma lista hipottica fosse construda e, potencialmente, incorporada ao interpretador de anforas como conhecimento essencial para o xito do processamento.

Sendo assim, a colocao por isso ou por aquilo estaria associada a uma resoluo em que a ocorrncia no-referencial. Vale frisar que todos os exemplos discutidos at agora so de pronomes demonstrativos, o que demonstra a importncia de incluir uma varivel como a estratgia de processamento, evitando, assim, que fenmenos anafricos to diversos fossem agrupados sob a mesma classificao sem maiores especificaes.

O quarto tipo de estratgia de processamento diz respeito ao uso de informaes de natureza lexical e recebeu, portanto, o nome de conhecimento lexical. O exemplo (7) um caso tpico deste tipo de estratgia, onde o antecedente acar pode ser identificado devido ativao anterior causada pela meno da glicose. As referncias anafricas por meio de repetio lexical foram includas nesta categoria. Embora esta estratgia de processamento esteja fortemente associada aos sintagmas nominais anafricos no-pronominais, a anlise dos dados do corpus revelou que o conhecimento lexical tambm importante para a resoluo de referncias por meio de sintagmas preposicionais e advrbios anafricos.

O processo de anlise foi feito atravs do exame dos dilogos do CDC-RJ. Cada caso de anfora includo na amostra foi anotado manualmente com a classificao definida por estas quatro variveis. Foram analisados 3045 casos de anfora em seis dilogos do CDC-RJ. Alguns resultados da anlise sero discutidos na prxima seo.

3. Os resultados do estudo

A Tabela 1 abaixo resume as freqncias dos tipos de termo anafrico na amostra coletada.

Pode-se observar, na Tabela 1, que o tipo de termo anafrico mais freqente na amostra de portugus falado analisada o verbo9. Uma vez que este estudo presume ter conseguido coletar uma amostra autntica de dilogos em portugus, parece seguro afirmar que o verbo anafrico a forma predominante de referncia anafrica da lngua. Vale frisar que uma anlise de dilogos em ingls segundo a mesma classificao registrou uma pequena variao na percentagem de nomes anafricos, e percentagens diametralmente opostas de pronomes e verbos (ver Rocha 1998). Isto refora a observao, feita anteriormente, de que o sistema de referncia, em ingls, baseia-se fundamentalmente em sinais explcitos da necessidade de recuperar um elemento do discurso para a interpretao semntica, enquanto a lngua portuguesa utiliza a estrutura argumental dos verbos para detectar argumentos essenciais omitidos que sinalizam a referncia anafrica. A Tabela 2 abaixo mostra os nmeros relativos ao tipo de antecedente.

A predominncia dos antecedentes explcitos indiscutvel. Isto demonstra que a resoluo de referncias anafricas depende fundamentalmente de um processamento adequado dos elementos diretamente introduzidos no discurso, e no de inferncias a partir de informaes no discurso, em busca de antecedentes implcitos. A percentagem relativamente alta de ocorrncias no-referenciais provavelmente conseqncia do grande nmero de marcadores do discurso com funes estritamente pragmticas. A Tabela 3 resume os resultados da amostragem em termos de estratgia de processamento.

A importncia do conhecimento de colocaes fica bastante evidenciada nos nmeros relativos estratgia de processamento, ainda que os processos sintticos predominem como forma de resolver as referncias anafricas que integram a amostra. O conhecimento lexical, onde a repetio lexical a forma predominante de sinalizar o caminho para a identificao do antecedente, tambm atinge um percentual bastante alto de estratgias de processamento. O conhecimento discursivo, onde se concentram os casos difceis, cuja soluo exige um processamento conjunto de diversos elementos do contexto discursivo, concentra o menor nmero de casos, mas, ainda assim, suficientes para inviabilizar a interpretao semntica global de uma instncia de discurso, caso no se obtenha xito em sua resoluo.

A Tabela 4 apresenta o cruzamento dos nmeros relativos ao tipo de termo anafrico com o tipo de antecedente. Os antecedentes implcitos no discurso foram agrupados aos implcitos em geral, de modo a facilitar os testes de chi-quadrado e associao descritos em seguida (ver Walsh 1990 para uma discusso dos problemas gerados por clulas com valores muito baixos para os testes de chi-quadrado).

As clulas com os nmeros mais interessantes se concentram na coluna dos no-referenciais. Em forte contraste com resultados do estudo realizado com dilogos em lngua inglesa em Rocha (1998), utilizando a mesma classificao, o nmero de pronomes no-referenciais muito baixo, enquanto o de verbos e adjuntos adverbiais muito alto. Isto parece revelar que os verbos anafricos, particularmente os verbos de ligao anafricos, so mais freqentes quando suas formas equivalentes em lngua inglesa so pronomes neutros ao invs das formas usadas para referentes humanos, j que estes nunca so no-referenciais. Fica assim delineado, mais uma vez, o contraste entre dois sistemas de referncia que utilizam, respectivamente, pronomes e verbos como suas formas de termo anafrico por excelncia.

Os testes de chi-quadrado para estas duas variveis demonstraram alta significncia de sua relao, do ponto de vista estatstico, uma vez que a possibilidade de sua relao se dever ao acaso menor do que p < 0.00005. No entanto, a medida de associao, usando o tau de Goodman e Kruskal, revelou um nvel de associao baixo, com uma reduo proporcional do erro de 0.4. Isto significa que a probabilidade de prever com acerto o tipo de antecedente, uma vez que se saiba o tipo de termo anafrico, aumenta apenas em 4%, se comparada ao acaso. A Tabela 5 apresenta o cruzamento dos nmeros do tipo de termo anafrico com as estratgias de processamento.

Apesar da predominncia dos processos sintticos por pequena margem, pode ser observado que as resolues baseadas em conhecimento de colocaes atingem um nvel muito alto. Isto se deve influncia de um grande nmero de verbos de ligao anafricos no-referenciais, cuja estratgia de processamento fundamentalmente o conhecimento de colocaes, conforme discutido anteriormente. As ocorrncias de resolues com base em conhecimento lexical se concentram nos nomes, o que seria de se esperar. As ocorrncias de resolues com base em conhecimento discursivo tambm predominam entre os verbos, mas, considerando a quantidade muito maior de ocorrncias de verbos anafricos do que de pronomes, o nvel das ocorrncias de pronomes com este tipo de resoluo alto, uma vez que atinge cerca de trinta por cento dos casos, enquanto os pronomes chegam apenas a 17.4% dos casos no cmputo geral.

Os testes de chi-quadrado com estas duas variveis tiveram resultados semelhantes aos feitos com as duas variveis da Tabela 4. Contudo, o nvel de associao medido pelo tau de Goodman e Kruskal chega a 0.36, o que significa que a possibilidade de prever a estratgia de processamento com acerto aumenta em 36% quando se conhece o tipo de termo anafrico. Isto significa que, dado um dilogo onde so conhecidos os termos anafricos, as estratgias de processamento a serem utilizadas tm boa possibilidade de serem previstas com preciso, sobretudo se informaes contextuais coletadas atravs da observao dos tipos de termo anafrico especficos puderem ser utilizadas.

Sabe-se que, atualmente, j existem programas capazes de atribuir classes gramaticais s palavras de um texto legvel por mquina automaticamente. Estes programas so geralmente chamados de etiquetadores de estruturas morfossintticas. Embora o nvel de exatido que obtm em transcries de dilogos tenha que ser verificado, a perspectiva de obter informaes efetivas sobre estratgias de processamento de termos anafricos a partir de sua classe gramatical parece real, ainda que este estudo no seja em absoluto suficiente para concluses mais definitivas. Finalmente, a Tabela 6 mostra os resultados do cruzamento dos dados entre as estratgias de processamento e os tipos de antecedente.

Fica claro aqui que a associao entre colocaes e no-referenciais absoluta. Deste modo, os termos aparentemente anafricos que na realidade no se referem a um antecedente identificvel podem ser detectados atravs de uma lista de colocaes, ainda que as formas verbais discutidas anteriormente possam aparecer tanto como colocaes, ou seja, com seu sentido alterado, quanto como ocorrncias com seu sentido lexical esperado.

Os testes de chi-quadrado realizados com estas duas variveis obtiveram significncia em nvel idntico aos registrados nas duas outras tabulaes cruzadas. O nvel de associao registrado para estas duas variveis foi razoavelmente alto, chegando a 0.22, o que sinaliza um aumento de 22% em relao ao acaso na possibilidade de prever o tipo de antecedente, uma vez que a estratgia de processamento seja conhecida. Parece razovel concluir destas medies de associao que a estratgia de processamento age como um elo de ligao entre as duas outras variveis, uma vez que apresenta nvel de associao alto com o tipo de termo anafrico, como a varivel dependente, e tambm nvel de associao alto com o tipo de antecedente, desta vez com este ltimo como a varivel dependente.

Estes nmeros no apenas justificam a incluso da varivel na classificao de termos anafricos, mas parecem sinalizar que possvel aumentar a eficincia de interpretadores de anforas em sistemas de PLN atravs desta abordagem, ainda que o estudo tenha limitaes bvias de dimenso e abrangncia. Quando a interao entre as quatro variveis foi medida atravs da anlise loglinear, somente foram consideradas estatisticamente significativas as interaes entre trs variveis nas quais uma delas era a estratgia de processamento, o que torna ainda mais clara a tendncia detectada atravs das medidas de associao.

5. Concluso

A classificao criada para a anlise das relaes anafricas no portugus falado parece ter possibilidades de tornar-se uma contribuio real para a compreenso deste complexo fenmeno do discurso. Espera-se, igualmente, que o estudo possa representar um primeiro passo para uma maior eficincia na resoluo de referncias anafricas em sistemas de processamento de linguagens naturais. Pressupondo um sistema com a capacidade de realizar a rotulao de estruturas morfossintticas em tempo real, medida em que um usurio fala, por exemplo, poderia ser possvel aprimorar a resoluo de anforas em interfaces em linguagens naturais para acesso a banco de dados, uma das aplicaes mais desejveis do processamento de linguagens naturais em computadores. A utilizao destas mesmas capacidades em sistemas de traduo de mquina e aprendizado de lnguas com ajuda de computadores tambm apresenta perspectivas atraentes.

No processo geral de investigao cientfica relacionada linguagem, as abordagens baseadas em corpus desempenham um papel fundamental na renovao da pesquisa lingstica e em suas diversas aplicaes, introduzindo um elemento de realidade da lngua que vinha sendo deixado de lado e mesmo condenado. No se pretende, com isso, menosprezar abordagens de natureza mais formal ou abstrata, mas lembrar que a anlise do uso da lngua no contexto da vida real , pelo menos, to importante quanto estas ltimas.

REFERNCIAS BIBLIOGRFICAS

AARTS, J. (1991) Intuition-based and observation-based grammars. In: K. Aijmer e B. Altenberg (org.) English corpus linguistics: Studies in honour of Jan Svartvik. Harlow: Longman.

BIDER, D. (1992) Using computer-based corpora to analyse the referential strategies of spoken and written texts. In: Jan Svartvik (org.) Directions in corpus linguistics. Berlim: Mouton de Gruyter:215-252.

CARTER, D. (1987) Interpreting anaphora in natural language texts. Bognor Regis: Ellis Horwood.

BOSCH, P. (1983) Agreement and anaphora. Nova York:Academic Press.

CUNHA, C. & CINTRA, L. (1985) Nova gramtica do portugus contemporneo. Rio de Janeiro: Nova Fronteira.

FOX, B. (1987) Discourse structure and anaphora. Cambridge: CUP.

FRANCIS, N. (1992) Language corpora B.C. In: Jan Svartvik (org.) Directions in corpus linguistics. Berlim:Mouton de Gruyter: 215-252.

HALLIDAY, M.A.K. e HASAN, R. (1976) Cohesion in English. Londres:Longman.

HARRIS, C. (1992) Connectionism and cognitive linguistics. In: Noel Sharkey (org.) Connectionist natural language processing. Oxford: Intellect.

HIRST, G. (1981) Anaphora in natural language understanding. Berlim: Springer-Verlag.

HOEY, M. (1991) Patterns of lexis in text. Oxford: OUP.

HOBBS, J. (1986) Resolving pronoun references. In: B.L. Webber; B. Grosz e K. Sparck-Jones (org.) Readings in natural language processing. Palo Alto: Morgan Kaufmann.

HOLLANDA, A. (1986) Novo dicionrio da lngua portuguesa. Rio de Janeiro:Nova Fronteira.

KOCH, I.V. & MARCUCHI, L.A. (1998) Processos de referenciao na produo discursiva. D.E.L.T.A, 14 especial. So Paulo: EDUC:169-190.

LEECH, G. (1992) Corpora and theories of linguistic performance. In: Jan Svartvik (org.) Directions in corpus linguistics. Berlim: Mouton de Gruyter:105-22.

MC ENERY, T. & WILSON, A. (1996) Corpus linguistics. Edinburgo: Edinburgh University Press.

QUIRK, R.; GREENBAUM, S.; SVARTVIK, J. e LEECH, G. (1985) A comprehensive grammar of the English language. Londres: Longman.

ROCHA, M. (1998) A corpus-based study of anaphora in dialogues in English and Portuguese. Tese de doutorado. Falmer: University of Sussex.

SAMPSON, G. (1987) Probabilistic models of analysis. In: R. Garside, G. Leech and G.Sampson (orgs.) The computational analysis of English. Harlow: Longman.

SCHIFFRIN, D. (1987) Discourse markers. Londres: Cambridge University Press.

WALSH, A. (1990) Statistics for the social sciences. Nova York: Harper e Row.

WEBBER, B.L. (1979) A formal approach to discourse anaphora. Nova York: Garland.

1 Isto tambm verdade no que diz respeito a outras noes importantes em lingstica.

2 Ver, a esse respeito, Koch e Marcuschi (1998).

3 Termo anafrico e antecedente so comumente usados tambm na anlise de catforas e dixis, uma prtica igualmente adotada neste estudo.

4 Ver Bosch (1983) para uma discusso da distino entre anafra e dixis.

5 A observao dos dados do corpus acabou por demonstrar, posteriormente, que tais noes no seriam teis ou mesmo plausveis para os propsitos em questo.

6 Esta interpretao da combinao pronome-operador tpica das respostas na lngua inglesa discutida em detalhe em Quirk et al. (1985), sees 6.12-16.

7 "Corpus linguistics is a methodology that may be used in almost any area of linguistics, but it does not truly delimit an area of linguistics itself."(McEnery e Wilson 1996)

8 Todos os exemplos foram extrados do CDC-RJ.

9 Embora os adjuntos adverbiais anafricos estejam agregados ao total, os verbos constituem 81,55% (1229) dos casos.