17
Análise de inteligibilidade textual por meio de ferramentas de processamento automático do português: avaliação da Coleção Literatura para Todos Text readability analysis with Natural Language Processing Tools: assessment of the “Literatura para Todos” Collection Erica dos Santos Rodrigues Cláudia Freitas Violeta Quental PUC-Rio – Pontifícia Universidade Católica do Rio de Janeiro Resumo: O presente trabalho apresenta resultados de pesquisa referente à inteligibilidade dos livros da Coleção Literatura para Todos 1, publicada pelo MEC/ SECAD (2006) e distribuída para jovens e adultos recém-alfabetizados. A investigação da inteligibilidade dos textos buscou conjugar pressupostos da psicolinguística e ferramentas de processamento automático da língua portuguesa. Utilizamos critérios de inteligibilidade referidos na literatura psicolinguística, e tentamos capturar de maneira objetiva o grau de complexidade linguística dos livros através de ferramentas computacionais: o analisador morfossintático PALAVRAS (BICK, 2000) e o programa Coh-Metrix Port (ALMEIDA & ALUÍSIO, 2009). Nossos resultados sugerem que os livros da CLPT são complexos para o público pretendido. Assumindo que os neoleitores estão na etapa inicial do processo de alfabetização, é nítido que os livros da CLPT exigem um esforço de decodificação da escrita que está além de sua capacidade. Palavras-chave: legibilidade; inteligibilidade; Coleção Literatura para Todos; avaliação de inteligibilidade; ferramentas para processamento computacional do Português. Abstract: This paper presents results of a research on readability of the Literatura para Todos 1 Collection, published by MEC / SECAD (2006) and distributed to newly literate youth and adults. The investigation of text readability combined assumptions from psycholinguistics and natural language processing tools. We used readability criteria referred in psycholinguistics literature and tried to evaluate objectively the degree of linguistic complexity of the books by means of computational tools: the morphosyntactic analyzer PALAVRAS (BICK, 2000) and the program Coh-Metrix Port (ALMEIDA & ALUISIO, 2009). Our results suggest that the CLPT books are complex for the intended audience. Assuming that new readers are in the initial stage of literacy process, it is clear that reading the books of CLPT takes an effort which is beyond their ability. Keywords: readability; Coleção Literatura para Todos; readability assessment; natural language processing tools.

Avaliacao_da_CLPT Letras de Hoje.pdf

  • Upload
    claudia

  • View
    227

  • Download
    0

Embed Size (px)

Citation preview

  • Anlise de inteligibilidade textual por meio de ferramentas de processamento automtico do portugus: avaliao da Coleo Literatura para Todos

    Text readability analysis with Natural Language Processing Tools: assessment of the Literatura para Todos Collection

    Erica dos Santos Rodrigues

    Cludia Freitas

    Violeta Quental

    PUC-Rio Pontifcia Universidade Catlica do Rio de Janeiro

    Resumo: O presente trabalho apresenta resultados de pesquisa referente inteligibilidade dos livros da Coleo Literatura para Todos 1, publicada pelo MEC/ SECAD (2006) e distribuda para jovens e adultos recm-alfabetizados. A investigao da inteligibilidade dos textos buscou conjugar pressupostos da psicolingustica e ferramentas de processamento automtico da lngua portuguesa. Utilizamos critrios de inteligibilidade referidos na literatura psicolingustica, e tentamos capturar de maneira objetiva o grau de complexidade lingustica dos livros atravs de ferramentas computacionais: o analisador morfossinttico PALAVRAS (BICK, 2000) e o programa Coh-Metrix Port (ALMEIDA & ALUSIO, 2009). Nossos resultados sugerem que os livros da CLPT so complexos para o pblico pretendido. Assumindo que os neoleitores esto na etapa inicial do processo de alfabetizao, ntido que os livros da CLPT exigem um esforo de decodificao da escrita que est alm de sua capacidade. Palavras-chave: legibilidade; inteligibilidade; Coleo Literatura para Todos; avaliao de inteligibilidade; ferramentas para processamento computacional do Portugus.

    Abstract: This paper presents results of a research on readability of the Literatura para Todos 1 Collection, published by MEC / SECAD (2006) and distributed to newly literate youth and adults. The investigation of text readability combined assumptions from psycholinguistics and natural language processing tools. We used readability criteria referred in psycholinguistics literature and tried to evaluate objectively the degree of linguistic complexity of the books by means of computational tools: the morphosyntactic analyzer PALAVRAS (BICK, 2000) and the program Coh-Metrix Port (ALMEIDA & ALUISIO, 2009). Our results suggest that the CLPT books are complex for the intended audience. Assuming that new readers are in the initial stage of literacy process, it is clear that reading the books of CLPT takes an effort which is beyond their ability.

    Keywords: readability; Coleo Literatura para Todos; readability assessment; natural language processing tools.

  • 1 Introduo

    O presente trabalho apresenta resultados de pesquisa referente inteligibilidade dos

    livros que integram a Coleo Literatura para Todos 1, publicada pelo MEC/ SECAD

    (2006) e distribuda para grupos de jovens e adultos recm-alfabetizados, chamados

    neoleitores. O objetivo da Coleo democratizar o acesso leitura, constituir um

    acervo bibliogrfico literrio especfico para jovens, adultos e idosos recm

    alfabetizados1. O estudo inseriu-se em um projeto mais amplo cujo objetivo era

    avaliar a recepo da referida coleo junto aos neoleitores e aos mediadores

    envolvidos no Programa.2

    O estudo foi conduzido a partir de uma perspectiva interdisciplinar, em que a

    investigao da inteligibilidade dos textos da Coleo buscou conjugar (i)

    pressupostos da psicolingustica e (ii) ferramentas desenvolvidas para o

    processamento automtico da lngua portuguesa.

    O desconhecimento da existncia de material nos moldes da Coleo Literatura para

    Todos para a lngua portuguesa, se, por um lado, corrobora a necessidade deste

    tipo de iniciativa, por outro, impossibilita a comparao ou mesmo a utilizao de

    critrios j estabelecidos para a aferio da inteligibilidade do material oferecido.

    Assim, o trabalho consistiu na seleo de critrios de legibilidade referidos na

    literatura psicolingustica que pudessem atuar como parmetros na avaliao da

    adequao lingustica dos livros ao pblico de neoleitores. Tentamos capturar, de

    maneira objetiva, o grau de complexidade lingustica dos livros, com o auxlio de

    ferramentas da Lingustica Computacional. O objetivo do presente trabalho,

    portanto, triplo: (a) apresentar a anlise e os resultados da avaliao; (b)

    apresentar as potencialidades da pesquisa interdisciplinar entre a Psicolingustica e

    a Lingustica Computacional, direcionadas a uma aplicao educacional; (c) propor

    critrios objetivos para a avaliao quantitativa de textos cuja elaborao , sem

    dvida, desafiadora, uma vez que devem aliar a simplicidade gramatical e sinttica

    complexidade das experincias de vida dos neoleitores.

    1 http://portal.mec.gov.br/index.php?option=com_content&view=article&id=12313&Itemid=629 2 Projeto Percursos da Leitura, coordenado pelo Professor Jlio Diniz (PUC-Rio).

  • O artigo est organizado da seguinte maneira: na seo 2, discutimos o conceito de

    inteligibilidade, tendo em vista a justificativa dos parmetros lingusticos escolhidos

    para a avaliao dos textos, bem como detalhamos os conceitos propriamente; na

    seo 3, apresentamos o perfil dos neoleitores e livros da Coleo; a seo 4 trata

    da anlise dos textos; na seo 5, tecemos algumas consideraes finais.

    2 Conceituao de Inteligibilidade

    A leitura uma atividade extremamente complexa que envolve um conjunto de

    subprocessos. Estes compreendem, entre outros, o reconhecimento de smbolos

    grficos, a recuperao de palavras do lxico mental, o processamento sinttico de

    enunciados, com mobilizao de um mecanismo de parsing, e o processamento

    semntico local, do qual resultam proposies que so integradas em

    representaes semnticas de partes maiores do texto (macroproposies)

    (COSCARELLI, 1996; KLEIMAN, 1993; KATO, 1999; PERFETTI, 1999; PERFETTI,

    LANDI & OAKHILL, 2005). Para a implementao desses processos, o leitor acessa

    vrias bases de conhecimento (lingustico, enciclopdico, relativo a gneros e tipos

    textuais...) e lana mo de inferncias, predies, aplica estratgias metacognitivas,

    etc. (PEREIRA, 2002; BORBA, 2005)

    Trabalhos que se voltam para a investigao de fatores que podem a afetar a

    compreenso da leitura procuram distinguir trs grupos de fatores fatores

    associados ao texto, ao leitor e interveno leitora (LEFFA, 1996).

    No que tange ao primeiro grupo de fatores associados ao texto , costuma-se

    estabelecer uma distino entre legibilidade e inteligibilidade textual. O termo

    legibilidade tem sido utilizado, de modo geral, para caracterizar fatores tipogrficos,

    tais como o tamanho de letras, tipo de fonte, diagramao do texto. Para fazer

    referncia a estruturas lingusticas complexas e vocabulrio pouco frequente como

    elementos que podem afetar o grau de compreenso de um texto, costuma-se

    adotar o termo inteligibilidade (LEFFA, 1996; SCARTON ET AL., 2010; SCARTON &

    ALUSIO, 2010). O emprego deste termo em referncia apenas a fatores ligados ao

    texto no , no obstante, consensual, e h autores que estendem o termo para

    indicar fatores associados ao leitor, como seu grau de motivao e interesse pelo

    assunto (BARBOZA & NUNES, 2007; RIBEIRO ET AL. 2011). Nessa acepo mais

    ampla, o termo inteligibilidade confunde-se com leiturabilidade (readability),

  • entendido como tudo o que torna um texto mais fcil de ler do que outros por

    oposio ao termo legibilidade (legibility), empregado em referncia a

    caractersticas de tipografia e layout (DUBAY, 2004; LIMA, 2007).3

    Dada a dificuldade de uma convergncia terminolgica, a qual reflete, pelo menos

    em parte, mudanas na prpria concepo de leitura, inicialmente centrada nos

    aspectos textuais e posteriormente incorporando o leitor e sua bagagem lingustico-

    cultural (KLEIMAN,2004), optamos pelo emprego do termo inteligibilidade na

    nomeao dos critrios que elegemos para verificar a complexidade dos textos lidos.

    Essa opo foi motivada pelo fato de ser o termo mais comumente usado pelos

    pesquisadores que tm trabalhado na rea de leitura e simplificao textual

    (SCARTON ET AL., 2010; SCARTON & ALUSIO, 2010).

    2.1 Parmetros utilizados

    Para a caracterizao da complexidade sinttica dos textos da Coleo, foram

    considerados os seguintes parmetros:

    (i) total de verbos por perodo; (ii) presena, no perodo, de elementos explicativos intercalados; (iii) quantidade de vrgulas por perodo; (iv) presena de oraes reduzidas de gerndio; (v) quantidade de palavras antepostas ao verbo principal.

    O item (i) foi tomado como indicativo da densidade do perodo e, por conseguinte, do

    grau de inteligibilidade textual, considerando-se restries relativas manuteno e

    integrao de informaes na memria de trabalho por unidade estrutural (perodo)

    no processamento sinttico. Para a construo da coerncia temtica do texto, o

    leitor precisa relacionar o significado das sentenas, isto , precisa integrar

    proposies (KINTSCH & VAN DIJK, 1978). Considerando-se que o verbo , por

    excelncia, do ponto de vista semntico, um elemento predicador que instancia

    proposies, pode-se afirmar que, quanto maior for o nmero de verbos em um

    perodo, maior ser o nmero de estruturas sintticas a ser analisado, maior o 3 Remetemos o leitor a Dubay (2004) para diferentes referncias ao termo readability.

  • nmero de proposies a ser construdo e mais complexa a integrao dessas

    proposies em macroproposies.

    O item (ii) indicativo de quebras na ordem cannica da estrutura da sentena, e

    compreende estruturas apositivas, oraes adjetivas explicativas, oraes adverbiais

    deslocadas e sintagmas adverbiais deslocados.

    Todas essas estruturas tm em comum algum tipo de interrupo que cria

    demandas associadas manuteno de informao pela memria de trabalho no

    processo de integrao de informao sinttica (COSCARELLI,1996).

    O item (iii) est relacionado quantidade de informaes por perodo e, importante

    lembrar, uma leitura efetiva depende de alta proficincia na interpretao dos usos

    da vrgula, que pode indicar tanto a presena de uma enumerao quanto a

    intercalao de estruturas e o deslocamento de constituintes, por exemplo.

    O critrio (iv) assume que as oraes reduzidas de gerndio podem ser mais

    complexas em termos de compreenso uma vez que a relao semntica entre a

    orao principal e a reduzida de gerndio no explicitada pelo conectivo, ela

    precisa ser inferida. Os conectivos funcionam como instrues para o leitor

    estabelecer relaes de coerncia entre segmentos do texto e desempenham papel

    importante na construo do sentido do texto. Um texto sem a presena dessas

    marcas torna-se mais difcil para a leitura (JUST & MILLIS, 1994; SANDERS &

    NOORDMAN, 2000; BEN-ANATH, 2005; CAIN & NASH, 2011). No caso de oraes

    reduzidas de gerndio, como o gerndio uma forma nominal do verbo, tambm

    desaparecem informaes relativas a tempo, modo, pessoa, o que pode dificultar o

    estabelecimento de relaes temporais entre os eventos e tambm a identificao

    do sujeito do verbo, comprometendo, inclusive, o estabelecimento/manuteno da

    referncia.

    Por fim, o critrio (v) baseia-se na ideia de que um grande nmero de termos antes

    do verbo pode indicar a presena de sujeito complexo ou de outros termos

    argumentais a ele associados. O elemento inicial da sentena, para que possa ser

    corretamente analisado e interpretado, depende da informao codificada no verbo.

    necessrio manter esse elemento na memria de trabalho at que o verbo seja

  • identificado. Logo, em princpio, quanto maior a sequncia de elementos antes de

    verbos principais, maior o custo em termos de processamento da leitura.

    3 Caracterizao dos neoleitores e da Coleo Literatura para Todos (CLPT)

    Para a avaliao da adequao dos livros ao neoleitores, fundamental a

    caracterizao desse grupo relativamente capacidade de leitura. Segundo o

    documento Perfil dos neoleitores no Brasil, disponvel na pgina do MEC4,o

    neoleitor assim caracterizado:

    Os neoleitores possuem uma concepo de leitura associada oralizao do texto escrito. Fazem uma leitura lenta, entrecortada, com interrupes, cometem omisso de palavras, de trechos, trocam de palavras, fazem pseudoleitura (procuram adivinhar o que est escrito). Evocam conhecimentos prvios para preencher lacunas na leitura e, nesse processo, muitas vezes ouvem mais o que j sabem sobre o tema do que o que o texto diz. No costumam reler, retomar o texto em busca de informaes no retidas na memria. Apreendem o tema, mas tm dificuldade de reproduzi-lo oralmente, falando de experincias prprias relacionadas ao tema.

    A Coleo Literatura para Todos 1 (CLPT) composta por 10 livros de gneros

    diversos, premiados em um concurso literrio anunciado em edital pblico. Os livros

    foram (ou deveriam ser) escritos especialmente para os neoleitores, em uma

    iniciativa de grande relevncia, tendo em vista o perfil especfico do grupo:

    habilidades de leitura muito iniciais associadas a uma vasta experincia de vida.

    Desse modo, os autores tinham o desafio de escrever de maneira simples, por um

    lado, mas com o cuidado de no infantilizar o leitor, por outro.

    A CLPT abrange sete gneros literrios - teatro, novela, conto, crnica, biografia,

    tradio oral e poesia distribudos da seguinte maneira (tabela 1). Notamos que os

    livros tambm esto disponveis no portal Domnio Pblico, do MEC, para download.

    Gnero Ttulo do livro biografia Lo, o pardo contos Cabelos molhados

    Cobras em compota crnicas Tubaro com a faca nas costas novela (romance) Madalena poesia Abrao e as frutas

    Caravela [ redescobrimentos ] Entre as junturas dos ossos

    4 http://portal.mec.gov.br/index.php?option=com_content&view=article&id=12313&Itemid=629

  • teatro Famlia composta tradio oral Batata cozida, mingau de car

    Tabela1: Distribuio dos livros da CLPT por gnero

    Alm de um glossrio, todos os livros so ilustrados, e contm um prefcio que, por

    sua vez, frequentemente pouco esclarecedor tendo em vista o pblico pretendido.

    Um exemplo: A crnica, com seu caracterstico de mensagem pessoal, humaniza o

    veculo5.

    Devido a limitaes das ferramentas utilizadas, no consideramos os livros de

    poesia e teatro, como ser detalhado prxima seo6.

    4 Anlise da Coleo

    Para a avaliao, utilizamos ferramentas computacionais capazes de processar

    textos automaticamente com o objetivo de mensurar os graus de dificuldade dos

    textos. Tais ferramentas, ao permitirem o processamento automtico da informao

    lingustica, possibilitam observao e anlise de dados de uma perspectiva

    quantitativa, o que dificilmente seria conseguido se dependssemos de um

    processamento manual.

    Como j mencionado, no foram submetidos anlise os livros de poesia, visto que

    a avaliao da sua complexidade no poderia ser feita com base nos mesmos

    parmetros usados para a anlise dos textos em prosa. A ausncia de pontuao,

    principalmente, um problema para o analisador sinttico, que considera a mudana

    de linha como marca de sentena como seria o caso, por exemplo, de ttulos em

    jornais e artigos cientficos. Assim, na poesia, o procedimento de anlise automtica

    resultaria em erro.

    Da mesma forma, o texto do gnero teatro (Famlia Composta) contm

    especificidades de sua organizao textual-discursiva que dificultam o

    processamento automtico: as convenes do texto teatral (indicao de

    personagem e rubricas de cenrio ou de informao para os atores), expressas em

    geral na forma de frases nominais, quebram a expectativa do analisador automtico,

    e podem resultar em erros de anlise. Optamos, mesmo assim, por apresentar os 5 Prefcio do livro Tubaro com a Faca nas Costas. 6 Como mencionado na Introduo, relatamos aqui apenas parte do trabalho de avaliao da adequao lingustico-discursiva dos livros da CLPT, que consistiu ainda em levantamento do vocabulrio e anlise de caractersticas estruturais / discursiva.

  • resultados da anlise desse livro, conscientes de que sua interpretao deve ser

    vista com muitas ressalvas.

    4.1 Ferramentas

    Para a investigao dos parmetros mencionados na seo 2.1, utilizamos o

    analisador morfossinttico PALAVRAS (BICK, 2000) e o programa Coh-Metrix Port

    (ALMEIDA & ALUSIO, 2009).

    O analisador PALAVRAS foi fundamental para a anlise detalhada das estruturas

    sintticas dos livros da CLPT. Baseado no modelo de Gramtica Constritiva, trata-se

    de um programa capaz de realizar uma anlise gramatical e sinttica de textos da

    lngua portuguesa com um alto grau de preciso 99% em termos de morfossintaxe

    (classe de palavras e flexo) e 97-98% em termos de sintaxe (BICK, 2005).

    No quadro 1 apresentamos, a ttulo de ilustrao, a sada do PALAVRAS, no formato

    de rvores deitadas. Para cada frase, o programa disponibiliza a informao

    lingustica em pares do tipo Funo & Forma, separados por dois pontos (F:f)7.

    No devia existir colesterol naquela poca, e a que comeou o problema. STA: par CJT: fcl =ADVL: adv ("no" ) no =P: vp ==VAUX: v-fin ("dever" IMPF 3S IND VFIN) devia ==MV: v-inf ("existir" ) existir =SUBJ: n("colesterol" M S) colesterol =ADVL: pp ==H: prp ("em" ) em ==PN: pron-det ("aquele" DET F S) aquela ===H: n("poca" F S) poca , CO: conj-c("e" ) e =CJT: x FOC: adv ("ser" ) =ADVL: adv ("a" ) a =FOC: adv ("que" ) que =P: v-fin ("comear" PS 3S IND VFIN) comeou 7 Especificamente, a codificao da frase exemplo informa que a frase declarativa (STA statement) e Coordenada (par). Na segunda linha est a informao dos elementos coordenados: CJT (elemento conjunto): fcl (orao finita). Ou seja, estamos diante de uma frase declarativa, que por sua vez um perodo composto por uma coordenao de oraes finitas. Para cada palavra, alm das informaes de forma e funo, o programa indica, entre parnteses, o lema e informaes morfossintticas, como nmero, gnero, tempo, modo e pessoa verbal. Para uma explicao da anlise realizada pelo PALAVRAS, remetemos o leitor a Bick (2000), bem como pgina do projeto VISL7) e, para o leitor interessado no formato rvores deitadas, sugerimos a leitura de Freitas & Afonso (2008).

  • =SUBJ: np ==>N: pron-det ("o" DET M S) o ==H:n("problema"M S) problema

    Alm do PALAVRAS, os textos da CLPT foram analisados pelo programa Coh-

    Metrix Port (ALMEIDA & ALUSIO, 2009), desenvolvido a partir das mtricas da

    ferramenta Coh-Metrix, criada na Universidade de Memphis. A verso 1.0 do Coh-

    Metrix Port utiliza 34 das 60 mtricas disponveis na verso livre Coh-Metrix. Essas

    mtricas levam em considerao vrios nveis de anlise lingustica: lxico, sinttico

    e discursivo. A ferramenta disponibiliza tambm o ndice Flesch, medida estatstica

    considerada padro quanto ao grau de inteligibilidade8. Embora considerado um

    ndice superficial, pois leva em conta apenas caractersticas como o nmero de

    palavras em sentenas e o nmero de letras ou slabas por palavra, o ndice

    utilizado por ser a nica mtrica de inteligibilidade j adaptada para a lngua

    portuguesa (MARTINS ET AL., 1996) e por incorporar o conceito de sries

    escolares. A aplicao da frmula Flesh permite categorizar os textos em

    textos muito fceis (ndice entre 75 - 100), adequados para a escolaridade at a 4a.srie do ensino fundamental;

    textos fceis (ndice entre 50 - 75), adequados para a escolaridade at a 8a. srie do ensino fundamental;

    textos difceis (ndice entre 25 - 50), adequados ao ensino mdio ou universitrio e; textos muitos difceis (ndice entre 0 - 25), adequados apenas para reas acadmicas

    especficas.

    4.2. Anlise e resultados

    A tabela 2 apresenta, por livro, os resultados obtidos para cada parmetro. Os

    quatro primeiros parmetros foram obtidos por meio da anlise do PALAVRAS, e o

    ltimo foi obtido pelo Coh-Metrix Port9. Destacamos em negrito os resultados mais

    significativos.

    Leo, o pardo

    Cabelos molhados

    Cobras em compota

    Madalena

    Tubaro com a faca nas costas

    Famlia composta

    Verbos por perodo 2,61 2,22 1,86 1,71 2,24 2,09 Elementos explicativos

    0,25 0,12 0,04 0,09 0,11 0,06

    8 A frmula Flesh ILF = 164.835 - [1.015 x (No palavras/sentena)] - [84.6 x (No slabas/texto / No palavras/texto)] 9 Lembramos que, diferentemente do Coh-Metrix Port, o PALAVRAS no oferece diretamente os valores para os parmetros estes so obtidos por meio de uma busca semiautomtica nos resultados da anlise automtica.

  • Leo, o pardo

    Cabelos molhados

    Cobras em compota

    Madalena

    Tubaro com a faca nas costas

    Famlia composta

    (intercalados) p/ or.

    Vrgulas por perodo 1,92 1,02 0,68 0,72 1,18 1,02 Or. reduzidas de gerndio

    0,16 0,12 0,05 0,06 0,08 0,08

    Palavras antes de verbos principais

    3,07 2,18 2,06 2,2 2,53 4,07

    Tabela 2: ndices de inteligibilidade para os textos em prosa, por livro.

    Para facilitar a visualizao dos resultados, apresentamos tambm as figuras 1 e 2,

    que representam, respectivamente, os ndices de inteligibilidade relativos a cada

    livro e a comparao entre livros em relao a cada ndice.

    Figura 1: ndices de inteligibilidade por livro analisado

    Figura 2: Comparao dos livros em relao aos ndices de inteligibilidade

    0 0,5 1

    1,5 2

    2,5 3

    3,5 4

    4,5 Verbos por perodo

    Elementos explica;vos (intercalados) p/ or.

    Vrgulas por perodo

    Or. reduzidas de gerndio

    Palavras antes de verbos principais

    0 0,5 1

    1,5 2

    2,5 3

    3,5 4

    4,5 Leo, o pardo

    Cabelos molhados

    Cobras em compota

    Madalena

    Tubaro com a faca nas costas

    Famlia composta

  • Com base no parmetro total de verbos por perodo, que permite verificar o nmero de perodos simples/compostos, os livros estruturalmente mais complexos

    seriam Leo, o pardo (quase 3 oraes por perodo), Tubaro com a Faca nas Costas

    (2,24) e Cabelos Molhados (2,3). Cobras em Compota e Madalena apresentam

    nveis prximos, seriam os mais fceis em torno de 1,7 oraes por perodo.

    Tomando-se o parmetro elementos explicativos intercalados, Leo, o pardo apresenta o maior valor mais que o dobro de Cabelos Molhados e Tubaro com a

    Faca nas Costas, que aparecem em segunda posio. Nos outros livros, o total de

    intercalaes tende a 0, indicando menor complexidade sinttica.

    Em relao ao parmetro nmero de vrgulas por perodo, o livro Leo, o pardo novamente se destaca, com o dobro de ocorrncias por perodo em comparao ao

    segundo colocado Cabelos Molhados. Os demais livros no apresentam

    diferenas significativas entre si.

    No parmetro oraes reduzidas de gerndio, ainda que seu percentual seja bem pequeno em todos os livros, novamente Leo, o pardo e Cabelos Molhados aparecem

    como os mais complexos.

    Relativamente ao parmetro total de palavras antes de verbos, o livro Leo, o pardo aparece mais uma vez como o mais complexo.

    A tabela 3 apresenta os resultados do ndice Flesh, que permitem complementar os

    dados das anlises anteriores com informao relativa adequao dos livros s

    sries escolares (quanto maior o ndice, mais fcil o livro). Excetuando-se o livro

    Famlia Composta, do gnero teatro, cuja anlise deve ser vista com cautela devido

    estruturao do texto (cf.seo 4), todos os livros so indicados para 5-8 srie, e,

    portanto, indicados para leitores com alguma proficincia, o que no o caso do

    pblico alvo da CLPT.

    Ttulo do livro Gnero ndice Flesh Madalena novela 63 (5 - 8) Cabelos molhados conto 65 (5 - 8) Cobras em compota conto 64 (5 - 8) Tubaro com a faca nas costas crnica 63 (5 - 8) Famlia composta teatro 75 (1 - 4) Lo, o pardo biografia 63 (5 - 8) Tabela 3: ndice Flesh dos livros da CLTP.

  • 4.3. Contextualizao dos parmetros

    Como mencionado na introduo deste artigo, no temos conhecimento de outros

    trabalhos que tenham realizado uma anlise parecida com a que apresentamos.

    Logo, com base nos critrios estabelecidos, possvel uma comparao da

    inteligibilidade entre os livros da Coleo tomados isoladamente, mas, com exceo

    do ndice Flesch, no temos como verificar a inteligibilidade da Coleo

    relativamente a livros indicados para recm-alfabetizados.

    Assim, em uma tentativa de contextualizar a anlise quantitativa, aplicamos os

    mesmos parmetros a outro livro, que no foi escrito especificamente para

    neoleitores: O Jardim do Diabo, romance de Luis Fernando Verssimo. A escolha da

    obra foi motivada pela necessidade de calibrar as medidas obtidas, j que L.F.

    Verssimo um escritor popular, de escrita fcil, que agrada a diferentes idades e

    classes, e cujo contedo de reconhecida qualidade - portanto seria uma boa

    maneira de comparar o quo fceis seriam os livros da CLPT.

    Subjacente comparao, tnhamos a hiptese de que, idealmente, os livros da

    CLPT deveriam ser mais simples que O Jardim do Diabo, pois, por mais acessvel

    que seja o autor, dificilmente recomendaramos a sua leitura para recm-

    alfabetizados. Os resultados dessa segunda anlise esto na tabela 4, com os

    resultados mais significativos isto , aqueles que indicam mais facilidade de leitura

    - em negrito:

    Leo, o pardo

    Cabelos molhados

    Cobras em compota

    Madalena Tubaro com a faca nas costas

    Famlia composta

    O Jardim do Diabo

    Verbos por perodo

    2,61 2,22 1,86 1,71 2,24 2,09 1,54

    Elementos explicativos p/ or.

    0,25 0,12 0,04 0,09 0,11 0,06 0,08

    Vrgulas por perodo

    1,92 1,02 0,68 0,72 1,18 1,02 0,66

    Or. reduzidas de gerndio

    0,16 0,12 0,05 0,06 0,08 0,08 0,06

  • Tabela 4: Comparao entre os livros da CLPT e o livro O Jardim do Diabo

    Como possvel observar, em todos os parmetros investigados o livro O Jardim do

    Diabo est entre aqueles com o menor grau de complexidade, e, especificamente,

    nos parmetros verbos por perodo e vrgulas por perodo, chega a obter os

    ndices mais baixos. Esses resultados, somados aos dados do ndice Flesh (tabela

    3) e nossa impresso aps a leitura completa e minuciosa da Coleo, reforam a

    inadequao dos livros em termos de inteligibilidade ao pblico pretendido. A

    figura 3 apresenta outra forma de visualizao da comparao entre os livros da

    CLPT e o livro O Jardim do Diabo.

    Figura 3: Comparao entre os livros da CLPT e o livro O Jardim do Diabo

    Quanto ao ndice Flesh, O Jardim do Diabo obteve 73.67 (adequado para 1 4

    srie), pontuao que nos permite classific-lo como mais fcil do que todos os da

    CLPT.

    5 Consideraes Finais

    Apresentamos aqui a anlise de fatores de inteligibilidade dos livros da Coleo

    Literatura para Todos.

    0 0,5 1

    1,5 2

    2,5 3

    3,5 4

    4,5 Leo, o pardo

    Cabelos molhados

    Cobras em compota

    Madalena

    Tubaro com a faca nas costas

    Famlia composta

    Palavras antes de verbos principais

    3,07 2,18 2,06 2,2 2,53 4,07 2,93

  • Ainda que os resultados obtidos apontem claramente para a inadequao dos livros

    de um ponto de vista lingustico, o desconhecimento de dados relativos forma com

    que os livros foram/ so trabalhados se lidos em voz alta pelo professor/mediador,

    por exemplo, podem diminuir o impacto de nossas observaes.

    De maneira geral, os resultados de nossa investigao sugerem que os livros da

    CLPT so, em sua maioria, complexos para o pblico pretendido, diferentemente do

    apresentado em MACIEL (2007). Assumindo que os neoleitores esto na etapa

    inicial do processo de alfabetizao, ntido que os livros da CLPT exigem um

    esforo de decodificao da escrita que est alm de sua capacidade10.

    A partir dos resultados, o livro Leo, o pardo aparece como mais difcil dentre os livros

    da CLPT, o que est em consonncia com a anlise baseada em nossa leitura.

    Trata-se de uma biografia cuja linguagem altamente oralizada, o que exige a

    habilidade de decifrar frases muito longas, com inseres de discurso relatado

    (direto, indireto, indireto livre) sem a codificao tradicional. Da oralizao decorre

    tambm a construo de sentenas com muitos elementos intercalados (apostos,

    adjuntos), coordenaes longas ou ordem sinttica cannica invertida. Por fim, a

    comparao entre os livros da CLPT e o livro O Jardim do Diabo, de L. F. Verssimo,

    refora a possibilidade de dissociao entre complexidade sinttica, estrutural e

    complexidade quanto ao contedo, aspecto fundamental quando consideramos as

    especificidades de uma proposta como a CLPT: uma literatura gramaticalmente

    simples, mas que no infantiliza os leitores.

    Novamente, consideramos louvvel o reconhecimento de que os neoleitores so um

    pblico especial de leitores e que, portanto, merecem ateno especial no que se

    refere constituio de um acervo bibliogrfico. Mas acreditamos ser fundamental o

    reconhecimento da parte de quem escreve e da parte de quem avalia a adequao

    dos livros ao pblico da possibilidade de dissociao entre aspectos gramaticais e

    aspectos referentes ao contedo dos livros. No edital do concurso de 20101112, no

    10 Segundo o documento Brasil alfabetizado: marco referencial para avaliao cognitiva (BATISTA ET AL., 2006), os neoleitores so capazes de (a) identificar letras do alfabeto; (b) conhecer as direes da escrita; (c) diferenciar letras de outros sinais grficos; (d) identificar, ao ouvir uma palavra, o nmero de slabas; (e) identificar sons, slabas e outras unidades sonoras; (f) distinguir, como leitor, diferentes tipos de letra; (g) demonstrar conhecimentos sobre a escrita do prprio nome; (h) escrever palavras ditadas, demonstrando conhecer o princpio alfabtico. 11 http://portal.mec.gov.br/index.php?option=com_docman&task=doc_download&gid=6587&Itemid=

  • h qualquer meno a aspectos da estrutura lingustica a serem considerados pelos

    autores; trata-se apenas do aspecto narrativo, como narrativa literria atraente,

    destinada captura do neoleitor, no se confundindo com objetivos escolares de

    ensino da lngua e da gramtica(...). Relativamente construo dos textos, o edital

    recomenda na construo dos textos, em todos os gneros, a leveza e a inveno

    potica, e assim aglutinar foras para o enfrentamento dos problemas e limites da

    realidade. A nosso ver, tais recomendaes em nada consideram as habilidades de

    leitura dos neoleitores retratadas pelo prprio MEC, que apresentamos na seo 3.

    Por fim, temos conscincia de que nosso trabalho de anlise bastante inicial, tanto

    de um ponto de vista metodolgico quanto de interpretao dos resultados obtidos.

    A explorao dos mesmos parmetros em livros infantis, recomendados para

    crianas recm-alfabetizadas, pode nos dar pistas em termos da adequao

    lingustico-textual dos livros. Por outro lado, a investigao de outros aspectos

    mencionados na literatura psicolingustica como dificultadores da leitura pode

    sugerir novos pontos a serem considerados.

    Referncias

    ALMEIDA, Daniel Machado de; ALUSIO, Sandra Maria. Manual de uso do Coh-Metrix Port 1.0.Technical Report NILC-TR-09-05, 13 p. Agosto 2009, So Carlos-SP. BARBOZA, Elza M.; NUNES, Eny M. de A. A inteligibilidade dos websites governamentais brasileiros e o acesso para usurios com baixo nvel de escolaridade. Incluso Social, Braslia, v. 2, n. 2, p. 19-33, abr./set. 2007.

    BATISTA, Antnio Augusto Gomes; SILVA, Ceris Ribas da; CASTANHEIRA, Maria Lucia; ROCHA, Gladys e CAFIERO, Delaine. Matriz de Referncia: avaliao de competncias Leitura e escrita. In: HENRIQUES, Ricardo; BARROS, Ricardo Paes; AZEVEDO, Joo Pedro (orgs.). Brasil Alfabetizado: marco referencial para a avaliao cognitiva. Braslia: Secretaria de Educao Continuada, Alfabetizao e Diversidade, 2006, p. 12-27. BEN-ANATH, Dafna. The Role of Connectives in Text Comprehension. Teachers College, Columbia University Working Papers in TESOL & Applied Linguistics, v. 5, n.2, p. 1-27, 2005. BICK, Eckhard. Gramtica Constritiva na Anlise Automtica de Sintaxe Portuguesa. In: BERBER SARDINHA, Tony (ed.), A Lngua Portuguesa no Computador. Campinas: Mercado de Letras, So Paulo: FAPESP, 2005.

    12 Lembramos que nosso trabalho consistiu na anlise da CLPT1.

  • BICK, Eckhard The Parsing System "Palavras": Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. 2000.Dr.phil. thesis. Aarhus University. Aarhus, Denmark: Aarhus University Press, 2000.

    BORBA, Valquria Claudete M. Preditibilidade de conjunes e compreenso leitora: um estudo com crianas de 4 srie do Ensino Fundamental. Dissertao de Mestrado. PUCRS, 2005.

    CAIN, Kate; NASH, Hannah M. The Influence of Connectives on Young Readers Processing and Comprehension of Text. Journal of Educational Psychology, v. 103, n. 2, p. 429-441, 2011.

    CAVIQUE, Luis. Legibilidade de artigos cientficos: anlise de dados da RCC. Revista de Cincias da Computao, v. III, n.3, p.59-65, 2008.

    Coleo Literatura para Todos. Braslia: Ministrio da Educao, 2006.

    COSCARELLI, Carla. V. O ensino da leitura: uma perspectiva psicolingstica. Boletim da Associao Brasileira de Lingustica, Imprensa Universitria, Macei, p. 163-174, dez. 1996.

    DuBAY, William H. The principles of readability. Califrnia: Impact Information, 2004. Disponvel em: http://www.impactinformation. com. Acesso em: agosto 2012.

    FREITAS, Cludia; Afonso, Susana. Bblia Florestal: Um manual lingstico da Floresta Sint(c)tica. 2008. (Desenvolvimento de material didtico ou instrucional - Manual/ Documentao).

    KATO, Mary A. O aprendizado da leitura. 5 ed. So Paulo: Martins Fontes, 1999.

    KINTSCH, Walter; van DIJK, Teun A. Toward a model of text comprehension and production. Psychological Review, v.85, n.5, p. 363-394, 1978.

    KLEIMAN, ngela B. Oficina de leitura, teoria e prtica. So Paulo: Pontes/Editora da Universidade Estadual de Campinas, 1993.

    KLEIMAN, ngela B. Abordagens da leitura. SCRIPTA, Belo Horizonte, v. 7, n. 14, p. 13-22, 1 sem. 2004.

    LEFFA, Vison J. Aspectos da leitura: uma perspectiva psicolingstica. Porto Alegre: Sagra-Luzzatto, 1996.

    LIMA, Vera L. de A. Legibilidade e leiturabilidade das bulas de medicamentos presentes no tratamento de pacientes cardacos / Vera Lopes de Abreu Lima ; orientador: Anamaria de Moraes. 2007.169 f. Dissertao (Mestrado em Artes e Design). Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2007.

    MACIEL, Ira Maria. Coleo literatura para todos. Rev. Bras. Educ. [online], v.12, n.36, p. 537-540, 2007. Disponvel em http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-24782007000300014&lng=en&nrm=iso. Acesso em 13 de agosto de 2012.

  • MARTINS, Teresa B. F.; GHIRALDELO, Claudete M.; NUNES, Maria das Graas V.; OLIVEIRA Jr., Osvaldo N. Readability Formulas Applied to Textbooks in Brazilian Portuguese. Notas do ICMSC, n. 28, 1996.

    MILLIS, Keith K.; JUST, Marcel A. The Influence of Connectives on Sentence Comprehension. Journal of Memory and Language, v. 33, p. 128-147, 1994.

    PEREIRA, Vera W. Arrisque-se... faa o seu jogo. Letras de Hoje, Porto Alegre, v. 37, n. 128, p. 47-63, jun/2002.

    PERFETTI, Charles A. Comprehending written language: A blueprint of the reader. In: BROWN, Colin M.; HAGOORT, Peter (Eds.) The neurocognition of language. Oxford: Oxford University Press, 1999, p. 167208.

    PERFETTI, Charles A.; LANDI, Nicole; OAKHILL, Jane. The acquisition of reading comprehension skill. SNOWLING, Margaret J.; HULME, Charles. (Eds.). The Science of Reading: A Handbook. Oxford: Blackwell, 2005, p. 227-247.

    RIBEIRO, Bruno; MODESTO, Dbora; CAPRA, Eliane; FERREIRA, Simone B. L. Referencial Terico sobre Analfabetismo Funcional. Relatrios Tcnicos do Departamento de Informtica Aplicada da UNIRIO n 0008/2011. Relatrios Tcnicos de 2011, v. 5, n. 1. Disponvel em http://www.seer.unirio.br/index.php/monografiasppgi/article/view/1498/1379. Acesso em 13 de agosto de 2012.

    SANDERS, Ted J. M.; NOORDMAN, Leo G. M. The Role of Coherence Relations and Their Linguistic Markers in Text Processing. Discourse Processes, v.29, n.1, 2000, p.37-60.

    SCARTON, Carolina E.; ALUSIO, Sandra Maria. Anlise da Inteligibilidade de textos via ferramentas de Processamento de Lngua Natural: adaptando as mtricas do Coh-Metrix para o Portugus. Linguamtica, v.2, n.1, p. 45-62, 2010.

    SCARTON, Carolina E.; OLIVEIRA, Matheus de; CANDIDO Jr., Arnaldo; GASPERIN, Caroline; ALUSIO, Sandra Maria. SIMPLIFICA: a tool for authoring simplified texts in Brazilian Portuguese guided by readability assessments. Proceedings of the NAACL HLT 2010: Demonstration Session, p.41-44, Los Angeles, Califrnia, junho 2010. Association for Computational Linguistics, Morristown, NJ, USA, 2010.