29
1 DOCUMENT DESIGN Conference, Tilburg University, The Netherlands, January 2004. Nicolas HERNANDEZ University of Paris XI LIMSI-CNRS (LIR) [Nicolas.Hernandez @limsi.fr] Denis VIGIER University of Rennes II LATTICE CNRS [[email protected]] Michel CHAROLLES University of Paris III LATTICE – CNRS [[email protected]] Jean-Pierre DESCLES University of Paris IV LaLLIC – CNRS [Jean-Pierre.Descles @paris4.sorbonne.fr] Text organization by combining fine-grained linguistic markers with global statistical measures

Text organi z ation by combining fine-grained linguistic markers with global statistical measures

  • Upload
    waite

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

Text organi z ation by combining fine-grained linguistic markers with global statistical measures. Linear text segmentation analysis. In this paper A better understanding of discourse phenomena in order to Improving discourse modelling Automatic detection of text structures - PowerPoint PPT Presentation

Citation preview

Page 1: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

1

DOCUMENT DESIGN Conference,Tilburg University, The Netherlands, January 2004.

Nicolas HERNANDEZUniversity of Paris XILIMSI-CNRS (LIR)

[[email protected]]

Denis VIGIERUniversity of Rennes II

LATTICE CNRS

[[email protected]]

Michel CHAROLLESUniversity of Paris III

LATTICE – CNRS

[[email protected]]

Jean-Pierre DESCLESUniversity of Paris IV

LaLLIC – CNRS

[[email protected]]

Text organization by combining fine-grained linguistic markers with global statistical measures

Page 2: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Linear text segmentation analysis In this paper

A better understanding of discourse phenomena in order to Improving discourse modelling Automatic detection of text structures

Collaboration between statistical and linguistic analysis Global topical cohesion (Masson 95, Salton et Al.

96) Local topic shift (Hearst 97) Frame adverbials (Charolles 97) retrieved by (Minel

01)

Page 3: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Contents Linear text segmentation analysis Methods: Presentation

Global topical cohesion (Masson 95, Salton et Al. 96) Local topic shift (Hearst 97) Frame adverbials (Charolles 97) ContextO (Minel 01)

Contributions and limitations Examples of collaborative works

Boundary adjustements Segmentation validation

Conclusions and future works

Page 4: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Statistical approaches: Basic notions Hypothesis:

« Term repetition is a strong cohesion indicator » (Halliday & Hasan 76)

« Lexical cohesion is a strong indicator of topical coherence » (Masson 95, Salton et Al. 96, Hearst 97)

Main principle: Parsing text and measuring lexical similarity between adjacent

text parts If similar then consider as belonging to the same text

segment Else consider that there is a topic break

Page 5: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

METHODS : PRESENTATION

Global topical cohesion (Masson 95, Salton et Al. 96)

Local topic shift (Hearst 97) Frame adverbials (Charolles 97) ContextO (Minel 01)

Page 6: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Complementary lexical approaches:

global and local coarse information

Masson (95) & Hearst (97) compare the lexical similarity of adjacent text units

(Masson 95) – And similar (Salton et Al. 96) Segmentation based on aggregation of adjacent text units in

case of « sufficient » lexical similarity (i.e. topic breaks are infered)

(Hearst 97) – TextTiling Segmentation based on aggragation of blocs of quasi-sentences,

a quasi-sentence at a time

Page 7: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Complementary lexical approaches:

global and local coarse information Main differences:

the unity considered by each method: Masson (95) : paragraphs = minimal topical text units; Hearst (97) Basic units with size-fixed

The comparison of units: Masson (95) compare text units two by two Hearst (97) compare text units by gradually moving the

comparison windows over the text

Page 8: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Linguistic markers

frame adverbials (M.Charolles, 1997). “In the Netherlands, …” “During holidays, …” “In biology, …” “On the one hand, ….On the other hand, …” “With regard to Paul, …” Etc.

Page 9: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

FRAMEWORK

Of the utterance-act of the utterance

Topic organizational Universes qualitative

Frames frames of discourse frames

In regard On the one hand In France Fortunately

with X on the other hand In 1989 By luck,

About X First, … Secondly,… In linguistics …

… … …

Page 10: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Closing of frames

(p) In the meantime, the tradition of private performance of “ tableaux vivants ” would continue. (q) In France, it was given a royal seal of approval during the reign of Napoleon III. (r) At his autumn vacation chateau of Compiegne, effectively the grand hotel of his regime, guests passed the time by participating in tableaux depicting The Dream of Herculaneum and the more risque Sardanapalus on the Pyre with the Women of His Household, among other diversions. (s) This French tradition was imported to America as a part of the celebration of Mardi Gras in New Orleans (t) where the “ tableaux vivants ” were used as a spectacle at private balls as early as 1857.

(u) By the 1870s, American variety shows were being sanitized and transformed into the family entertainment of vaudeville. (…)

Page 11: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Closing of frames

TF1 In the meantime (= between 1850 & 1870)

p

SF 2 In France,

q

(T+S)F3 At his autumn vacation chateau of Compiegne,

r

This french tradition

s, t

By the 1870s,

Page 12: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

CONTEXTO

Agata Jackiewicz (2002) Identification and delimitation of organizational frames for automatic text segmentation

Page 13: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

SET OF MARKERS ABOVE MENTIONNED

Masson Hearst

Linguistic markersLexically specified?

No Yes

paragraphs Frame adverbials / Contexto

Local markers

X X X

Global markers

X

Page 14: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Contributions and limitations

Contributions (Masson 95) and (Hearst 97)

Text partitionning into global and local segments (Charolles 97)

Local and Fine break at the beginnings of segments

Page 15: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Limitations

(Hearst 97 and Masson 95) Nature of the limitations

Granularity of handled units (improper comparison and too fine units) Relations between lexical Cohesion & Topic coherence & Textuality

Page 16: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Limitations

Charolles (97)

Problems of syntactic ambiguity (1) Selon une technique imposée par l’Ecole Supérieure des Arts

Visuels, elle réalise ici un exercice en dessin animé tout à fait convaincant.

(2) Selon un témoin, il aurait plaisanté avec le préposé de la sécurité lors du contrôle, prétendant avoir une bombe dans ses chaussures.

Frames : How to delimitate their end boundary ?

Page 17: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Adverbial classificationsM. Aunargue, M. Bras L. Vieu, N. Asher (2001):

I-P adjunct position (sentence modifier) : (1) Heureusement, Luc arriva (Fortunately, Luc arrived) (2) En Bolivie , Marie avait les cheveux rouges. (In Bolivia, Marie had red hair (3) A Toulouse, il faisait soleil et le vent était doux (At Toulouse, the sun was

shining and the wind was warm) VP- adjunct (VP modifier) :

(4) Marie dansa sur la terrasse jusqu’à l’aube V’ – adjunct (Verb modifier)

(5) Marie sortit de la maison sur la terrasse (Marie came out of the house onto the terrace)

V – complement (Argument position) (6) Marie sortit (de la maison) (Marie came out ( of the house)) (7) La fête dura du matin jusqu’au soir (The party lasted from the morning to the

evening)

Ludo Melis (1983), Henning Nølke (1990), Claude Guimier (1996), Michel Charolles (1997), Christian  Molinier & Françoise Levrier (2000)

Page 18: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Experimental results

Page 19: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

(Masson 95, Hearst 97) – Improper cohesion

Le terme de la scolarité complète en collège est marqué par le brevet . Ce diplôme , qui a remplacé le brevet élémentaire du premier cycle ( BEPC ) , est attribué , pour les candidats des collèges et lycées professionnels , au vu des résultats scolaires de l’ année et d’ un examen , et à la suite d’ épreuves pour les candidats individuels : élèves de Seconde de lycée ou de lycée professionnel repassant l’ examen auquel ils ont échoué précédemment , élèves des établissements privés hors contrat , etc.

747500 candidats se sont présentés à l’ examen , dont 35000 candidats individuels ; près des trois quarts ont été reçus ; mais pour les candidats individuels le taux de réussite a été à peine de 50% . Pour la série collège ( 85% de l’ ensemble des candidats ) , 76% des candidats des établissements scolaires ont obtenu le brevet , ceux des collèges privés sous contrat réussissant mieux que ceux des collèges publics ( 85, 74% dans les seconds ) .

<Paragraph/>

<segmentHearst/>

<segmentHearst/>

En juin 1992,

Page 20: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

(Hearst 97) – Improper cohesion

L’ éventail des formations professionnelles proposées , l’ éloignement des lycées , les inscriptions dans ceux de Toulouse , Montpellier ou Clermont-Ferrand contribuent sans doute à réduire les demandes d’ orientations vers les lycées de ces départements . Inversement , dans quelques départements , le Bas-Rhin et la Marne par exemple , les passages en 2e sont relativement nombreux , alors que les taux de passage de 5e en 4e sont parmi les plus bas ; sans doute faut -il aussi faire intervenir , outre les orientations de 5e en 4e technologique , les inscriptions dans les 2e des lycées de Reims ou Strasbourg d’ élèves des collèges de l’ Aube , de la Haute-Marne et des Ardennes pour les premiers , des Vosges pour les seconds . </p> <p> Au total , malgré l’ augmentation générale des taux de passage de 5e en 4e et de 3e en 2e , les perspectives d’ études longues restent donc très inégales d’ un département à l’ autre . Et elles le sont plus encore d’ un collège à l’ autre .

en moyenne , 20% des élèves du second degré qui chaque année arrêtent leurs études , le font au cours ou au terme de leur scolarité en collège . Ces 150000 jeunes sortent de 3e ( 40000 à 50000 ) , de CPA ( environ 45000 , dont plus de la moitié vont ensuite en apprentissage ) , de CPPN ( 25000 à 30000 ) , de 5e ( 20000 environ ) , de 4e et de 6e enfin ( 5000 à 10000 ) .

<segmentHearst/>

<segmentHearst/>

Les sorties prématurées

Au milieu des années 1980 ,

<Paragraph/>

Page 21: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

(Hearst 97) – Adjustement required[…]La cartographie géologique de l' Angleterre est par bonheur exacte , ce qui , la plupart du

temps , permet d' identifier avec précision la carrière d' origine de la roche en question . C' est ainsi que des haches de pierre provenant de la carrière de Great Langdale , dans le Westmorland , ont été retrouvées jusque dans le Wiltshire et le West Lothian . Il y avait des carrières de même importance à Graig Lwyd , dans le Caernavon , et en Cornouailles . La connaissance de ces faits permet de dresser la carte d' un très vaste trafic de haches avant même 3000 ans avant J.-C . " Trafic " et " commerce " restent des mots ambigus et imprécis , tant que nous ne savons pas exactement comment ces objets étaient transportés au échangés .

l' application des techniques scientifiques a permis de repousser la préhistoire de la circulation des biens entre régions différentes avant même le début de l' ère de l' agriculture , à une époque antérieure à 8000 avant J.-C .

Des éclats et des lames de petite dimension en obsidienne , roche vitreuse volcanique noire qui se taille comme le silex , ont été trouvés dans les premiers sites agricoles de l' ensemble du Proche-Orient . La spectroscopie optique a permis d' y mesurer la quantité d' éléments à l' état de traces ( avec une concentration de quelques parties par million seulement ) . Une étude parallèle des sources naturelles permet de confronter trouvailles et sources . Grâce à une technique d' empreinte fondée sur l' examen des éléments à l' état de traces , on constate que tous les premiers sites agricoles du Moyen-Orient reçurent de l' obsidienne de l' une ou de l' autre des principales sources : Turquie centrale et Turquie orientale . Dans un site aussi éloigné vers le sud que Jéricho en Palestine , les quantités d' obsidienne découvertes sont très faibles . Mais force est de constater que vers 8000 ans avant J.-C . […]

<Paragraph/>

<?segmentHearst?/>

<?segmentHearst?/>

Au Moyen-Orient,

Page 22: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

A complementary way for text segmentation

To adjust the segmentations To locally close a frame of discourse

Page 23: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Hearst boundary adjustement (1)

(…) par exemple les signaux du code de la route, les pictogrammes des lieux publics.

<Masson/ > <Paragraph/> <Hearst/?> Toutefois, au sens propre, celui qui prévaut dans les sciences huimaines – histoire, linguistique, anthropologie, sociologie – “écriture” désigne tout système de signes essentiellement visuels, capable d’encoder n’importe quel énoncé linguistique, et donc, de transposer sa matérialité phonique en matérialité optique (ou tactile dans le cas du Braille). <Hearst/?> A la différence des autres systèmes de notations symboliques évoqués, l’écriture au sens propre établit une correspondance univoque (…)

Page 24: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Hearst boundary adjustement (2)

(…) “Trafic” et “commerce” restent des mots ambigus et imprécis, tant que nous ne savons pas exactement comment ces objets étaient transportés ou échangés.

<Paragraph/> <Hearst/?> Au Moyen-Orient, l’application des techniques scientifiques a permis de repousser la préhistoire de la circulation des biens entre régions différentes avant même le début de l’ère de l’agriculture, à une époque antérieure à 8000 av J-C. <Hearst/?> Des éclats et des lames de petites dimensions (…)

Page 25: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Hearst boundary adjustement (3)

L’expérimentation comparative au contraire ne porte que sur la constatation du fait et sur l’art de le dégager des circonstances ou des autres phénomènes avec lesquels il peut être mêlé. (….) <Hearst/?> En physiologie, la méthode des différences est rarement applicable, parce que (…) et parce qu’ensuite (…). <Hearst/?> Je suppose , par exemple, que l’on paralyse isolément et successivement tout le corps (…)

Page 26: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Hearst can provide an important indication with regard to the frame adverbial closing.<Paragraph/> En fin de seconde, les trois quart des lycéens passent

en première. (…)<Paragraph/> En classe de première, la proportion des lycéens (…)<Paragraph/> En Terminale, moins de 35 % des lycéens ont dix-sept

ans ou moins. Un tiers ont une année de retard et un autre tiers deux ans ou plus. <Hearst/?> Les élèves qui se présentent au baccalauréat à dix-neuf ans, vingt ans, voire plus, sont de plus en plus nombreux, signe de l’allongement progressif de la durée des études secondaires longues. <Hearst/?> Cet allongement à de nombreuses causes: les passages de 3e en 2e font partie de la scolarité normale (…) qui auraient dans le passé abandonné leurs études en 2e ou en 1re, sollicitent maintenant (…)

Page 27: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Final remark

<Masson/ > <Paragraph/> <Hearst/?> Mais la proportion de jeunes qui vont jusqu'au terme des études secondaires continue de varier fortement d'un département à l'autre. <Hearst/?> Dans la plupart des départements méridionaux, plus d'un jeune sur deux de la classe d'âge se trouve en Terminale en 1987; on approche ou on dépasse même 60% dans les Alpes-Maritimes, le Rhône ou la Haute-Garonne. Dans la France du Nord, où l'on tombe fréquemment à moins de 40%, voire à moins du tiers dans le Bassin parisien, la Bretagne (à l'exception du Morbihan) et quelques départements à ville universitaire s'individualisent par des taux qui avoisinent 50%. Et Paris est une nouvelle fois un cas particulier: qu'il y ait plus d'élèves en Terminale de lycée que de jeunes dans la classe d'âge correspondante donne la mesure de l'attrait qu'exercent les lycées de la capitale et des beaux quartiers de la proche banlieue ouest sur les départements voisins.

Page 28: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Conclusion and future works Limitation of discourse model partitionning text into

consecutive non-overlapping topic segments: Indeed some segments with ambiguous lexical cohesion

point out the hierarchical structure of texts and the functional role of some segments, more than topical

(announcement, shift segment, synthesis, etc.).

Complementary of the approach Consider more features

(G. Schrepfer-André " according to ", M. Charolles " If p, q (r, s...),” D.Vigier " In N(activity), p...”

Page 29: Text organi z ation by combining fine-grained linguistic markers with global statistical measures

Thanks, any questions ?

M. Charolles, « L’encadrement du discours - univers, champs, domaines et espaces », Cahier de recherche linguistique, 6, 1997

N. Hernandez et B. Grau, “ Combining topic and meta descriptors for text structure presentation ”, ACM SIGDOC, San Francisco, USA, October 12-15, 2003

D. Vigier “ Les syntagmes prépositionnels en “ en N ” détachés en tête de phrase référant à des domaines d'activité ”, Lingvisticae Investigationes, 26 (1), 2003..

J-L. Minel, J-P. Desclés, E. Cartier, G. Crispino, S. Ben Hazez, et A. Jackiewicz. Résumé automatique par filtrage sémantique d’informations dans des textes. Présentation de la plateforme filtext. Revue Technique et Science Informatique, 3, 2001