77
Xavier Tannier [email protected] Traitement Automatique des Langues Master 2 Recherche Analyse de Textes et Extraction d'Information

Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

  • Upload
    others

  • View
    2

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Xavier [email protected]

Traitement Automatiquedes Langues

Master 2 Recherche

Analyse de Textes et Extraction d'Information

Page 2: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Plan général

• Introduction à l'extraction d'information

• Reconnaissance des entités nommées

• Résolution d'anaphores

• Analyse temporelle

Page 3: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Xavier [email protected]

Traitement Automatiquedes Langues

Master 2 Recherche

Introduction à l'Extraction d'Information

Page 4: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Besoin d'information

• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"

• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.

• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais 

l'accès aux informations externes est maintenant tout aussi important

Page 5: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Diversité des besoins d'information (1/2)

(Meadow et al., 2000.)

1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait 

reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.→ SQL, XQuery, etc.   (bases de données)

2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous 

quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy a­t­il été assassiné ? 

→ Extraction d'information et Systèmes de Questions­Réponses

Page 6: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Diversité des besoins d'information (2/2)

(Meadow et al., 2000.)

3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il 

existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon 

partielle.→ Recherche d'information 

4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de 

parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.

→ Navigation

Page 7: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Définition (1/2)

• Aux origines du TAL, une barre placée trop haut– Des modèles génériques de compréhension des textes– Des problèmes à la fois théoriques et pratiques

• Couverture insuffisante des grammaires• Ambiguïtés non levées trop nombreuses• Difficultés pour collecter, mais aussi pour manipuler les connaissances 

sémantiques et pragmatiques suffisantes• L'approche générique de compréhension est pour l'instant une utopie

• L'extraction d'information :– ne cherche plus à comprendre les textes dans leur ensemble– vise à extraire d'un texte donné des éléments pertinents

• Le type d'information pertinente pour une application donnée est définie à l'avance par le modèle

Page 8: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Définition (2/2)

• "L'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle" (T. Poibeau)

• Une approche guidée par le but : – Identifier les occurrences d'événements particuliers– En extraire les arguments impliqués– En donner une représentation structurée

• L'analyse s'effectue au niveau local• Seule une partie du texte est considérée 

(10 à 20 % de texte utile pour un tâche spécifique)

Page 9: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 1 (1/3)

• Cadres :

MATCH

équipe1 :équipe2 :

vainqueur :score :

BUTEURS

équipe1 :équipe2 :

EVENEMENT

sport :lieu :

Page 10: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 1 (2/3) avec patrons sémantiques

• Lexique :

• Patrons :

Finlande → EQUIPECanada → EQUIPEHockey sur glace → SPORT...

EQUIPE1 battre2 EQUIPE3 → match.équipe1 = 1, match.équipe2 = 3, match.vainqueur = 1

NOMBRE1 a2 NOMBRE3 → match.score = 1­3SPORT1 → événement.sport = 1...

Page 11: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

.

.

Exemple 1 (3/3) avec patrons sémantiques

• Entrée :La Finlande a battu le Canada 2 à 0 lors d'un match du premier tour du tournoi masculin de hockey sur glace.

• Résultat :

MATCH

équipe1 :équipe2 :

vainqueur :score :

BUTEURS

équipe1 :équipe2 :

EVENEMENT

sport :lieu :

FinlandeCanadaFinlande2­0

Hockey/glace?

.

.

??

normalisation

normalisation

Page 12: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 2

• Texte : San Salvador, 19 avril 1989 (ACAN­EFE) – Le président du San Salvador 

Alfredo Cristani a condamné l'assassinat d'origine terroriste du ministre de la justice Roberto Garcia Alvarado et a accusé du meurtre le Front de Libération National Farabundo Marti.

• Cadre :

       INCIDENT

date :lieu :

auteur :victime :

19 avril 1989El Salvador : San Salvador (CITY)Front de Libération National Farabundo MartiRoberto Garcia Alvarado

Page 13: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 3 : information (semi­)structurée

Titre Responsable artistique Web senior (H/F)

Expérience ­ au moins 5 ans dans l'univers du web­ première expérience significative en management

Qualités ­ qualités relationnelles­ sensibilité marketing

Technique ­ Photoshop­ Flash­ Dreamweaver­ CSS

Page 14: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : information structurée

Page 15: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : information structurée

Page 16: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : information structurée

Page 17: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : information structurée

Page 18: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : comment résumer les informations

AGRÉGATION

NORMALISATION

CHOIX

(minimum)

CALCUL

Page 19: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : le résultat

Calcul

NormalisationChoix

Page 20: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemple 4 : le résultat

Agrégation

Page 21: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Les variantes

• Morphologiques– capitale de l'Europe / capitale européenne

• Lexicales– la reine de Hollande / des Pays­Bas

• Syntaxiques– Moscou compte 9 millions d'habitants / 

Les 9 millions d'habitants de Moscou

• Sémantiques– M. Ayoub a acheté le Phocéa / 

Bernard Tapie a vendu le Phocéa à Mouna Ayoub– Adolf Hitler est mort / s'est suicidé

Page 22: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Niveaux d'analyse utilisés (ou pas) 1/2

achèteraacheterachètent

a acheté

achats →  achat

acheterrachatacheté

achat

Morphologie

La Finlande a battu le CanadaDET NAM AUX V DET NAM_____NP ___VP _____NP

SUJET OBJET

Syntaxe

Entités nomméesGaël Montfils a remporté l'open de Metz en 2009

PERSON LIEU(ville) DATE(année)

SUJET(battre, X) & OBJET(battre, Y) → match(X, Y), vainqueur(X), vaincu(Y)

Sémantique

fonctionsverbes

prénomsproduits

pays

Lexiques

Page 23: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Niveaux d'analyse utilisés (ou pas) 2/2

Liste des codes pays :<ul>  <li><b>EE</b> – <i>Estonie</i></li>  <li><b>ET</b> – <i>Éthiopie</i></li>  <li><b>FK</b> – <i>Maldives</i></li>  <li><b>FR</b> – <i>France</i></li></ul>

Indications de mise en forme

Mécanismes d'inférence

"Federer a réalisé un superbe coup droit gagnant lors d'une balle de match en sa faveur."

point(P) & coup_gagnant(P, J)→ vainqueur(J, P)

balle_de_match(B, P)→ point(P)

match(J1, J2) & balle_de_match(B, J1) & vainqueur(J1, B)→ vainqueur(J1), vaincu(J2)

Page 24: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Acquisition symbolique vs. statistique

• Le développement de patrons par des experts est long et coûteux

• Le traitement statistique a besoin de nombreux exemples annotés à la main par des experts... ce qui est long et coûteux

• Les arguments habituels...• Le problème est d'autant plus important que les systèmes 

sont dédiés à une application donnée

• Les voies hybrides ont vite été explorées

Page 25: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Acquisition semi­automatique de patrons

• Exemple 1 : les attentats– Utilisation d'entités déjà annotées :

• "Alfredo Crastani" est une <victime>

• "Al Qaïda" est un <auteur>

• "Les nationalistes" est un <auteur>

– Analyse syntaxique : collection de patrons• <sujet> <verbe_passif>  (Alfredo Crastani a été assassiné)

• <sujet> <verbe_actif>         (Al Qaïda a attaqué...)

• <sujet> <verbe verbe_inf>   (Les nationalistes ont tenté de tuer...)

– Déduction de patrons sémantiques :• <victime> a été assassiné

• <auteur> a attaqué

• <auteur> a tenté de tuer

Page 26: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Acquisition semi­automatique de patrons

• Exemple 2 : les achats d'entreprises– Partir d'un patron déjà déterminé :

• <company1> acheter <company2>

– Trouver des exemples d'entités instanciant ce patron• <company>IBM</company> a acheté <company>Lotus</company>▸ achat(IBM, Lotus)

– Collection de nouveaux patrons grâce aux connaissances acquises• Lotus a été acquis par IBM▸ <company2> être acquis <company1>

• L'achat de Lotus par IBM▸ L'achat de <company2> par <company1>

Page 27: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Expansion de patrons

• Étude sur corpus • IBM cherche à embaucher de nouveaux candidats.

↳ embaucher(IBM, candidats)

• Dans Wordnet :IBM  Société  Entreprise commerciale  Organisation

• Nouvelle règle : ↳ embaucher (<organisation>, candidats)

• Générateur de bruit et de silence

Page 28: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Exemples d'applications

• Veille technologique, économique, politique– Outils d'aide à la décision– Mise en évidence d'éléments pertinents dans les textes– Maintenance possible par l'utilisateur

• Analyse de bases textuelles en génomique– Remplissage de bases de gènes, d'interaction entre les gènes, de liens 

entre gènes et maladies...

• Analyse de courrier pour le support en ligne– Permet d'orienter les demandes vers le bon service– Améliore la productivité des employés– Problème du style de rédaction des courriers électroniques

• Analyse d'un fil d'agence de presse

Page 29: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Applications au LIMSI

• Systèmes de questions­réponses (teaser)– En domaine ouvert : impossibilité de définir des patrons trop précis– Sur le Web : problèmes de propreté des documents, de respect de la 

langue, de spam, de confiance, etc. (voir le cours de RI)– Utilisation de l'analyse syntaxique (un tout petit peu de sémantique) 

et des entités nommées– Plus de détails le 21 janvier !

• Extraction d'événements et d'informations temporelles• Extraction de relations

– Plus de détails... après la pause.

Page 30: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Les conférences MUC

• MUC : Message Understanding Conference

• 7 campagnes d'évaluation de 1987 à 1998• Financées par le DARPA

• Comme souvent, des événements moteurs de la recherche dans le domaine

• L'évolution des campagnes marquent l'évolution de la tâche d'extraction d'information

• Par la suite, conférences MET, IREX, ESTER, ACE, SenseEval puis SemEval, ...

Page 31: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Les conférences MUC

• 1987 : session pionnière ; corpus au style télégraphique de la Navy ; pas de tâche claire 

• 1989 : apparition du formulaire et des mesures d'évaluation (précision et rappel)

• 1991, 1992, 1993 : corpus journalistique ; affinement des techniques jusqu'au plafond des 60 % ; la tâche devenue trop complexe doit être fragmentée

• 1995, 1998 : structuration en sous­tâches (entités nommées, coréférence, formulaire des entités, formulaires des scénarios, puis formulaire de relation) ; nécessité de systèmes portables et modulaires

Page 32: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Références

• Extraction automatique d'information, du texte brut au web sémantique, Thierry Poibeau, 2003.

• Information Extraction : Techniques and Challenges. R. Grishman.  In SCIE’97 : International Summer School on Information Extraction, 1997. 

• Information extraction (a multidisciplinary approach to an emerging information technology), M.T. Pazienza, 1997.

• Les actes des conférences MUC­4 (1992), MUC­5 (1993), MUC­6 (1994), MUC­7 (1995).

Page 33: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Xavier [email protected]

Traitement Automatiquedes Langues

Master 2 Recherche

Reconnaissance desEntités Nommées

avec l'aide de Maud Ehrmann...

Page 34: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Définitions (1/3)

• Entités nommées :– Unités lexicales particulières– Ex : noms de personnes, noms d'organisation, noms de lieux... dates, 

unités monétaires, pourcentages...

• Reconnaissance des entités nommées :– Identifier ces unités dans un texte– Les catégoriser– Éventuellement, les normaliser

Page 35: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Définitions (2/3)

L’ancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, qu’il ne sera pas candidat à 

l’investiture socialiste pour la présidentielle de 2007.

• Identification : Lionel Jospin, jeudi 28 septembre, RTL, 2007.• Catégorisation :

L’ancien premier ministre socialiste <PERS>Lionel Jospin </PERS> a confirmé, <DATE>jeudi 28 septembre</DATE>, sur <ORG>RTL</ORG>, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de <DATE>2007</DATE>.

• Normalisation : L. Jospin  Lionel Jospin

Page 36: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Définitions (3/3)

• Plus de finesse ?<PERS><FONCTION>L’ancien premier ministre socialiste</FONCTION> Lionel Jospin</PERS> a confirmé, <DATE val="2006­09­28">jeudi 28 septembre </DATE>, sur <ORG type="radio">RTL</ORG>, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de <DATE val="2007">2007</DATE>.

• Le niveau dépend des capacités du systèmes mais aussi de l'application 

• La reconnaissance d'entités nommées est issue de la tâche plus générale de l'extraction d'information

Page 37: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

. .

Applications "internes" (1/2)

• Analyse syntaxique– Aide à la segmentation et à la morphosyntaxe

• HyOx, Inc.• Seat and Porsche had fewer registration in July 1996.

– Aide à l'analyse syntaxique• He will be replaced by Eliahu Ben­Alissar, a former israeli envoy to <LOC>Egypt</LOC> and <LOC>Jordan</LOC>.

• He will be replaced by Eliahu Ben­Alissar, a former israeli envoy to <LOC>Egypt</LOC> and <ORG>Likud party</ORG> politician.

– Acquisition de dépendances "sémantiques"• They met in <LOC>Baghdad</LOC>.

LOCATION

Page 38: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Applications "internes" (2/2)

• Coréférence– <PERS>John</PERS> bought a new computer. It was able to process 

XML.

• Traduction– <PERS>Jack London</PERS> was an American writer.

▸ Jack London était un auteur américain.– <LOC>London</LOC> is where I lived my best years.

▸ C'est à Londres que j'ai vécu mes meilleures années.

• Désambiguïsation lexicale

Page 39: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Applications "directes"

• L'extraction d'information et la veille– Remplir des bases de données sur une entité ou un type d'entités 

donnés– Signaler de nouveaux documents concernant cette entité ou ce type 

d'entités

• La tâche de questions­réponses– Permet d'identifier le type de réponse attendu– cf. cours questions­réponses

• L'anonymisation

Page 40: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Le choix des classes

• Gouvernées au départ par les conférences MUC...• Les valeurs sûres ("ENAMEX") :

– ORGANISATION– LIEU– PERSONNE

• Celles qui reviennent souvent :– TIMEX (date, expressions temporelles)– NUMEX (valeur monétaire, pourcentage...)

• On peut ajouter des classes et les subdiviser à l'infini• Certaines applications nécessitent une granularité 

hétérogène

Page 41: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Un exemple de hiérarchie (QALC, LIMSI)

Entité nommée

Nom propre

Nombre

Entité numérique

Expression temporelle

Personne

Organisation

Lieu

AgeDurée

Jour

PériodeDate

Poids

Vitesse

Volume

Longueur

Physique

Température

Montant financierPourcentage

Page 42: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Identification des EN : preuves internes

• Majuscule (à manipuler avec précaution)• Prénoms ou marqueurs générationnels (personnes) :

– Lionel Jospin– L. Jospin– Benoît XVI

• Mots ou affixes de type classifiant (lieux et organisations) :– la Banque Populaire– Microsoft Inc.– L'avenue des Champs­Elysées– le Mont Valérien

• Sigles ou esperluettes (organisations) :– Crédit Agricole SA

Page 43: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Identification des EN : preuves externes

• Contexte d'apparition des entités nommées• Informations supplémentaires ou propriétés spécifiques 

(titre, grade, ...)– Monsieur Jospin– Mme Denise– Général Leclerc– l'entraîneur Aimé Jacquet– le groupe Sanofi­Aventis– the Coca­Cola company

• Souvent précisées lors de la première occurrence de l'EN dans le texte, d'où l'importance d'une propagation de ces informations

Page 44: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Identification des EN : utilisation de lexiques

• En général, de simples listes de mots :– liste de prénoms– liste de villes, pays, fleuves...– liste de métiers– liste de marques– ...

• Construits manuellement ou automatiquement• Très utiles pour les noms de lieux, d'intérêt discuté pour les 

autres• Confrontés au problème classique des ressources : 

pas assez de mots, c'est inutile ; trop de mots, c'est ambigu

Page 45: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Annotation des EN (1/2)

• Méthodes symboliques :– À base de règles contextuelles– Patrons d'extraction écrits à la main– Exploitation des informations :

• morphosyntaxiques• lexicales (issues des lexiques)

– Exemples :• Prénom + Mot avec une majuscule = Personne• Mot inconnu + "Inc." = Organisation• Nom Propre + '&' + Nom Propre = Organisation• Lieu + verbe d'action = Organisation

Page 46: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Annotation des EN (2/2)

• Méthodes à base d'apprentissage :– Résultat : des règles logiques, un arbre de décision, un modèle 

numérique...– Nécessitent de larges corpus annotés– Il n'est pas toujours possible d'intervenir sur les résultats après coup

• Approches mixtes– Apprentissage de règles puis révision par un expert– Élaboration de règles par un expert puis extension automatique de la 

couverture

• Performances comparables mais avantages et inconvénients de chacun à prendre en compte

Page 47: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Un système symbolique : LaSIE

• Gaizauskas et al., 1995 (MUC 6).• Sortie : représentation sémantique du texte en termes 

d'entités nommées, de coréférence, de scénario...

• 3 phases :1. Traitement lexical : segmentation en mots, en parties du discours, 

lemmatisation, étiquetage d'EN sur la base de lexiques et de déclencheurs.

2. Analyse sémantique : règles de grammaire hors contexte en Prolog (200 règles pour les EN)

3. Analyse du discours : représentation en instance, résolution de coréférence, propagation du typage des EN.

Page 48: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Un système statistique : MENE

• Borthwick et al., 1998 (MUC 7).• Utilisation du principe de l'entropie (théorie de 

l'information)• Nécessité de déterminer des traits (features) sur lesquels le 

système apprend. Ici :– Traits binaires : capitale, caractères numériques, ...– Traits lexicaux, issus du contexte lexical (déclencheurs)– Traits textuels, sur la structure du texte (présence de l'unité dans le 

titre, le résumé...)– Traits issus de dictionnaires (noms de personne, d'organisations, 

d'universités, de régions, ...)– Traits externes (issus d'autres systèmes de reconnaissance d'EN)

Page 49: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Un système mixte : [Lin 1998]

• Lin, 1998 (MUC 7).• Utilisation de l'analyseur syntaxique Minipar• Constitution d'une base de collocations par relation 

syntaxique :– [review, N:nn:N, admission = 2]– [review, V:comp1:N, acquisition = 3]

• Détection des régularités du corpus pour déduire des règles :– Exemple : sur 33 occurrences de noms propres apparaissant en tant 

que pré­modifieurs du syntagme “managing director”, 26 sont des organisations.

– 3600 règles sont ainsi mises en place

• Utilisation d'un classifieur bayésien pour les entités inconnues

Page 50: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Xavier [email protected]

Traitement Automatiquedes Langues

Master 2 Recherche

Résolution d'Anaphores

Page 51: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Les ambiguïtés sémantiques : l'anaphore

• L'anaphore pronominale– Nicolas

1 était furieux. Il

1 était secondé par des imbéciles.

– Ségolène1 rencontra Martine

2 à un congrès. Elles

1+2 se réconcilièrent.

– Nicolas1 rencontra Dominique

2 dans un couloir. Il

? lui

? en voulait 

toujours.

– Pierre1 empoisonna Sam

2. Il

2 mourut.

– Pierre1 empoisonna Sam

2. Il

1 fut arrêté.

• Autres– La cage du gorille s’ouvrit. Sa serrure devait être mal fermée.– Le gorille accélèra le pas vers le juge. Le quadrumane avait une idée 

derrière la tête.– Je ne peux donner la suite de l’histoire. Cela serait pourtant délectable.

Page 52: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

..

..

..

Résolution d'anaphore pronominale

• Indice n° 1 : le pronom est après son antécédent– Marie m'a dit qu'elle voulait partir.

– Elle m'a dit que Marie voulait partir.

– Pourtant : Dans ses rêves, Julien vole de continents en continents.

• Indice n° 2 : il doit y avoir correspondance en genre et en nombre– Quand Roméo a vu Juliette, il est tombé amoureux d'elle.– Quand Roméo a vu Juliette, ils sont tombés amoureux.– Encore faut­il connaître le genre...

Page 53: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

.

Algorithme très naïf

• Construction d'une liste des référents potentiels :– Du plus récent (contexte local courant) au plus ancien– Pour les pronoms : noms propres et syntagmes nominaux

• Lorsqu'on rencontre un pronom :– On prend le référent le plus récent– On vérifie les contraintes (genre, nombre, réflexivité)– Exemple d'autres contraintes : un pronom non réfléchi ne peut 

référer à un élément du même groupe nominal complexeEdmond Hillary gravit l'Everest avec l'aide de son sherpa

– Si les contraintes sont vérifiées, on choisit ce référent– Sinon, on passe au suivant

• Dans la moitié des cas, un seul candidat proche est présent 

.

Page 54: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

.. .

..

Algorithme naïf (Hobbs 78)

• On effectue une analyse syntaxique de surface• Lorsqu'on rencontre un pronom (non réfléchi), on choisit le 

dernier NP de la phrase courante– Mr. Smith saw a driver in his truck.

• À défaut, on choisit le premier NP des phrases précédentes– Mr. Smith saw a driver. He was in his truck.

• On vérifie bien sûr toujours les contraintes "de base"• Presque 90 % des anaphores pronominales sont résolues par 

cet  algorithme

Page 55: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Le focus (Sidner 81)

• Distinction entre :– le focus acteur, l'élément jouant un rôle actif à un moment donné du 

discours. C'est généralement le dernier constituant ayant eu le rôle d'agent dans la phrase.

– le focus du discours, l'élément le plus important à un moment donné du discours. Il est choisi parmi les éléments non agents.

– Un pronom en position d'agent se référera plutôt au focus acteur– Un pronom dans une autre position sera lié au focus du discours

• Exemples :– Jack drank the wine on the table. It was brown and round.– Jack saw Sam at the party. He went back to the bar to get another 

drink.– Nicolas trahit Jacques. Il lui fit ainsi beaucoup de peine.

Page 56: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Au­delà : apports sémantiques

• Du plus "simple"...– The castle of Camelot remained the residence of the king until 536 

when he moved it to London.– the king = personne  on y réfère par "he"– the castle, the residence  personne  on y réfère par "it"– 536 = date  ne peut pas bouger– castle = gros bâtiment  ne peut pas bouger

• ... au plus pragmatique :– Si le lait cru ne convient pas à votre bébé, faites­le bouillir. (Jespersen)

– Pierre empoisonna Sam.     Il mourut / Il fut arrêté.– Nicolas Sarkozy et Hugo Chavez se sont rencontrés ce matin. Le 

président français s'est déclaré satisfait de l'entrevue.

Page 57: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Xavier [email protected]

Traitement Automatiquedes Langues

Master 2 Recherche

Analyse Temporelle

Page 58: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Temps et extraction d'information

• Résumé automatique– Résumé d'un document– Synthèse multi­documents

• Extraction d'événements– Je vous propose un rendez­vous demain à 10h pour parler de...

• Extraction de connaissances– Jacques Chirac est président de la république  ▸ Quand ?– Le mur de Berlin est tombé le 9 novembre 1989  

[...] Peu après la chûte du mur de Berlin, ...

• Questions­réponses• Google timeline

Page 59: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Ambiguïtés

• Les temps sont ambigus– Présent de narration vs. présent de généralité vs. Présent futur 

proche– Imparfait "activité" vs. imparfait d'événements itératifs

• Il roulait le long du canal quand il vit le corps flottant dans l'eau sombre.• Il roulait le long du canal quand le temps le permettait.

– etc.

• Les signaux temporels sont ambigus• Réunion de 2 heures à 4 heures.• Il court après le temps, Tu tournes après la rivière, Il arrivera après 14 h.

Page 60: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Expressions relatives et floues

• Comme pour les phénomènes de la langue, les expressions temporelles utilisent l'anaphore :– Par rapport au moment de l'énonciation (Hier, il y a 2 jours, bientôt)– Par rapport à un moment de référence (plus tôt, 2 jours avant, le 

lendemain)– Par une date relative (le 11 février), la référence étant à déterminer– Mais aussi : trois jours de plus, moins souvent, ...

• La plupart des expressions sont flouesComment interpréter :

• "il y a 2 ans" ? "Une amitié de 30 ans" ?• "tous les mois" ?• "bientôt", "un instant", "J'arrive dans une seconde"... ?• "J'arrive dans 20 minutes" vs. "J'arrive dans 19 minutes"... ?

Page 61: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Connaissances mises en œuvre 

• Connaissances linguistiques– Morphologiques (temps des verbes...)– Lexicales (nature du prédicat concerné)– Syntaxiques (attachement des expressions temporelles aux 

prédicats)

• Connaissances extra­linguistiques– Moment d'énonciation– Connaissances du monde :

• Il s'est levé et a pris son petit­déjeuner (ordre temporel)• Il a bien bu et bien mangé (pas d'ordre)

– Connaissances "encyclopédiques" :• L'URSS s'est effrondrée après la chûte du mur de Berlin

Page 62: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Temps et langue

• L'analyse du temps s'inscrit dans la compréhension globale des textes, et en particulier des événements décrits dans les textes. Elle est sujette aux problèmes :– de modalité ; l'événement a­t­il eu / aura­t­il vraiment lieu ?

• L'équipe de France voulait gagner la coupe en 2006.• La recherche pourrait obtenir plus de moyens.

– d'anaphore • Ce sera pour plus tard.• Jean arriva à la maison de Marie. Sur le chemin, il s'était arrêté pour 

acheter quelques fleurs...a) Malheureusement, elles n'ont pas remonté le moral de la jeune femme.b) Il en avait pris des rouges, des blanches et des roses.

– etc.

Page 63: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Temps et événements

• Les événements décrits (et que l'on souhaite "fixer" temporellement) peuvent être :– duratifs ou ponctuels– accomplis ou en cours– factuels ou non (ou peut­être)

• Tous ces points ont une influence sur l'ordre entre les événements.

• Un exemple : le paradoxe de l'imperfectif (Dowty)– Keats écrivait                   (implique "il a écrit")– Keats écrivait un sonnet   (n'implique PAS "il a écrit un sonnet")– (La poule traversait la rue quand elle a rencontré le camion)

Page 64: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Qu'est­ce qu'une expression temporelle ?

• Une date– Absolue 27 juin 1996– Relative

• Par rapport au moment de l'énonciation il y a 2 ans• Par rapport à un moment de référence deux ans plus tôt

• Une durée– Absolue pendant 3 ans

– Relative• Par rapport au moment de l'énonciation depuis un an• Par rapport à un moment de référence depuis

• Une expression de fréquence tous les ans, le mardi

• Une expression plus complexe après la chute du mur

Page 65: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Qu'est­ce qu'un événement ? (dans la vie)

• Ce qui se produit, arrive ou apparaît

• Un fait important ou marquant pour un individu ou une communauté humaine

• Fait qui a lieu à un moment précis / pendant une période donnée

• Fait qui attire l'attention par son caractère exceptionnel ou son importance dans l'actualité

Page 66: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Qu'est­ce qu'un événement ? (dans la langue)

• Un verbe– Il faut distinguer les états des événements– Question de l'aspect (voir plus loin)

• Une entité nommée de type événement

Page 67: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Entité nommée événement (1/2)

• Noms déverbaux– Le débarquement      ← débarquer

• Listes finies d'amorces, déclencheurs d'événements– festival    → 48ème festival de Cannes– guerre    → Guerre de 100 ans

• Noms communs non déclencheurs d'événements habituellement– les caricatures du prophète (l'affaire des caricatures)– le 11 septembre                  (les attentats du 11 septembre)– le tsunami   (raz­de­marée survenu en Asie en 2004)

Page 68: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Entité nommée événement (2/2)

• Des noms de périodes historiques– l'ancien Régime– la Seconde Guerre mondiale

• Noms propres non déclencheurs d'événements habituellement (ex : toponymes)– Outreau– Tchernobyl– Columbine

Page 69: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Qu'est­ce qu'un événement ? (dans la pratique 1/2)

• Pour une application temporelle, il faut décider avec les moyens que l'on a

• Par défaut, on a tendance à donner des définitions linguistiques :– Un verbe ? (mais verbes d'état et autres ?)– Un verbe avec ses extensions ? (mais jusqu'où aller ?)– Certains noms ? (mais lesquels)– Des adjectifs, des nombres ??? 

• Exemple (Hagège et Tannier)

– Tous les verbes– Tous les noms déverbaux– Tous les noms "temporellement marqués" dans les corpus

Page 70: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Qu'est­ce qu'un événement ? (dans la pratique 2/2)

• On doit également considérer l'événement dans son contexte ; ce qui le déclenche, la phase préparatoire, les conséquences...

• Exemple : (Ritchie, 1979)Quand ils ont construit le pont...

• ... un architecte local a dessiné les plans.• ... ils ont utilisé les meilleurs matériaux.• ... ils ont résolu les problèmes de trafic.

Et puis...• Les commémorations du 11 novembre auront lieu le mercredi 12 novembre.• Nous sommes nés le même jour, mais pas la même année.• Les 6 ans de guerre civile ont fait des milliers de victimes.

noyau

phase préparatoire conséquences

Page 71: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Événements qui n'ont (peut­être) pas eu lieu (1/2)

• La modalité– La négation

Je n'ai jamais dit que je me retirais définitivement de la vie politique.

– Introduite par des verbes modaux ou d'autres indices lexicaux– Deux types de modalités :

• nécessité, prédiction, possibilité... ("épistémique")– Il est possible, probable, certain que...– Il a dû partir– Il peut être fatigué par le voyage

• permission, capacité, obligation... ("déontique")– Vous devez vous asseoir– Vous pouvez fumer

Page 72: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Événements qui n'ont (peut­être) pas eu lieu (2/2)

• Les événements introduits par des constructions conditionnelles "contrefactuelles"– Si le cours avait été annulé, je me serais levé plus tard.– Un peu plus, je manquais le train.

• Les événements à l'imperfectif– La poule traversait la route (quand elle a été heurtée par un camion)

• Question : comment représenter et ordonner temporellement des événements qui n'ont (peut­être) pas lieu ?

Page 73: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Sur les expressions temporelles et les événements:

­ Segmentation ­ Caractérisation­ Normalisation

Niveau du syntagme

Niveau des phrases

Niveau des documents

Íngrid Betancourt Pulecio est née à Bogotá en Colombie,  le  25  décembre  1961.  Fille  de Gabriel  Betancourt,  ancien  Ministre  de l’Éducation  et  Ambassadeur  de  Colombie auprès  de  l'UNESCO  à  Paris,  et  de  Yolanda Pulecio,  une  ancienne  reine  de  beauté  du département  colombien  de  Cundinamarca, devenue  sénateur,  elle  a  vécu  la  majeure partie  de  son  enfance  à  l’étranger  et  surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique  de  Villepin  avec  qui  elle  se  lie d’amitié.  Française  par  son  premier  mariage, elle  milite  pour  les  Droits  de  l'Homme  et contre  l’injustice,  la  corruption  et  les narcotrafiquants.  Elle  est  otage  des  FARC depuis  le  23  février  2002.  Elle  bénéficie depuis  de  l’appui  de  nombreux  comités  de soutien et d’une importante médiatisation. Une autre  franco­colombienne,  Aïda  Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006. 

DATE19611225T-------W521

Étapes principales (1/4)

Page 74: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

­ Traitement raffiné des expressions temporelles et des événements­ Relations entre prédicats et 

expressions temporelles­ Relations entre prédicats

Niveau de la phrase

Étapes principales (2/4)

Niveau du syntagme

Niveau des documents

Íngrid Betancourt Pulecio est née à Bogotá en Colombie,  le  25  décembre  1961.  Fille  de Gabriel  Betancourt,  ancien  Ministre  de l’Éducation  et  Ambassadeur  de  Colombie auprès  de  l'UNESCO  à  Paris,  et  de  Yolanda Pulecio,  une  ancienne  reine  de  beauté  du département  colombien  de  Cundinamarca, devenue  sénateur,  elle  a  vécu  la  majeure partie  de  son  enfance  à  l’étranger  et  surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique  de  Villepin  avec  qui  elle  se  lie d’amitié.  Française  par  son  premier  mariage, elle  milite  pour  les  Droits  de  l'Homme  et contre  l’injustice,  la  corruption  et  les narcotrafiquants.  Elle  est  otage  des  FARC depuis  le  23  février  2002.  Elle  bénéficie depuis  de  l’appui  de  nombreux  comités  de soutien et d’une importante médiatisation. Une autre  franco­colombienne,  Aïda  Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006. 

during

starts_with

Page 75: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

­ Traitement très raffiné­ Relations entre les prédicats des

différentes phrases­ Insertion de connaissances 

diverses

Étapes principales (3/4)

Niveau des documents

Niveau des phrases

Niveau du syntagmeÍngrid Betancourt Pulecio est née à Bogotá en Colombie,  le  25  décembre  1961.  Fille  de Gabriel  Betancourt,  ancien  Ministre  de l’Éducation  et  Ambassadeur  de  Colombie auprès  de  l'UNESCO  à  Paris,  et  de  Yolanda Pulecio,  une  ancienne  reine  de  beauté  du département  colombien  de  Cundinamarca, devenue  sénateur,  elle  a  vécu  la  majeure partie  de  son  enfance  à  l’étranger  et  surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique  de  Villepin  avec  qui  elle  se  lie d’amitié.  Française  par  son  premier  mariage, elle  milite  pour  les  Droits  de  l'Homme  et contre  l’injustice,  la  corruption  et  les narcotrafiquants.  Elle  est  otage  des  FARC depuis  le  23  février  2002.  Elle  bénéficie depuis  de  l’appui  de  nombreux  comités  de soutien et d’une importante médiatisation. Une autre  franco­colombienne,  Aïda  Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006. 

before

before

Page 76: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Étapes principales (4/4)

Niveau du syntagme

Niveau des phrases

Niveau des documents

Analyse multi­documents ?

Analyse "Intelligente" (inférence...) ?

"Backtracking" ?

Page 77: Analyse de Textes et Extraction d'Information · → Analyse de Textes et Extraction d'Information Master 2 Recherche Diversité des besoins d'information (1/2) (Meadow et al., 2000.)

Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche

Références

• Inderjeet Mani, James Pustejovsky and Robert Gaizauskas, The Language of Time: A Reader. 2005.

• Actes de TempEval 2007, Marc Verhagen et al.• Mark Steedman, Temporality. Chapitre de Handbook of Logic 

and Language, Van Benthem & Ter Meulen, 1994.• Marc Moens et Mark Steedman, Temporal Ontology and 

Temporal Reference, Computational Linguistics, 14­2, 1988