Upload
baudouin-salmon
View
106
Download
0
Embed Size (px)
Citation preview
written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only
Utilisation et utilité d’un extracteur Utilisation et utilité d’un extracteur de dépendancesde dépendancesUtilisation et utilité d’un extracteur Utilisation et utilité d’un extracteur de dépendancesde dépendances
Claude Roux
written by C. Roux / Décembre 2001/ page 2 / for Xerox internal use only
Analyse SyntaxiqueAnalyse Syntaxique
• L’analyse syntaxique représente traditionnellement l’information sous la forme d’un arbre.
le
D e t
ch ien
N o m
S n
m an ge
V e rbe
un
D e t
o s
N o m
S n
S V
P
• La configuration de l’arbre est aussi une interprétation sémantique.
• Difficulté de représenter une information dispersée (Latin)
Pulchram domina rosam amat
written by C. Roux / Décembre 2001/ page 3 / for Xerox internal use only
Représentation sous la forme d’un graphe de dépendanceReprésentation sous la forme d’un graphe de dépendance
• Qu’est qu’une dépendance ?
• C’est une relation entre les mots d’une phrase, indépendemment de la position de ces mots.
La maîtresse aime la belle rose
Pulchram domina rosam amat
Épithète(rose,belle)
Épithète(rosam,pulchram)
Sujet(aime,maîtresse)
Sujet(amat, domina)
written by C. Roux / Décembre 2001/ page 4 / for Xerox internal use only
Extraction de dépendancesExtraction de dépendances
• Première phase: le groupage
La dame aime la belle rose
la
D e t
d am e
N o m
S n
a im e
V e rbe
S V
P
la
D e t
b e lle
A d j
S a
ro se
N o m
S n
P u lch ram
A d j
S a
d o m ina
N o m
S n
ro sam
N o m
S n
a m at
V e rbe
S v
Pulchram domina rosam amat
written by C. Roux / Décembre 2001/ page 5 / for Xerox internal use only
Extraction de dépendancesExtraction de dépendances
• Deuxième phase: l’extraction
la
D e t
d am e
N o m
S n
a im e
V e rbe
S V
P
la
D e t
b e lle
A d j
S a
ro se
N o m
S n
P u lch ram
A d j
S a
d o m ina
N o m
S n
ro sam
N o m
S n
a m at
V e rbe
S v
• Par configuration de noeuds
épithète(rose,belle)
• Sur la base de traits semblables
épithète(rosam,pulcram)
written by C. Roux / Décembre 2001/ page 6 / for Xerox internal use only
Différentes générations d’outilsDifférentes générations d’outils
• IFSP (Incremental Finite-State Parser) Salah Ait-Mokhtar & Jean-Pierre Chanod (1998)• Anglais• Français• Espagnol
• XIP (Xerox Incremental Parser)Salah Ait-Mokhtar, Jean-Pierre Chanod, Claude ROUX (2001)• Anglais• Français
written by C. Roux / Décembre 2001/ page 7 / for Xerox internal use only
Désambiguïsation sémantique Désambiguïsation sémantique Frédérique Segond, Caroline Brun Frédérique Segond, Caroline Brun XRCE GrenobleXRCE Grenoble
Désambiguïsation sémantique Désambiguïsation sémantique Frédérique Segond, Caroline Brun Frédérique Segond, Caroline Brun XRCE GrenobleXRCE Grenoble
• Définition (cf. (Ide&Véronis98))Définition (cf. (Ide&Véronis98))
Associer à un mot dans un texte une définition ou un sens qui se Associer à un mot dans un texte une définition ou un sens qui se distingue des autres sens potentiellement associables à ce mot.distingue des autres sens potentiellement associables à ce mot.
• 2 étapes sont nécessaires :2 étapes sont nécessaires :– déterminer tous les sens d’un mot déterminer tous les sens d’un mot
– assigner le sens approprié à ce mot dans le contexte du discoursassigner le sens approprié à ce mot dans le contexte du discours
written by C. Roux / Décembre 2001/ page 8 / for Xerox internal use only
Désambiguïsation sémantique Désambiguïsation sémantique Désambiguïsation sémantique Désambiguïsation sémantique
United State federal agents seized a surface-to-air rocket launcher, a rocket motor, rangefinders and a variety of military manuals.
seize
Sens I Verb. Trans.
4. Jur saisir [arm,drugs]
Analyse syntaxique donne:
SUJET(seize,agent)
COD(seize,launcher)
Règle (construite grâce au dictionnaire):
Si Sujet(seize,humain) et COD(seize,arme)
Alors SENS(I.4)=saisir
written by C. Roux / Décembre 2001/ page 9 / for Xerox internal use only
Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL 2000)Recherche d’information en français et traitement automatique des langues (TAL 2000)
Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL 2000)Recherche d’information en français et traitement automatique des langues (TAL 2000)
• Utilisation d’information syntaxique dans la recherche d’information
• Les documents sont indexés sur la base des mots qu’ils contiennent plus les dépendances qui lient ces mots entre eux.
Exemple:
Les joueurs convient les membres de leur équipe.
Indexation sur les chaînes suivantes:
joueur, convier, membres, équipe, SUJET(convier,joueur), COD(convier,membre), COMPNOM(membre,équipe)
written by C. Roux / Décembre 2001/ page 10 / for Xerox internal use only
Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL)Recherche d’information en français et traitement automatique des langues (TAL)
Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL)Recherche d’information en français et traitement automatique des langues (TAL)
• Mesure de rappel et de précision n’est pas vraiment améliorée.
• En revanche, un résultat important: L’examen des dix premiers documents montre que l’utilisation de cette méthode d’indexation augmente la pertinence de ceux-ci.
Autrement dit, dans le cadre d’une recherche d’information, on améliore la présentation des documents, en propulsant en tête, les documents les plus pertinents.
Cela correspond aux habitudes des utilisateurs des moteurs de recherche qui examinent rarement les pages situées au-delà du premier écran de réponse.
written by C. Roux / Décembre 2001/ page 11 / for Xerox internal use only
MunninMunninDenys Proux Denys Proux (Thèse de doctorat 2000)(Thèse de doctorat 2000)
MunninMunninDenys Proux Denys Proux (Thèse de doctorat 2000)(Thèse de doctorat 2000)
- Extraction de faits sur la génétique à partir d’articles sicentifiques dans le domaine (en anglais)
- Les gènes et les protéines peuvent être identifiées en fonction de leur contexte syntaxique
- Utilisation de patrons syntaxiques
written by C. Roux / Décembre 2001/ page 12 / for Xerox internal use only
““Pka-C1Pka-C1 is a component of the is a component of the signalling pathwaysignalling pathway that that repressesrepresses dpp dpp expressionexpression in the anterior compartment in in the anterior compartment in appendage imaginal discsappendage imaginal discs and and anterior to the anterior to the morphogenetic furrowmorphogenetic furrow in in eye discseye discs. . ””
Extraction d’informationExtraction d’information
Synthesis:
Action: repressActeur: Pka-C1Cible: dppLieu : imaginal discLieu: eye disc
repress
(Acteur) (Cible)
dpp
?
(relier_à)
(Lieu)
imaginal
disc
(relier_à)
(Lieu)
eye
disc
(relier_à)
Pka-C1
?
(relier_à)
MunninMunninDenys ProuxDenys ProuxMunninMunninDenys ProuxDenys Proux
Sélection d’un extrait d’un article scientifique:Sélection d’un extrait d’un article scientifique:
written by C. Roux / Décembre 2001/ page 13 / for Xerox internal use only
Conclusion
• L’analyse syntaxique permet d’affiner la recherche d’information
• Elle offre aussi un concours précieux dans le cadre de l’extraction d’information en offrant des patrons plus raffinés que le simple pattern matching
• Démonstration de Xerox Incremental Parser