Upload
roxanne-peltier
View
105
Download
1
Embed Size (px)
Citation preview
Making sense of content
Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle
Soutenance de Thèse – Florence [email protected]
10 Mai 2007
Soutenance thèse – F. Amardeilh - OntoPop 2
Plan de la soutenance
Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés
OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL
OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques
Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus
Conclusion et Perspectives futures
Soutenance thèse – F. Amardeilh - OntoPop 3
Annotation Sémantique et Peuplement d’Ontologie
Annotation Sémantique Ajouter une représentation formelle d’un contenu, exprimée à l’aide de concepts,
relations et instances décrits dans une ontologie, à sa ressource documentaire source
Peuplement d’OntologieEnrichir une base de connaissance avec de nouvelles instances de concepts,
d’attributs et de relations tels que modélisés dans l’ontologie de référence
Jonction entre les domaines du Web Sémantique et de l’Informatique Linguistique
- Exploitation des langages et des outils pour la représentation de la connaissance comme définis dans le contexte récent du Web Sémantique
- Exploitation des méthodes et outils de Traitement du Langage Naturel pour repérer et extraire la connaissance à partir des ressources textuelles
Objectif : Articuler ces deux activités dans un même processus afin de bénéficier de la synergie entre leurs résultats
Soutenance thèse – F. Amardeilh - OntoPop 4
Exemple d’acquisition de connaissance et d’annotation sémantique
Base de connaissance
Mariage de JH & SV
…Johnny Hallyday et Sylvie Vartan se sont mariés à Paris.…
Paris
JH
SV
Personnalité
Association
Mariage
lieu du mariage
Personnage
date du mariage
Personne
alias
époux
épouse
épouse:Personnalité
époux:Personnalité
<rdf:RDF>< rdf:Description rdf:about="http://jh.fr"><onto:indexation_personnalité>
Johnny Hallyday</onto:indexation_personnalité>…<onto:indexation_lieu> Paris</onto:indexation_lieu></rdf:Description></rdf:RDF>
Annotations
Ontologie
Article de presse Europe
Thésaurus Géographique
France
Paris
Article
indexation lieu
indexation personnalité
date de naissance
Thesaurus
Soutenance thèse – F. Amardeilh - OntoPop 5
Contexte de la thèse
Aspect industriel important : thèse CIFRERéfléchir aux phases et acteurs des activités d’Annotation et de Peuplement
- 4 phases : l’extraction d’information, la consolidation, le peuplement et l’annotation
- 4 acteurs : l’expert du domaine, le linguiste, l’ontographe et l’intégrateur
Tenir compte des contraintes imposées par ces acteurs
Mener un processus industriel avec une répartition des rôles cohérente
Fournir un cadre de travail à Mondeca
Nécessité d’apporter une solution concrète aux entreprises Définir les étapes d’une méthodologie de projet pour la réalisation de ces activités en
tenant compte des rôles de chacun des acteurs présents
Donner un ensemble de recommandations de composants logiciels permettant la mise en œuvre opérationnelle de chaque phase
Réaliser une plateforme logicielle opérationnelle
Soutenance thèse – F. Amardeilh - OntoPop 6
Etat de l’art des outils existants
Etat de l’art des outils d’annotation sémantique ou de peuplement existantsVingtaine d’outils dont les plus aboutis : OntoAnnotate, KIM, SemTag, MnM, etc. Rarement intégrés dans une chaîne complète, industrialiséePeu d’articulation entre Annotation Sémantique & Peuplement d’Ontologie
Autres Constats :1)Ils sont intrinsèquement liés au moteur d’extraction utilisé Notre position: dissocier les outils d’annotation du moteur d’extraction utilisé
2)Les moteurs d’extraction utilisés reposent, pour la plupart, sur des processus d’apprentissage supervisé
Notre position: donner la priorité aux moteurs d’extraction reposant sur une création manuelle des patrons d’extraction
3)Ils privilégient les approches basées sur des ontologies de domaine Notre position: continuer à privilégier cette approche car la plus adaptée au monde industriel
4)Ils fournissent des interfaces utilisateurs plus ou moins conviviales Notre position: pouvoir fournir une aide maximale à l’utilisateur par la présentation des
suggestions mais aussi la gestion des contraintes imposées par l’ontologie
Soutenance thèse – F. Amardeilh - OntoPop 7
Problématique de l’acquisition de connaissance et de l’annotation sémantique
Outil de Représentation
de la Connaissance
Ressources Terminologiques et Ontologiques
Outil de Gestion Documentaire
Outil d’Extraction
d’Information
?
ACQUISITION DE
CONNAISSANCE
ANNOTATION SEMANTIQUE
Patrons d’extraction, adaptés au domaine
concerné
Arbre conceptuel
Soutenance thèse – F. Amardeilh - OntoPop 8
L’arbre conceptuel: résultat de l’outil d’Extraction d’Information (ici IDE)
/article (Famille Coppola, l’esprit de clan)
/REFERENCE-ACTEUR
(Francis Ford Coppola)
/REFERENCE-ACTEUR
(Spike Jonze)
/DATE-NAISSANCE (Coppola naît le 7
avril 1939 à Détroit)
/ProperName (Jonze)
/Personne (Coppola)
/Naissance (naît)
/Location (Detroit)
/COUPLE (son cousin, Nicolas, s’apprête à divorcer de Patricia)
/NomDePersonnePotentiel (Spike Jonze)
/ActorNamed (son cousin,Nicolas)
/EvenementI
mminent (s’apprête)
/Prenom (Nicolas)
/ Prenom (Patricia)
/DATE (le 7 avril 1939)/Prenom
(Spike)/UnitedStates
(Detroit)
/ActorNamed (Francis Ford
Coppola)
/Personnalite (Francis Ford
Coppola)
/America (Detroit)
/ProperName (Coppola)
/Divorce (divorcer)
/ActorNamed (Patricia)
Le parrain, c'est moi ! Tel pourrait être le pitch de la vie de Francis Ford Coppola. […] Il y a la mère, Italia, […]. Sans oublier le gendre, le réalisateur Spike Jonze.
Francis Coppola naît le 7 avril 1939 à Detroit, dans le Michigan. Il est le deuxième des trois enfants de Carmine et Italia Coppola. […]
Tandis que son frère se fiance au top model Frankie Rizer, une grande brune aux yeux azur, et que son cousin, Nicolas, s'apprête à divorcer de Patricia, Sofia épouse Spike Jonze. […]
Soutenance thèse – F. Amardeilh - OntoPop 9
Problèmes liés à la définition d’un médiateur
Besoin d’une passerelle, d’un médiateur pour :Gérer les distorsion entre les productions des différents acteurs et leurs
terminologies différentes
Articuler et désambiguïser l’information présente dans les résultats linguistiques avec la connaissance disponible dans les outils de représentation de la connaissance
Problèmes soulevés:1) Problème de format de représentation entre document et ontologie arbre
conceptuel versus réseau sémantique de connaissance ?
2) Problème de la couverture du domaine lors du passage du langage naturel au modèle vocabulaire du domaine versus éléments de l’ontologie ?
3) Problème de la conceptualisation du domaine lors du passage du langage naturel au modèle sémantique des résultats linguistiques versus des concepts de l’ontologie ?
Soutenance thèse – F. Amardeilh - OntoPop 10
Plan de la soutenance
Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés
OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL
OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques
Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus
Conclusion et Perspectives futures
Soutenance thèse – F. Amardeilh - OntoPop 11
Les Règles d’Acquisition de Connaissance
Besoin de désambiguïser et de formaliser l’information présente dans les arbres conceptuels à l’aide de règles
Outil de Représentation de la Connaissance
Ressources Terminologiques et
Ontologiques
Outil de Gestion Documentaire
Outil d’Extraction d’Information OntoPop
Patrons d’extraction, adaptés au
domaine concerné
Règles d’Acquisition de ConnaissanceRègles d’Acquisition de ConnaissanceRègles d’Acquisition de Connaissance
Arbre conceptuel
Soutenance thèse – F. Amardeilh - OntoPop 12
Comparaison ontologie / arbre conceptuel
Soutenance thèse – F. Amardeilh - OntoPop 13
Proposition d’un langage abstrait : OPAL
Objectifs Spécifier et formaliser les connaissances
• Langage d’écriture et d’interprétation des Règles d’Acquisition de Connaissance
• Prise en compte du contexte des nœuds dans l’arbre conceptuel
CaractéristiquesInspiré du langage, nommé LangText [Crispino, 2003]
Application non pas au document textuel, comme LangText, mais à l’arbre conceptuel où la notion de contexte est différente
Identification des nœuds de l’arbre qui correspondent à une nouvelle instance ou à une nouvelle annotation
+ définition d’indices contextuels complémentaires pour la réalisation ou non de la tâche concernée
= création nouvelle instance dans base de connaissance et/ou nouvelle annotation sémantique associée à la ressource documentaire
Soutenance thèse – F. Amardeilh - OntoPop 14
Règle d’Acquisition de Connaissance en langage OPAL
NomRègle: PersonnaliteR1
TypeConcept: Classe Entité
ConceptURI: http://www.mondeca.com/onto#Personnalité
NoeudIndicateur: NomPropre
IndicesContextuels:
{Existe: [EspaceRechercheArbre: père]
[NoeudIndice: Personne]
}
Valeur: texte du nœud indicateur
Position: faux
Confiance: élevé
finRègle
Partie Action
Partie Conditions
Partie Options
Partie
Déclenchement
Soutenance thèse – F. Amardeilh - OntoPop 15
Règle d’Acquisition de Connaissance - Exemple
NomRègle: DateNaissanceR1
TypeConcept: Attribut
ConceptURI: http://www.mondeca.com/onto#Date_Naissance
DomaineURI : http://www.mondeca.com/onto#Personnalité
NoeudIndicateur: DATE
IndicesContextuels:
{Existe: [EspaceRechercheArbre: père]
[NoeudIndice: Naissance]
}
{Existe: [EspaceRechercheArbre: ancêtre]
[NoeudIndice: DATE-NAISSANCE]
{Existe: [EspaceRechercheArbre: enfant]
[NoeudIndice: Personne]
}
}
Valeur: text()
Position: faux
Confiance: élevé
finRègle
/article (Famille Coppola, l’esprit de clan)
/DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit)
/Personne (Coppola) /Naissance
(naît)
/Location (Detroit)
/DATE (le 7 avril 1939)
/UnitedStates (Detroit)
/America (Detroit)
/ProperName (Coppola)
Soutenance thèse – F. Amardeilh - OntoPop 16
Application des Règles d’Acquisition de Connaissance
Soutenance thèse – F. Amardeilh - OntoPop 17
Plan de la soutenance
Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés
OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL
OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques
Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus
Conclusion et Perspectives futures
Soutenance thèse – F. Amardeilh - OntoPop 18
OntoPop – un cercle vertueux
Outil de Gestion Documentaire
Outil d’Extraction
d’Information
OntoPop
Patrons d’extraction, adaptés au
domaine concerné
Règles d’Acquisition de Connaissance
Module d’Annotation et d’Acquisition
Composant de Peuplement d’Ontologie
Editeur des règles
d’Acquisition
Composant d’Annotation Sémantique
Module de Mise à Jour des Lexiques
Règles d’Acquisition de ConnaissanceRègles d’Acquisition
de Connaissance
Ressources Terminologiques et
Ontologiques
Outil de Représentation de la Connaissance
Arbre conceptuel
réseau
Soutenance thèse – F. Amardeilh - OntoPop 19
Plan de la soutenance
Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés
OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL
OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques
Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus
Conclusion et Perspectives futures
Soutenance thèse – F. Amardeilh - OntoPop 20
Les projets évalués avec OntoPop
Domaine Presse « People » versus Domaine de l’Edition Juridique : Différences :
de corpus documentaire
de l’ontologie de domaine
des autres RTO
d’objectifs de l’application cible
Soutenance thèse – F. Amardeilh - OntoPop 21
Comparaison des résultats pour les deux domaines
Résultats particulièrement bons, mais validité des mesures choisies ? Besoin d’adapter les mesures de rappel et de précision en fonction des tâches
d’annotation sémantique et de peuplement d’ontologie Remplacement des résultats corrects/incorrects par exactes/contenus/imbriqués [Freitag,
1998] Affectation d’une notion de « poids » ou de « distance » aux résultats [Maynard, 2005] Système de notation standard des outils d’annotation ou de peuplement sur la base de
différents critères comme les fonctionnalités, l’interopérabilité, la convivialité ou la réutilisation [Maynard, 2005] [Sazedj, 2005]
Domaine Mesure de la complexité Mesure de la performance
Rappel Précision
Presse People
2,7 RAC par élément concerné de l’ontologie
Pour le peuplement d’ontologie 0,94
Pour l’annotation sémantique 0,97
Pour le peuplement d’ontologie 0,82
Pour l’annotation sémantique 1
Edition Juridique
4 RAC par élément concerné de l’ontologie
Pour le balisage des renvois juridiques 0,988
Pour l’identification des jurisprudences 0,996
Pour le balisage des renvois juridiques 0,988
Pour l’identification des jurisprudences 1
Soutenance thèse – F. Amardeilh - OntoPop 22
Les limites d’OntoPop
Problèmes liés à la définition des RACs • Format des données incompatibles• Proximité de l’information dans l’arbre conceptuel
• Précision de l’information
Problèmes liés au déclenchement des RACs• Consistance de l’information• Les conflits entre RACs• La maintenance des RACs
/QualificationPersonne (Anton Coppola, l’oncle de Francis, …) /ActorNamed (Anton Coppola) /Personality (Anton Coppola) /LienParente (oncle) /ActorNamed (Francis) /FirstName (Francis)
/QualificationPersonne(Francis Coppola avec sa fille Sofia…) /ActorParent(Francis Coppola) /Parenthood(sa fille) /Child (sofia) /Prénom(Sofia)
/COUPLE (Spike Jonze et Sofia Coppola ont rompu en 2001) /ActorNamed (Spike Jonze) /Personality (Spike Jonze) /ActorNamed (Sofia Coppola) /Personality (Sofia Coppola) /Break (ont rompu) /DATE (2001)
Soutenance thèse – F. Amardeilh - OntoPop 23
Plan de la soutenance
Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés
OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL
OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques
Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus
Conclusion et Perspectives futures
Soutenance thèse – F. Amardeilh - OntoPop 24
Conclusion
Mes réalisations & les apports de cette thèse
Définition de la méthode OntoPop pour l’annotation sémantique et le peuplement d’ontologie par l’exploitation des résultats des outils d’extraction d’information
Proposition d’un formalisme, le « Ontology Population & Annotation Language » (OPAL), pour décrire les Règles d’Acquisition de Connaissance, clef de voute de la méthode OntoPop
Préconisation d’une méthodologie de projet en cinq étapes pour la réalisation d’applications concrètes en entreprise
Illustration de la mise en œuvre d’OntoPop à travers le développement de composants logiciels modulaires et évolutifs intégrés à l’outil ITM de Mondeca
Validation de la méthode par son implémentation auprès d’une dizaine d’applications issues de besoins réels en entreprise
Soutenance thèse – F. Amardeilh - OntoPop 25
Perspectives futures
Améliorer la méthode OntoPop actuelleApprofondir la mise en correspondance des résultats des outils d’extraction d’information avec les
ontologies, notamment en intégrant de nouveaux outils d’extraction d’information (TAO, Eiffel)
Développer l’annotation sémantique de contenus multimédias (TAO)
Etudier la consolidation des annotations et des réseaux sémantiques par l’utilisation de raisonnements logiques et de mécanismes d’inférence (Eiffel)
Améliorer l’ergonomie des interfaces utilisateurs pour l’annotation sémantique et le peuplement d’ontologie (TAO)
Explorer la piste de l’alignement d’ontologiesUtiliser les méthodes et outils d’alignement d’ontologies pour pallier aux limites vues
précédemment, et notamment à celle de la maintenance des Règles d’Acquisition de Connaissance
Proposer une version adaptée des RACs pour standardiser le format de représentation des règles d’alignement d’ontologies
Réfléchir à de nouvelles méthodes d’évaluation Proposer de nouvelles mesures adaptées à l’annotation sémantique et au peuplement
d’ontologies
Making sense of content
Merci de votre attention
Soutenance de Thèse – Florence [email protected]
10 Mai 2007