26
Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Soutenance de Thèse – Florence Amardeilh [email protected] 10 Mai 2007

Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Embed Size (px)

Citation preview

Page 1: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Making sense of content

Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle

Soutenance de Thèse – Florence [email protected]

10 Mai 2007

Page 2: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 2

Plan de la soutenance

Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés

OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL

OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques

Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus

Conclusion et Perspectives futures

Page 3: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 3

Annotation Sémantique et Peuplement d’Ontologie

Annotation Sémantique Ajouter une représentation formelle d’un contenu, exprimée à l’aide de concepts,

relations et instances décrits dans une ontologie, à sa ressource documentaire source

Peuplement d’OntologieEnrichir une base de connaissance avec de nouvelles instances de concepts,

d’attributs et de relations tels que modélisés dans l’ontologie de référence

Jonction entre les domaines du Web Sémantique et de l’Informatique Linguistique

- Exploitation des langages et des outils pour la représentation de la connaissance comme définis dans le contexte récent du Web Sémantique

- Exploitation des méthodes et outils de Traitement du Langage Naturel pour repérer et extraire la connaissance à partir des ressources textuelles

Objectif : Articuler ces deux activités dans un même processus afin de bénéficier de la synergie entre leurs résultats

Page 4: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 4

Exemple d’acquisition de connaissance et d’annotation sémantique

Base de connaissance

Mariage de JH & SV

…Johnny Hallyday et Sylvie Vartan se sont mariés à Paris.…

Paris

JH

SV

Personnalité

Association

Mariage

lieu du mariage

Personnage

date du mariage

Personne

alias

époux

épouse

épouse:Personnalité

époux:Personnalité

<rdf:RDF>< rdf:Description rdf:about="http://jh.fr"><onto:indexation_personnalité>

Johnny Hallyday</onto:indexation_personnalité>…<onto:indexation_lieu> Paris</onto:indexation_lieu></rdf:Description></rdf:RDF>

Annotations

Ontologie

Article de presse Europe

Thésaurus Géographique

France

Paris

Article

indexation lieu

indexation personnalité

date de naissance

Thesaurus

Page 5: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 5

Contexte de la thèse

Aspect industriel important : thèse CIFRERéfléchir aux phases et acteurs des activités d’Annotation et de Peuplement

- 4 phases : l’extraction d’information, la consolidation, le peuplement et l’annotation

- 4 acteurs : l’expert du domaine, le linguiste, l’ontographe et l’intégrateur

Tenir compte des contraintes imposées par ces acteurs

Mener un processus industriel avec une répartition des rôles cohérente

Fournir un cadre de travail à Mondeca

Nécessité d’apporter une solution concrète aux entreprises Définir les étapes d’une méthodologie de projet pour la réalisation de ces activités en

tenant compte des rôles de chacun des acteurs présents

Donner un ensemble de recommandations de composants logiciels permettant la mise en œuvre opérationnelle de chaque phase

Réaliser une plateforme logicielle opérationnelle

Page 6: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 6

Etat de l’art des outils existants

Etat de l’art des outils d’annotation sémantique ou de peuplement existantsVingtaine d’outils dont les plus aboutis : OntoAnnotate, KIM, SemTag, MnM, etc. Rarement intégrés dans une chaîne complète, industrialiséePeu d’articulation entre Annotation Sémantique & Peuplement d’Ontologie

Autres Constats :1)Ils sont intrinsèquement liés au moteur d’extraction utilisé Notre position: dissocier les outils d’annotation du moteur d’extraction utilisé

2)Les moteurs d’extraction utilisés reposent, pour la plupart, sur des processus d’apprentissage supervisé

Notre position: donner la priorité aux moteurs d’extraction reposant sur une création manuelle des patrons d’extraction

3)Ils privilégient les approches basées sur des ontologies de domaine Notre position: continuer à privilégier cette approche car la plus adaptée au monde industriel

4)Ils fournissent des interfaces utilisateurs plus ou moins conviviales Notre position: pouvoir fournir une aide maximale à l’utilisateur par la présentation des

suggestions mais aussi la gestion des contraintes imposées par l’ontologie

Page 7: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 7

Problématique de l’acquisition de connaissance et de l’annotation sémantique

Outil de Représentation

de la Connaissance

Ressources Terminologiques et Ontologiques

Outil de Gestion Documentaire

Outil d’Extraction

d’Information

?

ACQUISITION DE

CONNAISSANCE

ANNOTATION SEMANTIQUE

Patrons d’extraction, adaptés au domaine

concerné

Arbre conceptuel

Page 8: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 8

L’arbre conceptuel: résultat de l’outil d’Extraction d’Information (ici IDE)

/article (Famille Coppola, l’esprit de clan)

/REFERENCE-ACTEUR

(Francis Ford Coppola)

/REFERENCE-ACTEUR

(Spike Jonze)

/DATE-NAISSANCE (Coppola naît le 7

avril 1939 à Détroit)

/ProperName (Jonze)

/Personne (Coppola)

/Naissance (naît)

/Location (Detroit)

/COUPLE (son cousin, Nicolas, s’apprête à divorcer de Patricia)

/NomDePersonnePotentiel (Spike Jonze)

/ActorNamed (son cousin,Nicolas)

/EvenementI

mminent (s’apprête)

/Prenom (Nicolas)

/ Prenom (Patricia)

/DATE (le 7 avril 1939)/Prenom

(Spike)/UnitedStates

(Detroit)

/ActorNamed (Francis Ford

Coppola)

/Personnalite (Francis Ford

Coppola)

/America (Detroit)

/ProperName (Coppola)

/Divorce (divorcer)

/ActorNamed (Patricia)

Le parrain, c'est moi ! Tel pourrait être le pitch de la vie de Francis Ford Coppola. […] Il y a la mère, Italia, […]. Sans oublier le gendre, le réalisateur Spike Jonze.

Francis Coppola naît le 7 avril 1939 à Detroit, dans le Michigan. Il est le deuxième des trois enfants de Carmine et Italia Coppola. […]

Tandis que son frère se fiance au top model Frankie Rizer, une grande brune aux yeux azur, et que son cousin, Nicolas, s'apprête à divorcer de Patricia, Sofia épouse Spike Jonze. […]

Page 9: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 9

Problèmes liés à la définition d’un médiateur

Besoin d’une passerelle, d’un médiateur pour :Gérer les distorsion entre les productions des différents acteurs et leurs

terminologies différentes

Articuler et désambiguïser l’information présente dans les résultats linguistiques avec la connaissance disponible dans les outils de représentation de la connaissance

Problèmes soulevés:1) Problème de format de représentation entre document et ontologie arbre

conceptuel versus réseau sémantique de connaissance ?

2) Problème de la couverture du domaine lors du passage du langage naturel au modèle vocabulaire du domaine versus éléments de l’ontologie ?

3) Problème de la conceptualisation du domaine lors du passage du langage naturel au modèle sémantique des résultats linguistiques versus des concepts de l’ontologie ?

Page 10: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 10

Plan de la soutenance

Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés

OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL

OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques

Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus

Conclusion et Perspectives futures

Page 11: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 11

Les Règles d’Acquisition de Connaissance

Besoin de désambiguïser et de formaliser l’information présente dans les arbres conceptuels à l’aide de règles

Outil de Représentation de la Connaissance

Ressources Terminologiques et

Ontologiques

Outil de Gestion Documentaire

Outil d’Extraction d’Information OntoPop

Patrons d’extraction, adaptés au

domaine concerné

Règles d’Acquisition de ConnaissanceRègles d’Acquisition de ConnaissanceRègles d’Acquisition de Connaissance

Arbre conceptuel

Page 12: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 12

Comparaison ontologie / arbre conceptuel

Page 13: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 13

Proposition d’un langage abstrait : OPAL

Objectifs Spécifier et formaliser les connaissances

• Langage d’écriture et d’interprétation des Règles d’Acquisition de Connaissance

• Prise en compte du contexte des nœuds dans l’arbre conceptuel

CaractéristiquesInspiré du langage, nommé LangText [Crispino, 2003]

Application non pas au document textuel, comme LangText, mais à l’arbre conceptuel où la notion de contexte est différente

Identification des nœuds de l’arbre qui correspondent à une nouvelle instance ou à une nouvelle annotation

+ définition d’indices contextuels complémentaires pour la réalisation ou non de la tâche concernée

= création nouvelle instance dans base de connaissance et/ou nouvelle annotation sémantique associée à la ressource documentaire

Page 14: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 14

Règle d’Acquisition de Connaissance en langage OPAL

NomRègle: PersonnaliteR1

TypeConcept: Classe Entité

ConceptURI: http://www.mondeca.com/onto#Personnalité

NoeudIndicateur: NomPropre

IndicesContextuels:

{Existe: [EspaceRechercheArbre: père]

[NoeudIndice: Personne]

}

Valeur: texte du nœud indicateur

Position: faux

Confiance: élevé

finRègle

Partie Action

Partie Conditions

Partie Options

Partie

Déclenchement

Page 15: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 15

Règle d’Acquisition de Connaissance - Exemple

NomRègle: DateNaissanceR1

TypeConcept: Attribut

ConceptURI: http://www.mondeca.com/onto#Date_Naissance

DomaineURI : http://www.mondeca.com/onto#Personnalité

NoeudIndicateur: DATE

IndicesContextuels:

{Existe: [EspaceRechercheArbre: père]

[NoeudIndice: Naissance]

}

{Existe: [EspaceRechercheArbre: ancêtre]

[NoeudIndice: DATE-NAISSANCE]

{Existe: [EspaceRechercheArbre: enfant]

[NoeudIndice: Personne]

}

}

Valeur: text()

Position: faux

Confiance: élevé

finRègle

/article (Famille Coppola, l’esprit de clan)

/DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit)

/Personne (Coppola) /Naissance

(naît)

/Location (Detroit)

/DATE (le 7 avril 1939)

/UnitedStates (Detroit)

/America (Detroit)

/ProperName (Coppola)

Page 16: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 16

Application des Règles d’Acquisition de Connaissance

Page 17: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 17

Plan de la soutenance

Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés

OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL

OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques

Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus

Conclusion et Perspectives futures

Page 18: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 18

OntoPop – un cercle vertueux

Outil de Gestion Documentaire

Outil d’Extraction

d’Information

OntoPop

Patrons d’extraction, adaptés au

domaine concerné

Règles d’Acquisition de Connaissance

Module d’Annotation et d’Acquisition

Composant de Peuplement d’Ontologie

Editeur des règles

d’Acquisition

Composant d’Annotation Sémantique

Module de Mise à Jour des Lexiques

Règles d’Acquisition de ConnaissanceRègles d’Acquisition

de Connaissance

Ressources Terminologiques et

Ontologiques

Outil de Représentation de la Connaissance

Arbre conceptuel

réseau

Page 19: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 19

Plan de la soutenance

Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés

OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL

OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques

Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus

Conclusion et Perspectives futures

Page 20: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 20

Les projets évalués avec OntoPop

Domaine Presse « People » versus Domaine de l’Edition Juridique : Différences :

de corpus documentaire

de l’ontologie de domaine

des autres RTO

d’objectifs de l’application cible

Page 21: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 21

Comparaison des résultats pour les deux domaines

Résultats particulièrement bons, mais validité des mesures choisies ? Besoin d’adapter les mesures de rappel et de précision en fonction des tâches

d’annotation sémantique et de peuplement d’ontologie Remplacement des résultats corrects/incorrects par exactes/contenus/imbriqués [Freitag,

1998] Affectation d’une notion de « poids » ou de « distance » aux résultats [Maynard, 2005] Système de notation standard des outils d’annotation ou de peuplement sur la base de

différents critères comme les fonctionnalités, l’interopérabilité, la convivialité ou la réutilisation [Maynard, 2005] [Sazedj, 2005]

Domaine Mesure de la complexité Mesure de la performance

Rappel Précision

Presse People

2,7 RAC par élément concerné de l’ontologie

Pour le peuplement d’ontologie 0,94

Pour l’annotation sémantique 0,97

Pour le peuplement d’ontologie 0,82

Pour l’annotation sémantique 1

Edition Juridique

4 RAC par élément concerné de l’ontologie

Pour le balisage des renvois juridiques 0,988

Pour l’identification des jurisprudences 0,996

Pour le balisage des renvois juridiques 0,988

Pour l’identification des jurisprudences 1

Page 22: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 22

Les limites d’OntoPop

Problèmes liés à la définition des RACs • Format des données incompatibles• Proximité de l’information dans l’arbre conceptuel

• Précision de l’information

Problèmes liés au déclenchement des RACs• Consistance de l’information• Les conflits entre RACs• La maintenance des RACs

/QualificationPersonne (Anton Coppola, l’oncle de Francis, …) /ActorNamed (Anton Coppola) /Personality (Anton Coppola) /LienParente (oncle) /ActorNamed (Francis) /FirstName (Francis)

/QualificationPersonne(Francis Coppola avec sa fille Sofia…) /ActorParent(Francis Coppola) /Parenthood(sa fille) /Child (sofia) /Prénom(Sofia)

/COUPLE (Spike Jonze et Sofia Coppola ont rompu en 2001) /ActorNamed (Spike Jonze) /Personality (Spike Jonze) /ActorNamed (Sofia Coppola) /Personality (Sofia Coppola) /Break (ont rompu) /DATE (2001)

Page 23: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 23

Plan de la soutenance

Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textesContexte de la thèseProblèmes soulevés

OntoPop, un médiateurLes Règles d’Acquisition de ConnaissanceLe langage OPAL

OntoPop, un cercle vertueuxExtraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques

Etude expérimentaleCas des applications évaluéesAnalyse des résultats obtenus

Conclusion et Perspectives futures

Page 24: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 24

Conclusion

Mes réalisations & les apports de cette thèse

Définition de la méthode OntoPop pour l’annotation sémantique et le peuplement d’ontologie par l’exploitation des résultats des outils d’extraction d’information

Proposition d’un formalisme, le « Ontology Population & Annotation Language » (OPAL), pour décrire les Règles d’Acquisition de Connaissance, clef de voute de la méthode OntoPop

Préconisation d’une méthodologie de projet en cinq étapes pour la réalisation d’applications concrètes en entreprise

Illustration de la mise en œuvre d’OntoPop à travers le développement de composants logiciels modulaires et évolutifs intégrés à l’outil ITM de Mondeca

Validation de la méthode par son implémentation auprès d’une dizaine d’applications issues de besoins réels en entreprise

Page 25: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Soutenance thèse – F. Amardeilh - OntoPop 25

Perspectives futures

Améliorer la méthode OntoPop actuelleApprofondir la mise en correspondance des résultats des outils d’extraction d’information avec les

ontologies, notamment en intégrant de nouveaux outils d’extraction d’information (TAO, Eiffel)

Développer l’annotation sémantique de contenus multimédias (TAO)

Etudier la consolidation des annotations et des réseaux sémantiques par l’utilisation de raisonnements logiques et de mécanismes d’inférence (Eiffel)

Améliorer l’ergonomie des interfaces utilisateurs pour l’annotation sémantique et le peuplement d’ontologie (TAO)

Explorer la piste de l’alignement d’ontologiesUtiliser les méthodes et outils d’alignement d’ontologies pour pallier aux limites vues

précédemment, et notamment à celle de la maintenance des Règles d’Acquisition de Connaissance

Proposer une version adaptée des RACs pour standardiser le format de représentation des règles d’alignement d’ontologies

Réfléchir à de nouvelles méthodes d’évaluation Proposer de nouvelles mesures adaptées à l’annotation sémantique et au peuplement

d’ontologies

Page 26: Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance

Making sense of content

Merci de votre attention

Soutenance de Thèse – Florence [email protected]

10 Mai 2007