Introduction à L’analyse sémantique latente

Introduction à L’analyse sémantique latente.

Landauer, Laham et Foltz.

Plan

• 1. Introduction

• 2. Modèle mathématique

• 3. Modèle cognitif

• 4. Modélisation des connaissances humaines

• 5. Limites et possibilités

• 6. Conclusion

1. Introduction

LSA:

• Modèle cognitif de la représentation du sens des mots.• Programme informatique qui simule l’acquisition des

connaissances.• Connaissances représentées sous la forme de vecteurs

dans un espace de grandes dimensions.

2. Modèle mathématique

Fonctionnement du LSA:• Représentation multidimensionnelle de la signification du

sens des mots.• Un mot est défini statistiquement à partir de l’ensemble

des contextes (paragraphe, phrase, texte) dans lequel il apparaît.

• Un nombre suffisant de textes doit être utilisé.• Un mécanisme permet de croiser les informations de co-

occurrences propre à chaque mot.

2. Modèle mathématique

Le LSA repose sur la définition suivante:• Deux mots sont sémantiquement proches s’ils

apparaissent dans des contextes similaires.• Deux contextes sont sémantiquement proches s’ils

comportent des mots similaires.

Procédure du LSA:• Etablissement des liaisons sémantiques : décomposition

en valeurs singulières.

Exemples de données: 9 titres de documents techniques

Interaction homme ordinateur. c1: Human machine interface for ABC computer applications. c2: A survey of user opinion of computer system response time. c3: The EPS user interface management system. c4: System and human system enginneering testing of EPS. c5: Relation of user perceived response time to error measurement Théorie mathématique graphique. m1: The generation of random, binary, orered trees. m2: The intersection graph of paths in trees. m3: Graph minors IV: Widths of trees and well-quasi-ordering. m4: Graph minors: A survey

Matrice d’occurrence des mots dans chaque texte.

C1 C2 C3 C4 C5 M1 M2 M3 M4

Human 1 0 0 1 0 0 0 0 0

Interface 1 0 1 0 0 0 0 0 0

Computer 1 1 0 0 0 0 0 0 0

User 0 1 1 0 1 0 0 0 0

system 0 1 1 2 0 0 0 0 0

Response 0 1 0 0 1 0 0 0 0

Time 0 1 0 0 1 0 0 0 0

EPS 0 0 1 1 0 0 0 0 0

Survey 0 1 0 0 0 0 0 0 1

Trees 0 0 0 0 0 1 1 1 0

Graph 0 0 0 0 0 0 1 1 1

minors 0 0 0 0 0 0 0 1 1

• m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees• m3: Graph minors IV: Widths of trees and well-quasiordering• m4: Graph minors: A survey

C1 C2 C3 C4 C5 M1 M2 M3 M4

... ... ... ... ... ... ... ... ...

survey 0 1 0 0 0 0 0 0 1

Trees 0 0 0 0 0 1 1 1 0 = 0.66

Graph 0 0 0 0 0 0 1 1 1

minors 0 0 0 0 0 0 0 1 1

- Corrélation entre human et user passe de : -0.38 à 0.94

- Corrélation entre user et minors passe de :-0.29 à -0.83

C1 C2 C3 C4 C5 M1 M2 M3 M4

Human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09

Interface 0.14 0.37 0.33 0.40 0.16 -0.03 -0.07 -0.10 -0.04

Computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12

User 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.12 0.19

system 0.45 1.23 1.05 1.27 0.56 -0.07 -0.15 -0.21 -0.05

Response 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22

Time 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22

EPS 0.22 0.55 0.51 0.63 0.24 -0.07 -0.14 -0.20 -0.11

Survey 0.10 0.53 0.23 0.21 0.27 0.14 0.31 0.44 0.42

Trees -0.06 0.23 -0.14 -0.27 0.14 0.24 0.57 0.77 0.66

Graph -0.06 0.34 -0.15 -0.30 0.20 0.31 0.69 0.98 0.85

minors -0.04 0.25 -0.10 -0.21 0.15 0.22 0.50 0.71 0.62

• Nombre de dimensions optimales : 300.

• Valeurs plus grandes : émergence non suffisante des informations.

• Valeurs plus petites : grande perte d’informations.

• Similarité sémantique : cosinus entre les angles des vecteurs( -1: minimum ; 1 maximum).

D’un modèle mathématique à un modèle cognitif…

3.Modèle cognitif

Propriétés du LSA:

• Imite la catégorisation humaine des mots et les jugements humains.

• Estime la compréhension et la cohérence des textes.• Sélectionne la qualité et la quantité d’informations

contenues dans un devoir.

4. Modélisation des connaissances humaines

4.1 - Le LSA fournit des documents répondant aux questions des gens.

• J.R Anderson a mis en évidence le lien entre la récupération d’informations et les processus de mémorisation sémantique.

• Ex : lorsqu’une personne se pose une question particulière, il l’exprime en mots et le LSI (latent semantic indexing) tente de trouver un document correspondant au questionnement de la personne.

• Les performances du LSI sont meilleures que les prototypes de recherches à vecteurs standards.

4.2 - Le LSA simule les tests de vocabulaire sur des jugements par rapport aux synonymes.

• Propriété évaluée en comparant les données de similarité sémantique du modèle à des résultats de jugements humains.

• Test standard issu du TOEFL (Test Of English as a Foreign Language) :

~ 4.5 millions de mots

~ 30473 contextes

~ 500 caractères.

• Le test comporte 80 items : un mot question et quatre propositions de réponses.

• Calcul de la similarité sémantique entre le mot inducteur et chaque alternative de réponse.

• Le meilleur synonyme correspond à : La réponse la plus associée au vecteur le plus corrélé au vecteur associé au mot inducteur.

• Résultat : 65% de réponses correctes.

• Comparable au score moyen d’un grand échantillon d’étudiants.

4.3 - Le LSA simule les choix humains en réponse à des tests à choix multiples.

a. Etudes de Foltz, Laham et Landauer.• Entraînement du LSA sur des textes psychologiques puis

testé à l’aide de questions à choix multiples.

• LSA performant pour les questions faciles et items factuels.

• Résultat du LSA limité par rapport aux humains : Entraînement fait sur de petits ensembles de documents.

b. Etude de Laham et Landauer sur le tri des mots.

• Relation entre le LSA et les représentations lexicales des humains.

• Tâche : 5 classes d’enfants différentes devaient trier des mots dans des groupes de leur choix.

• Mesure de la ressemblance sémantique de chaque paire de mots par la proportion des participants qui les regroupaient ensemble.

• LSA expose les différences de similarité à travers le degré d’abstraction des mots.

• Le coefficient de corrélation entre estimation du LSA et les données humaines augmentent avec l’âge des sujets.

• Limite : Le LSA ne sépare pas les classes de mots comme les humains. Ceci est dû au manque d’information sur l’ordre des mots.

4.4 - Le LSA simule les relations mots-mots et passages-mots dans des expérimentations d’amorçages sémantiques (Landauer et Dumais).

• Présentation (visuelle séquentielle rapide) de deux phrases se terminant par un homographe.

Ex:

- Devant un étalage de fruits et légumes, elle demanda à la vendeuse des pommes de terre pour 5 livres.

- Il n’aimait pas sortir ou voir ses amis, sa seule passion était les livres.

Mots cibles: poids, ouvrages, nourriture et solitude.

Mot non relié: argent.

• Tâche : Choisir le mot correspondant à l’homographe.• Dans l’expérimentation de Till et al ,1988:- Avec un ISI de 100 ms : temps de décision plus rapide pour

les mots cibles reliés à l’homographe.- Avec un ISI de 300 ms et 1 sec : mots reliés au contexte

plus répondus que les mots reliés à l’homographe.• Le LSA calcule le cosinus entre chaque mot et chaque cible.• Résultats montrent que LSA imite l’amorçage sémantique

des êtres humains.

4.5 – Le LSA prédit des notes à des dissertations.• L’ IEA (intelligent essay assessor) conçu par Foltz délivre

différents types de notes à une copie:

- score holistique: compare le texte à noter à une série de copies déjà notées.

- Etalon or : compare le texte à noter avec une copie idéale réalisée par un professeur (comparaison globale ou locale).

- On peut aussi calculer le cosinus entre chaque phrase que l’étudiant doit apprendre et chaque phrase qu’il restitue.

- Une autre méthode est de calculer le cosinus de chaque phrase de l’étudiant et les phrases que le professeur juge importantes.

La corrélation entre LSA et juges humains est équivalente à celle entre juges humains.

4.6 - Le LSA prédit la cohérence des textes (Kintsch et al).

• Ce modèle est-il capable de prédire l’effet de la cohérence du texte sur la compréhension ?

• LSA calcule le cosinus d’une phrase avec celle qui suit.

• Landauer et Dumais ont observé que les enfants apprennent très rapidement le vocabulaire.

Ex: -John est le père de Bob et Mary la mère d’AnnePuis on rajoute la phrase: -Mary est la mère de Bob. La seconde phrase nous permet de faire des

inférences sur les relations entre les personnages.

4.7 - Le LSA prédit la concordance entre des textes instructifs et ce que les élèves ont besoin d’apprendre.

• Kintsch, Landauer et al ont testé LSA pour trouver des textes qui correspondent à chaque étudiant, c’est-à-dire des textes qu’ils ont besoin d’apprendre.

Le LSA permet donc de caractériser les connaissances des étudiants avant et après avoir lu un texte.

5. Limites et possibilités• Le LSA :

- Simule l’acquisition des connaissances et la représentation du sens des mots.

- Il est de base automatique. La méthode est donc généralisable selon les langues et domaines étudiés.

• Principales limites :

- Influence de la taille des contextes, proximité du vocabulaire utilisé.

- Il manque de capacités cognitives que les humains utilisent.

• Ouverture :

- Pour l’améliorer, il faudrait ajouter des connaissances syntaxiques.

6. Conclusion

Le LSA ne doit pas être sous estimé :

Les théories précédentes ne fournissent pas de simulation aussi rigoureuse que le LSA qui prend en compte strictement les mêmes données que les humains.

Documents

Introduction à L’analyse sémantique latente