42
Chapitre 1 Chapitre 1 -------- -------- P P erception erception Naturelle et Naturelle et A A rtificielle rtificielle de la Parole de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Embed Size (px)

Citation preview

Page 1: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Chapitre 1Chapitre 1----------------

PPerception erception Naturelle etNaturelle et

AArtificiellertificiellede la Parolede la Parole

Jean-Sylvain Liénard

LIMSI-CNRSORSAY

M2 Recherche Informatique

Filière Sciences Cognitives

Module PNPA

Déc 04 – Fév 05

Page 2: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

1. Perception naturelle et artificielle de la parole

2. Audition et modèles auditifs bas niveau

3. Perception auditive

4. Intelligibilité et contenu non linguistique de la parole

5. Modèles perceptifs de haut niveau

6. Analyse de scènes acoustiques: ASA et CASA

Organisation du cours 04-05Organisation du cours 04-05

Page 3: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Quelques propriétés de laQuelques propriétés de laPerception NaturellePerception Naturelle

Page 4: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Definition : perception Definition : perception naturellenaturelle

• fonction par laquelle un organisme prend connaissance de son environnement

• contribue à élaborer un comportement

• fonction vitale pour la survie

• du signal au sens: monde physique, monde cognitif, logiques différentes

• multiples modalités, une seule interprétation

Page 5: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

CCatégorisatégorisationation

• l'identification des objets du monde implique que des signaux différents soient placés dans la même catégorie

• la catégorisation selon Eleanor Rosch– principe du monde perçu

– principe d'économie cognitive

– ---> organisation hiérarchique des concepts, peu de rapports avec la perception. cf "ontologies" en IA

• catégorisation perceptive– perception catégorielle vs continue

– cf Reconnaissance des Formes, processus ascendants

Page 6: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

UUtilistilisationation ddes régularitéses régularités

• le monde change peu et lentement: régularités spatiales et temporelles

• la perception utilise massivement la prédiction, à toutes les échelles de temps.

• il faut aller plus vite que le phénomène considéré

• rôle de l'attention, processus descendants

La perception est plus une projection sur le monde que l'activation d'une représentation BN du monde

Page 7: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

UUtilistilisation deation de tous les indices tous les indices

• le monde est perçu par le biais de multiples canaux d'information; multimodalité

• exploitation simultanée de tous ces canaux, en fonction du but

• détection immédiate de toute incohérence, si elle a une importance pour la poursuite du but

• à l'intérieur d'un même canal on peut avoir plusieurs types d'information complémentaires

Page 8: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

DualitéDualité perception perception--actionaction

• la perception sert à guider l'action (p.ex. regarder où l'on va),

• et l'action à affiner la perception (p.ex. s'approcher pour mieux voir un objet)

• perception "active", double sens :– complémentarité flux ascendant et descendant

– association avec une action comportementale

Page 9: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

RReprésentations eprésentations intermédiaires intermédiaires

• le passage du bas au haut niveau ne peut se faire en une seule étape

• comment déterminer les niveaux intermédiaires ?

• Sont-ils identiques pour tous les individus ?

• Problème d'apprentissage

Page 10: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Problèmes et modèles pour laProblèmes et modèles pour laPerception ArtificiellePerception Artificielle

Page 11: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

RepèresRepères

• années 40-60 : théorie de l'information, cybernétique, reconnaissance des formes, systèmes cellulaires

• années 60-80: perceptron et XOR, divorce IA/RF

• années 80-2000: connexionnisme, sciences cognitives, cognition et perception situées, société de l'information

• Actuellement : l'IA nouvelle, apprentissage, fouille de données, méthodes probabilistes, IA distribuée

Page 12: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

• Variabilité du signal, à "contenu constant" ; mais à quel contenu se réfère-t-on ?– en reconnaissance de la parole : l'information "linguistique " (celle

qui correspond à la langue écrite)

– en reconnaissance du locuteur : l'identité du locuteur (quoi qu'il dise ?)

– en reconnaissance d'objets : le label de l'objet (quelles que soient les conditions de prise de vue et d'éclairement ?)

• Hypothèse : contenu du signal = toute l'information perceptible par un humain

• Proposition : la variabilité reflète la non-prise en compte d'une partie de l'information perceptive du signal

le grand problème: la variabilité le grand problème: la variabilité

Page 13: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Maj.Min.

AB

GaucheDroiteA

Maj.Min.

AB

GaucheDroite

A

Maj.Min.

AB

GaucheDroiteA

AB

Maj.Min.

GaucheDroiteB

pixels identité casse position

descriptionbas niveau

descriptionhaut niveau

MulticatégorisatiMulticatégorisationon

Maj.Min.

AB

GaucheDroite

a

AAB

AAB

AAB

BAB

CatégorisationCatégorisation

pixels identité

descriptionbas niveau

descriptionhaut niveau

AB

a

Catégorisation vs Catégorisation vs MulticatégorisationMulticatégorisation

En Catégorisation, seul un descripteur haut niveau est défini (ici l'identité de l'objet).

Il en résulte une grande variabilité (non-coïncidence des classes bas et haut niveau).

En définissant plusieurs descripteurs haut niveau (multicatégorisation = plusieurs points de vue sur l'objet) la variabilité est fortement réduite.

La catégorisation est une forme particulière de multicatégorisation.

En ingéniérie : Traitement des Formes vs Reconnaissance des Formes

Page 14: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Perception Située Perception Située

• la perception est contextuelle– prend en compte la situation du système dans son

contexte

• la perception est active– double flux ascendant et descendant

– action sur l'environnement

• la perception est multicatégorielle– tout signal perceptivement significatif peut faire

l'objet d'une description complète à tout niveau d'abstraction

– c'est le système cognitif qui choisit les aspects pertinents du signal, selon la situation

Page 15: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

hn

bn

entités longues et décorrélées

entités courtes et mélangées

La perception comme La perception comme changement de représentationchangement de représentation

Page 16: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Divers modes de Divers modes de fonctionnementfonctionnementascendantascendant

hn

bn

hn

bn

descendantdescendant

• l'information bn est prédominante

• prévisibilité nulle

• streaming, pop-up, descripteurs intrinsèques (bn), Gestalt, émergence

• l'information hn est prédominante

• prévisibilité totale

• attention et connaissances attachées aux niveaux supérieurs

• les informations hn et bn sont partielles

• prédominance d'un niveau (plus proche hn ou bn, ou mieux structuré)

• conflit possible

hn

bn

Double fluxDouble flux

Page 17: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Monde Monde (interne/externe)(interne/externe)

SYSTEME COGNITIF

Sous-but

hiérarchies sensori-motrices

couplages sensorimoteurs

concepts

signaux

Perception SituéePerception Située

Page 18: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Analyse, Analyse, reconnaissance et reconnaissance et

perception de la paroleperception de la parole

Page 19: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Sert à la communication entre humains- différences avec communication

écrite

Le signal de parole Le signal de parole

double structure acoustique- spectrale ou segmentale, mieux visible

en bande large- harmonique ou suprasegmentale, mieux

visible en bande étroite

Modèle source-filtre- inspiré par les mécanismes de la

production

Page 20: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Communication : oral vs Communication : oral vs écrit écrit

Communication orale

Communication écrite

Page 21: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Transmission Transmission • Le problème du débit d'information

---> comment supprimer l'information "superflue" ?

Page 22: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 23: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

L'appareil vocalL'appareil vocal

Page 24: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Analyse acoustique de la Analyse acoustique de la parole parole

Exemples de spectrogrammes– Winsnoori

• 101.wav Guy a péri bêtement du diabète en Italie voix H

• 201.wav id voix F

• 102.wav La porte du garage tomba avec lourdeur voix H

• 202.wav id voix F

– Sections en bande large et bande étroite

– Evolution de Fo

Page 25: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

spectrogrammes des voyelles

Les voyellesLes voyelles

F1 et F2 prépondérants: démo Snack Formants

Page 26: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Fricatives (constrictives)

Page 27: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Plosives (occlusives)

Page 28: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

• Synthèse à partir des phonèmesSynthèse à partir des phonèmes- A chaque phonème est associé un état stable

- Le problème de coarticulation : ch + a ne fait pas cha

- Il faut donc respecter les transitions

- Synthèse par règles

Avec un synthétiseur paramétrique (à formants) : calcul des transitions acoustiques

Page 29: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

• Reconnaissance par mots isolésReconnaissance par mots isolés

Apprentissage

Reconnaissance

Page 30: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

• Le problème de l'alignement Le problème de l'alignement temporeltemporel Alignement par

programmation dynamique DTW

Page 31: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Reconnaissance par mots enchaînésReconnaissance par mots enchaînés

Extension de la programmation dynamique

Page 32: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Reconnaissance par modèles de Reconnaissance par modèles de Markov cachésMarkov cachés

- Le signal est représenté par une suite d'états acoustiques

- le nombre d'états possibles est limité (d'après corpus)

- probabilités de transition et d'émission (d'après corpus)

- programmation dynamique

Formulation bayésienne- Le message est représenté par une suite de mots

- Probabilités déterminées d'après corpus

- Proba message :: proba suite acoustique x proba suite de mots

Modèle de mot

Page 33: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Performances actuelles Performances actuelles (2000)(2000)

Machine ~ 10% des performances humaines...

Mesurées en termes de taux d’erreurs de mots

nécessite un corpus transcrit manuellement (référence)

0.7%

7%

40%

0.01% 0.5%4%

Chiffres Journaux lusConversations tel.

20%

Journaux televises

Page 34: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Point de vuePoint de vuesur la reconnaissance de la sur la reconnaissance de la

paroleparole• Les approches actuelles sont limitées

– méthodes essentiellement ascendantes et monocatégorielles, basées sur la Reconnaissance des Formes

– suffisantes pour certaines applications

– mais progrès asymptotiques, dûs seulement à puissance de calcul et collecte de bases de données

• Point de vue situé

– prendre en compte simultanément tous les aspects perceptifs du signal : parole, locuteur, situation, contexte, prise de son

– chercher les lois de variation du signal en fonction des descripteurs non-linguistiques

Page 35: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Variabilité du signal de paroleVariabilité du signal de parole

• Le signal de parole varie considérablement selon le locuteur et la situation, à contenu linguistique constant --> Rechercher des invariants ?

• La reconnaissance automatique : trop de variabilité ?

– principes actuels : alignement temporel, modélisation probabiliste (acoustique et lexicale). Puissance de calcul, grandes bases de données

– limitations : variations du locuteur et de la prise de son; domaine sémantique restreint (cf systèmes experts). Problème artificiellement contraint.

– proposition : reconnaître à la fois ce qui est dit, qui le dit, où et comment

• La synthèse : pas assez de variabilité ?– voix synthétique ennuyeuse et inexpressive. Comment déduire du texte écrit les

descripteurs non-linguistiques qui n'y sont pas ?

Page 36: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 37: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 38: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 39: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 40: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences

Perception de la parolePerception de la parole

• les niveaux d'abstraction sont déterminés par la résolution temporelle

• à chaque niveau la description du contenu perceptif est complète

• descripteurs de plus en plus indépendants

• traitement conjoint des informations linguistiques et non-linguistiques

• deux flux d'information: ascendant et descendant

niveau 6 500msunités cognitives

niveau 2 15msindices acoustiques

niveau 1 1msunités cochléaires

niveau 0 0.1msSignal

niveau 3 30mstraits phonétiques

niveau 4 60msunités phonetiques

niveau 5 200msunités lexicales

branche verbale branche prosodique

Page 41: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences
Page 42: Chapitre 1 -------- Perception Naturelle et Artificielle de la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences