View
218
Download
0
Category
Preview:
Citation preview
1
Master IADModule PS
Gaël RICHARD
Février 2008
IV. Reconnaissance de la parole
Gaël RICHARD – IAD - PS – Fev. 2008 2
Contenu
� Introduction aux technologies vocales
� Production et Perception de la parole
� Modélisation articulatoire
� Synthèse de la parole
� Reconnaissance de la parole
Gaël RICHARD – IAD - PS – Fev. 2008 3
Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole
� Introduction� Approches pour la reconnaissance vocale� Paramétrisation� Distances et mesure de distortion spectrale� Alignement Temporel et Programmation dynamique (DTW)� Introduction aux modèles de Markov Cachés� Base de données pour la reconnaissance� Exemples d’applications
Gaël RICHARD – IAD - PS – Fev. 2008 4
Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole
� La reconnaissance de la parole consiste à� “Transcrire en texte un message vocal (identifie la séquence de mots la plus probable)”
� S’apparente aux domaines de la compréhension:� Identifier une action/requête
� Inclut les applications de dialogue “naturel”
� S’apparente aux domaines de l’Identification/Vérification du locuteur� Identification: retrouver l’identité d’une personne parmi N� Vérification: dire si oui ou non le locuteur correspond à l’identitéprétendue
Gaël RICHARD – IAD - PS – Fev. 2008 5
Reconnaissance de la parole : Quelques
applications
� Dépendant du locuteur, petits vocabulaires
� Applications de contrôle/commande (ex. téléphone portable...)
� Indépendant du locuteur, petits vocabulaires
� Applications de contrôle/commande (ex. téléphone portable...)� Applications de téléservices simples (ex. remplacement des DTMF..)
� Indépendant du locuteurs, grands vocabulaires, Langage naturel
� Dictée vocale� Téléservices plus complexes (cotes de la bourse, météo, réservation de billets, etc…)
� Indexation audio� Tri d ’appels: « How May I Help You »
Gaël RICHARD – IAD - PS – Fev. 2008 6
Reconnaissance: petit historique
� Depuis le début Méthodes basées sur les connaissances des années 70 (knowledge-based, décodage
acoustico-phonétique)
� A partir du milieu Reconnaissance de mots isolés, des années 70 utilisation de la programmation
dynamique (DTW)� Début des Modèles de Markov Cachés (HMM)
années 80
� Depuis dix ans Parole continue, grands vocabulaires, techniques d'adaptation, et plus récemment dialogue naturel
Gaël RICHARD – IAD - PS – Fev. 2008 7
Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole
Niveau acoustique signal
➲➲➲➲(niveau phonétique) suite de phonèmes,
syllabes,…
➲➲➲➲Niveau Lexical Mots, suite de mots,
hypothèses de mots
Compréhension de la parole (dialogue)
➲➲➲➲Niveau sémantique concepts (intentions)
Gaël RICHARD – IAD - PS – Fev. 2008 8
Complexité de la tâche de
reconnaissance
� Problèmes de variabilité� Variabilité intra-locuteur� Variabilité inter-locuteur
ð Particulièrement sensible au niveau temporel
� Co-articulation (y compris aux frontières de mots)
� Influence des conditions d’enregistrements� Téléphone, PC,..� Utilisation mobile (rue, voiture, bureau,…) / Fixe� …..
� Influence du style d’élocution� Parole lue,� Parole spontanée
Gaël RICHARD – IAD - PS – Fev. 2008 9
� Caractéristiques vocales du locuteur
expression, humeur.........
� Variabilité phonologiques:
inter-locuteur ( ) intra-loc ( ), contextuel
� Bruits extérieurs
�Spontanéité
bonjour (seul)
bruit (seul)
bonjour + bruit
conversation vent ?
stop éric
rire
prononciations
hésitations reprises
scénario
accentsenfant
femme
homme
VariabilitVariabilitVariabilitVariabilitéééé: : : : quelquesquelquesquelquesquelques exemplesexemplesexemplesexemples(extraits d’exemples d’un prototype d’annuaire automatique, IBM-France)
Gaël RICHARD – IAD - PS – Fev. 2008 10
Variabilité intra-locuteur
Gaël RICHARD – IAD - PS – Fev. 2008 11
Variabilité inter-locuteurs
Gaël RICHARD – IAD - PS – Fev. 2008 12
Environnements difficiles: résumé
� Bruits d’environnements� Bruits stationnaires (bruit de fond…), bruit non-stationnaires (bruit de porte, sonneries de téléphone, etc…)
� Déformations acoustiques� Distorsions non-linéaires (qualité et dynamique variables des microphones), réverbération, etc..
� Largeur de bande du signal de parole
� Variation d’élocution� Effet Lombard� Stress physique/émotionnel� Vitesse d’élocution� Hésitations� Bruits de bouche….
Gaël RICHARD – IAD - PS – Fev. 2008 13
Les approches en reconnaissance de la
parole
� 3 principaux types d’approches
� Les approches basées sur les connaissances
� Les approches statistiques de reconnaissance des formes
� Les approches d’intelligence artificielle
Gaël RICHARD – IAD - PS – Fev. 2008 14
Approches basées sur les connaissances
� Parfois appelées approches acoustico-phonétiques� Approche basée sur les connaissances phonétiques� Fait l’hypothèse
� qu’il existe un nombre finis d’unités phonétiques distinctes par langue parlée
� Que ces unités sont grossièrement caractérisées par un ensemble de propriétés visibles (ou analysables) par exemple àl’aide de la représentation spectrale
� Que les variabilités intra et inter locuteurs peuvent être décrites par des règles simples
Gaël RICHARD – IAD - PS – Fev. 2008 15
Approches basées sur les connaissances
Schéma bloc d’un système de reconnaissance basée sur les connaissance (d’après L. Rabiner & B. Juang. Fundamentals of Speech
recognition. Signal prcessing series. Prentice Hall,1993.)
Gaël RICHARD – IAD - PS – Fev. 2008 16
� Bilan de cette approche
� Nombreux intérêts
� Permet de générer des systèmes à vocabulaire illimité� Approche générique et peut être appliquée à d’autres langues (même si un travail important d’analyse devra être fait)
� Permet d’affiner les connaissances sur la parole (production/perception).
Approches basées sur les connaissances
Gaël RICHARD – IAD - PS – Fev. 2008 17
� Bilan de cette approche
� Mais de nombreux problèmes pratiques existent. Parmi ces problèmes on peut citer:
� La nécessité d'avoir des connaissances approfondies des propriétés acoustiques des unités phonétiques et cette connaissance est, bien évidemment,incomplète.
� Le choix des caractéristiques est fait principalement sur des considérations ad hoc et est généralement le fruit de l'intuition => choix non-optimal
� Il n'existe pas de méthodes automatiques pour régler les différents paramètres du système (i.e. ajuster les seuils de décision, etc.) sur des données labellisées de parole.
ðððððððð Perspectives intPerspectives intééressantes mais nressantes mais néécessite cessite encore des efforts importants de rechercheencore des efforts importants de recherche
Approches basées sur les connaissances
Gaël RICHARD – IAD - PS – Fev. 2008 18
� Approche hybride: incorporation de connaissances àpartir d’une grande variété de sources de connaissances
� Connaissances acoustiques: utilisation de connaissances spectrales, présence/absence de traits distinctifs
� Connaissances lexicales: utilisation d’un lexique� Connaissances syntaxiques: utilisation d’un modèle de langage� Connaissances sémantiques: utilisation d’un modèle sémantique
� Connaissances pragmatiques: Résolution des ambiguités de sens
Approches d’intelligence artificielle
Gaël RICHARD – IAD - PS – Fev. 2008 19
Illustration des sources de
connaissances
� « Va me chercher un livre dans le frigidaire »� Syntaxe correcte mais sémantique inconsistante
� « Les cadets ont écrasé les poussins »� Interprétation pragmatique différente suivant le contexte (sportif, ferme,…)
� « voiture la contente est bleue »� Syntaxe incorrecte, sémantique inconsistante
� « La musique aboutit les mœurs »� Syntaxe correcte, Sémantique inconsistante
Gaël RICHARD – IAD - PS – Fev. 2008 20
� 3 approches principales: (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )
� Approche « bottom-up »
Approches d’intelligence artificielle
Gaël RICHARD – IAD - PS – Fev. 2008 21
� 3 approches principales (2/3):(d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )
� Approche « top-down »
Approches d’intelligence artificielle
Gaël RICHARD – IAD - PS – Fev. 2008 22
� 3 approches principales (3/3) (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )
� Approche « tableau noir »
Approches d’intelligence artificielle
Gaël RICHARD – IAD - PS – Fev. 2008 23
Approches statistiques
� 2 phases principales
� L’apprentissage des unités élémentaires
� Les unités peuvent être un son, un mot, une phrase, etc…� Concept de base: un nombre suffisamment grand de chaque unitéest inclus dans l’ensemble d’apprentissage.
� Suppose que l’apprentissage est capable de caractériser les propriétés acoustiques de chaque unité
� La reconnaissance
� Reconnaissance des unités par « comparaison »
Gaël RICHARD – IAD - PS – Fev. 2008 24
Approches statistiques
� Schéma bloc d’un système reconnaissance par une approche statistique (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )
Gaël RICHARD – IAD - PS – Fev. 2008 25
Approches statistiques
� Approches les plus répandues actuellement en reconnaissance
� Quelques raisons de ce succès:
� Simplicité de mise en œuvre� Méthodes accessibles� Bases mathématiques rigoureuses
� Robustesse et invariance de l’approche� Aux différents vocabulaires, utilisateurs, unités choisies.� À l’environnement, aux conditions de transmission
� Performances: les résultats obtenus sur des bases de données ont maintes fois la puissance de cette approche
Gaël RICHARD – IAD - PS – Fev. 2008 26
Approches statistiques
� Importance du choix de :
� La paramétrisation acoustique� Des modèles et de la classification utilisés
� Quelques remarques:
� Les performances sont dépendantes des données� Qualité, spécificité, taille
� Peu de connaissances directement liées au signal de parole sont utilisées ð relativement insensible au choix des mots du vocabulaire, de la tâche, de la syntaxe,…
� Contraintes en coût calcul peuvent devenir importantes
Gaël RICHARD – IAD - PS – Fev. 2008 27
Modèles acoustiques
signal de parole
Analyse
Structure Structure Structure Structure ggggéééénnnnééééraleraleralerale
Décodage
Modèles linguistiques
séquence de mots reconnue
Gaël RICHARD – IAD - PS – Fev. 2008 28
Modèles acoustiques
AnalyseDécodage
Modèles linguistiques
séquence de mots reconnue
utilisateur
reconnaissance intégrée
(téléphonemobile, assistant personnel, PC)
TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (1/3) (1/3) (1/3) (1/3)
Architecture locale Architecture locale Architecture locale Architecture locale
Gaël RICHARD – IAD - PS – Fev. 2008 29
séquence de mots reconnue
TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (2/3) (2/3) (2/3) (2/3)
Architecture Architecture Architecture Architecture distribudistribudistribudistribuééééeeee
Modèles acoustiques
AnalyseDécodage
Modèles linguistiques
utilisateur
Calcul en local et transmission des paramètres
(codés)(téléphone mobile)
Décodage distant (serveur)
Gaël RICHARD – IAD - PS – Fev. 2008 30
séquence de mots reconnue
TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (3/3) (3/3) (3/3) (3/3)
Architecture Architecture Architecture Architecture distantedistantedistantedistante
Modèles acoustiques
AnalyseDécodage
Modèles linguistiques
utilisateur
transmission du signal de parole
via canal téléphonique, voix
sur IP, ...
Analyse et Décodage
distants (serveur)
Recommended