Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement...

Master IADModule PS

Gaël RICHARD

Février 2008

IV. Reconnaissance de la parole

Gaël RICHARD – IAD - PS – Fev. 2008 2

Contenu

� Introduction aux technologies vocales

� Production et Perception de la parole

� Modélisation articulatoire

� Synthèse de la parole

� Reconnaissance de la parole

Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

� Introduction� Approches pour la reconnaissance vocale� Paramétrisation� Distances et mesure de distortion spectrale� Alignement Temporel et Programmation dynamique (DTW)� Introduction aux modèles de Markov Cachés� Base de données pour la reconnaissance� Exemples d’applications

� La reconnaissance de la parole consiste à� “Transcrire en texte un message vocal (identifie la séquence de mots la plus probable)”

� S’apparente aux domaines de la compréhension:� Identifier une action/requête

� Inclut les applications de dialogue “naturel”

� S’apparente aux domaines de l’Identification/Vérification du locuteur� Identification: retrouver l’identité d’une personne parmi N� Vérification: dire si oui ou non le locuteur correspond à l’identitéprétendue

Reconnaissance de la parole : Quelques

applications

� Dépendant du locuteur, petits vocabulaires

� Applications de contrôle/commande (ex. téléphone portable...)

� Indépendant du locuteur, petits vocabulaires

� Applications de contrôle/commande (ex. téléphone portable...)� Applications de téléservices simples (ex. remplacement des DTMF..)

� Indépendant du locuteurs, grands vocabulaires, Langage naturel

� Dictée vocale� Téléservices plus complexes (cotes de la bourse, météo, réservation de billets, etc…)

� Indexation audio� Tri d ’appels: « How May I Help You »

Reconnaissance: petit historique

� Depuis le début Méthodes basées sur les connaissances des années 70 (knowledge-based, décodage

acoustico-phonétique)

� A partir du milieu Reconnaissance de mots isolés, des années 70 utilisation de la programmation

dynamique (DTW)� Début des Modèles de Markov Cachés (HMM)

années 80

� Depuis dix ans Parole continue, grands vocabulaires, techniques d'adaptation, et plus récemment dialogue naturel

Niveau acoustique signal

➲➲➲➲(niveau phonétique) suite de phonèmes,

syllabes,…

➲➲➲➲Niveau Lexical Mots, suite de mots,

hypothèses de mots

Compréhension de la parole (dialogue)

➲➲➲➲Niveau sémantique concepts (intentions)

Complexité de la tâche de

reconnaissance

� Problèmes de variabilité� Variabilité intra-locuteur� Variabilité inter-locuteur

ð Particulièrement sensible au niveau temporel

� Co-articulation (y compris aux frontières de mots)

� Influence des conditions d’enregistrements� Téléphone, PC,..� Utilisation mobile (rue, voiture, bureau,…) / Fixe� …..

� Influence du style d’élocution� Parole lue,� Parole spontanée

� Caractéristiques vocales du locuteur

expression, humeur.........

� Variabilité phonologiques:

inter-locuteur ( ) intra-loc ( ), contextuel

� Bruits extérieurs

�Spontanéité

bonjour (seul)

bruit (seul)

bonjour + bruit

conversation vent ?

stop éric

prononciations

hésitations reprises

scénario

accentsenfant

VariabilitVariabilitVariabilitVariabilitéééé: : : : quelquesquelquesquelquesquelques exemplesexemplesexemplesexemples(extraits d’exemples d’un prototype d’annuaire automatique, IBM-France)

Variabilité intra-locuteur

Variabilité inter-locuteurs

Environnements difficiles: résumé

� Bruits d’environnements� Bruits stationnaires (bruit de fond…), bruit non-stationnaires (bruit de porte, sonneries de téléphone, etc…)

� Déformations acoustiques� Distorsions non-linéaires (qualité et dynamique variables des microphones), réverbération, etc..

� Largeur de bande du signal de parole

� Variation d’élocution� Effet Lombard� Stress physique/émotionnel� Vitesse d’élocution� Hésitations� Bruits de bouche….

Les approches en reconnaissance de la

parole

� 3 principaux types d’approches

� Les approches basées sur les connaissances

� Les approches statistiques de reconnaissance des formes

� Les approches d’intelligence artificielle

Approches basées sur les connaissances

� Parfois appelées approches acoustico-phonétiques� Approche basée sur les connaissances phonétiques� Fait l’hypothèse

� qu’il existe un nombre finis d’unités phonétiques distinctes par langue parlée

� Que ces unités sont grossièrement caractérisées par un ensemble de propriétés visibles (ou analysables) par exemple àl’aide de la représentation spectrale

� Que les variabilités intra et inter locuteurs peuvent être décrites par des règles simples

Schéma bloc d’un système de reconnaissance basée sur les connaissance (d’après L. Rabiner & B. Juang. Fundamentals of Speech

recognition. Signal prcessing series. Prentice Hall,1993.)

� Bilan de cette approche

� Nombreux intérêts

� Permet de générer des systèmes à vocabulaire illimité� Approche générique et peut être appliquée à d’autres langues (même si un travail important d’analyse devra être fait)

� Permet d’affiner les connaissances sur la parole (production/perception).

� Bilan de cette approche

� Mais de nombreux problèmes pratiques existent. Parmi ces problèmes on peut citer:

� La nécessité d'avoir des connaissances approfondies des propriétés acoustiques des unités phonétiques et cette connaissance est, bien évidemment,incomplète.

� Le choix des caractéristiques est fait principalement sur des considérations ad hoc et est généralement le fruit de l'intuition => choix non-optimal

� Il n'existe pas de méthodes automatiques pour régler les différents paramètres du système (i.e. ajuster les seuils de décision, etc.) sur des données labellisées de parole.

ðððððððð Perspectives intPerspectives intééressantes mais nressantes mais néécessite cessite encore des efforts importants de rechercheencore des efforts importants de recherche

� Approche hybride: incorporation de connaissances àpartir d’une grande variété de sources de connaissances

� Connaissances acoustiques: utilisation de connaissances spectrales, présence/absence de traits distinctifs

� Connaissances lexicales: utilisation d’un lexique� Connaissances syntaxiques: utilisation d’un modèle de langage� Connaissances sémantiques: utilisation d’un modèle sémantique

� Connaissances pragmatiques: Résolution des ambiguités de sens

Approches d’intelligence artificielle

Illustration des sources de

connaissances

� « Va me chercher un livre dans le frigidaire »� Syntaxe correcte mais sémantique inconsistante

� « Les cadets ont écrasé les poussins »� Interprétation pragmatique différente suivant le contexte (sportif, ferme,…)

� « voiture la contente est bleue »� Syntaxe incorrecte, sémantique inconsistante

� « La musique aboutit les mœurs »� Syntaxe correcte, Sémantique inconsistante

� 3 approches principales: (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « bottom-up »

� 3 approches principales (2/3):(d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « top-down »

� 3 approches principales (3/3) (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « tableau noir »

Approches statistiques

� 2 phases principales

� L’apprentissage des unités élémentaires

� Les unités peuvent être un son, un mot, une phrase, etc…� Concept de base: un nombre suffisamment grand de chaque unitéest inclus dans l’ensemble d’apprentissage.

� Suppose que l’apprentissage est capable de caractériser les propriétés acoustiques de chaque unité

� La reconnaissance

� Reconnaissance des unités par « comparaison »

� Schéma bloc d’un système reconnaissance par une approche statistique (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approches les plus répandues actuellement en reconnaissance

� Quelques raisons de ce succès:

� Simplicité de mise en œuvre� Méthodes accessibles� Bases mathématiques rigoureuses

� Robustesse et invariance de l’approche� Aux différents vocabulaires, utilisateurs, unités choisies.� À l’environnement, aux conditions de transmission

� Performances: les résultats obtenus sur des bases de données ont maintes fois la puissance de cette approche

� Importance du choix de :

� La paramétrisation acoustique� Des modèles et de la classification utilisés

� Quelques remarques:

� Les performances sont dépendantes des données� Qualité, spécificité, taille

� Peu de connaissances directement liées au signal de parole sont utilisées ð relativement insensible au choix des mots du vocabulaire, de la tâche, de la syntaxe,…

� Contraintes en coût calcul peuvent devenir importantes

Modèles acoustiques

signal de parole

Analyse

Structure Structure Structure Structure ggggéééénnnnééééraleraleralerale

Décodage

Modèles linguistiques

séquence de mots reconnue

AnalyseDécodage

utilisateur

reconnaissance intégrée

(téléphonemobile, assistant personnel, PC)

TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (1/3) (1/3) (1/3) (1/3)

Architecture locale Architecture locale Architecture locale Architecture locale

Architecture Architecture Architecture Architecture distribudistribudistribudistribuééééeeee

AnalyseDécodage

utilisateur

Calcul en local et transmission des paramètres

(codés)(téléphone mobile)

Décodage distant (serveur)

Architecture Architecture Architecture Architecture distantedistantedistantedistante

AnalyseDécodage

utilisateur

transmission du signal de parole

via canal téléphonique, voix

sur IP, ...

Analyse et Décodage

distants (serveur)

Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement...

Documents

Ergative marking in Basque-Spanish and Basque-French code ... · Agency of France: La parole bilingue: l’alternance codique chez les locuteurs basco-phones (ACOBA). Our thanks to

La banque des vocabulaires éducatifs

Vocabulaire des relations internationales - culture.gouv.fr · Ce vocabulaire fait partie d’une collection de vocabulaires thématiques édités par la ... juridiques n’ayant

Visie op vocabulaires (augustus 2011)

Influences de l'écrit sur la perception auditive : le cas de locuteurs

Introduction aux métadonnées - UNICAEN · Metadonn ees? Resource Description Framework Vocabulaires Dublin Core M etadonn ees embarqu ees Conclusion Plan 1 Metadonn ees? 2 Resource

Les Vocabulaires Du Noel

vocabulaires du chinois contemporain

Speech and audio coding - perso.telecom-paristech.fr · Institut Mines-Telecom Speech and audio coding Marco Cagnazzo, cagnazzo@telecom-paristech.fr MN910 – Advanced compression

vocabulaires francais/ nationalite

Concevoir et développer des vocabulaires RDF

fr sTech m t http:// - perso.telecom-paristech.fr+Objet.pdf · Programmation orientée objet ... Simpliﬁcation du C++, purement objet Egalement inspiré de Smalltalk, ... appel

vocabulaires francais / alimentation

Computed Tomography Image Origin Identification based …perso.telecom-bretagne.eu/gouenoucoatrieux/data/2016_CTSource... · asymmetrically encrypted for non-repudiation purpose [7]

Networks and Standards Marc Bourreauses-perso.telecom-paristech.fr/bourreau/files/cours10...Anticipations and Critical Mass Consumer Expectations and Critical Mass In this game, if

Investigating Classroom Interaction Investigating Classroom Interactionses-perso.telecom-paristech.fr/baker/Makitaloetal2009.pdf · Investigating Classroom Interaction Methodologies

Locuteurs de l'arabe maghrébin - langue de France : une analyse

CNRS – Direction de l’Information Scientifique et … · Faire appliquer les principes juridiques de protection des données (secret ... "vocabulaires" de l'IST à grande échelle

Emergent Relational Schemas for RDF · Binnen het semantisch web verwijst “schema” naar ontologie¨en en vocabulaires die worden gebruikt om concepten op een generieke manier

SOCIO-COGNITIVE TENSION IN COLLABORATIVE WORKING …ses-perso.telecom-paristech.fr/baker/AndriessenBakerPuil-draft.pdfChiel van der Puil, Utrecht University, Netherlands Introduction