89
Logo del Departamento o Instituto Sistemas de Interacción Sistemas de Interacción Natural (4e) Natural (4e) Luis Hernández Luis Hernández Gómez Gómez [email protected] [email protected] s s

Sistemas de Interacción Natural (4e)

  • Upload
    sheba

  • View
    25

  • Download
    0

Embed Size (px)

DESCRIPTION

Sistemas de Interacción Natural (4e). Luis Hernández Gómez [email protected]. SPEECH & LANGUAGE TECHNOLOGIES. 4a: Speech production and analysis 4b: Speech perception 4c: Speech Analysis 4d: Text-to-Speech 4e: Speech Recognition 4f: Dialog Systems Digital Speech Processing Course - PowerPoint PPT Presentation

Citation preview

Page 1: Sistemas de Interacción Natural (4e)

Logo delDepartamento

o Instituto

Sistemas de Interacción Natural Sistemas de Interacción Natural (4e)(4e)

Luis Hernández GómezLuis Hernández Gómez

[email protected]@gaps.ssr.upm.es

Page 2: Sistemas de Interacción Natural (4e)

SPEECH & LANGUAGE TECHNOLOGIESSPEECH & LANGUAGE TECHNOLOGIES

4a: Speech production and analysis

4b: Speech perception

4c: Speech Analysis

4d: Text-to-Speech

4e: Speech Recognition

4f: Dialog Systems

Digital Speech Processing CourseProf. Lawrence Rabiner

http://www.caip.rutgers.edu/~lrr/

Page 3: Sistemas de Interacción Natural (4e)

Tema 6: Reconocimiento de Voz

Principios de Reconocimiento de Habla y de Locutor Tecnología de Reconocimiento de Locutor Tecnología de Reconocimiento de Habla

Tratamiento Digital de VozTratamiento Digital de Voz

Page 4: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: ¿qué se dice?

La variedad de locutores (¿quién lo dice?): “ruido”(Acentos, variedades dialectales, etc.)

Reconocimiento de Locutor: ¿quién lo dice?

La variedad de mensajes hablados (¿qué se dice?): “ruido”

variación intra-locutor variación inter-locutores

Page 5: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: Características Dependiente / Independiente de Locutor Tamaño del Vocabulario “Tipos de Reconocimiento”:

Habla aislada, palabras en contexto (word spotting), habla natural, lenguaje natural, habla espontánea, ...

Otros: Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...

Prestaciones

Page 6: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: Dependiente/Independiente del Locutor

Dependiente de Locutor: por ejemplo, sistemas de dictado. Independiente de Locutor: aplicaciones telefónicas. Cada vez mayor importancia de las “Técnicas de Adaptación al Locutor”

Reducción de la cantidad de voz para la adaptación. Adaptación supervisada / no-supervisada. Adaptación también al entorno de ruido. Adaptación a “habla espontánea”.

Page 7: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: Tamaño del Vocabulario El vocabulario DEBE estar pre-fijado (en muchas ocasiones es muy importante la gestión dinámica de vocabularios : entradas variables) El diseño del vocabulario puede “olvidar” palabras: palabras fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e incorporar esas palabras es de gran importancia. Las prestaciones del Reconocedor son dependientes del tamaño del vocabulario:

Pequeño (< 100), medio (<1000), grande (>1000 -- 1M) PERO es muy importante (muchas veces más que el número de palabras):

o El grado de similitud acústica entre palabras (ej.: teléfonos)o La GRAMÁTICA de reconocimiento. La gramática restringe la secuencia de palabras a reconocer.

Page 8: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: ”Tipo” de Reconocimiento(terminología imprecisa)

Habla aislada: lista de palabras (directorio de nombres) Palabras en contexto (word spotting): “con Juan Pérez por favor” Habla natural: “dictado natural,” u “órdenes naturales” (“quiero que me digas qué películas ponen hoy”) Lenguaje natural: suele asociarse a la identificación de entidades semánticas:<solicitud de información>quiero que me digas qué

<tipo de información>películas</tipo de información>

ponen<tiempo>hoy</tiempo></solicitud de

información> Habla espontánea: “disfluencias” : “..eh quiero que me des, que me diga.. digas qué... pone... las películas de hoy”

Page 9: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: Características Más otros....

Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...

DIFICULTAD de medir “realmente” las prestaciones de un sistema de reconocimiento (en laboratorio en aplicaciones)

Errores de Reconocimiento: Tasa de Error (Sustituciones / Inserciones / Elisiones (borrados)) Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la Tasa de Error.

Ruidos Palabras OOV (fuera del vocabulario)

Medidas de Confianza: “seguridad” del resultado de reconocimiento (ejemplo: Adaptación no-supervisada)

Page 10: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Locutor: Características Dependiente / Independiente de Texto Población cerrada / abierta “Modos de Funcionamiento”:

VERIFICACIÓN IDENTIFICACIÓN (Detección; Autenticación)

Otros: Entorno de Ruido..., Sistema de comunicaciones, ...VARIABILIDAD ENTRE SESIONES

Prestaciones

Page 11: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Rec. de Locutor: Dependiente/Independiente de Texto Dependiente Texto:

Texto fijo: locución pre-establecida (clave de acceso) Texto variable (vocabulario fijo): se pide que el locutor pronuncie una clave generada aleatoriamente (text prompted); objetivos: evitar grabaciones y “clave en voz alta”

Independiente de Texto: el locutor puede emplear cualquier locución, sin restricciones (duración, riqueza fonética ? Imaginación ? => tipo de aplicación: Acústica Forense)

Importancia de la estrategia de diálogo (factores humanos): preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...) Reconocimiento de Locutor Sistemas de Verificación de Información Verbal (complementarios? Fases diferentes ?)

Page 12: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Locutor: Población cerrada/abierta Población cerrada: reconocimiento entre un conjunto cerrado de usuarios; “el impostor está en casa”.

Población abierta: reconocimiento “abierto” a impostores externos a los “locutores reconocibles”

Page 13: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Locutor: Modos de funcionamiento VERIFICACIÓN: decidir si una persona es quien dice ser utilizando su “huella vocal” (ej.: tecleo mi password y el sistema me pide que hable para comprobar que soy yo: se contrasta la voz dubitada contra una sola “huella vocal” –la del password-)

IDENTIFICACIÓN: decidir si la voz de una persona pertenece a algun locutor de una población de locutores identificados. (se compara la voz dubitada con todas las huellas vocales de la población “indubitada”)

(DETECCIÓN: localización de un locutor en una grabación de audio – AUTENTICACIÓN: mediante verificación/identificación)

Page 14: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Locutor: Prestaciones Otros:

Entorno de Ruido... Sistema de comunicación... VARIABILIDAD ENTRE SESIONES

Errores de Reconocimiento: tasas de: Falsa Aceptación FA: un impostor vulnera el sistema Falso Rechazo FR: un usuario no es reconocido

“Aciertos” de Reconocimiento: Rechazo correcta: un impostor es rechazado Aceptación correcta: un usuario es reconocido

El coste de cada tipo de error depende de la aplicación (por ejemplo: mayor, menor seguridad) TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll; imposibilidad de entrenarse en el sistema

Page 15: Sistemas de Interacción Natural (4e)

Four conditional probabilitiesin speaker verification

0012-09

Input utteranceDecision condition condition

s n (customer) (impostor)

S (accept)

N (reject)

P(S | s) P(S | n)

P(N | s) P(N | n)

Page 16: Sistemas de Interacción Natural (4e)

Relationship between error rate and decision criterion (threshold) in speaker verification

0012-10

Err

or r

ate

Decision criterion (Threshold)

1

0

FR= P (N | s)

FA= P (S | n)

a c b

Equal Error Rate

EER

Page 17: Sistemas de Interacción Natural (4e)

Receiver operating characteristic (ROC) curves; performance examples of three speaker verification systems: A, B, and D

0012-11

1

10 P (S | n)

P (

S |

s)A

B

Da

b

Page 18: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)Curvas ROC Curvas DEC

Page 19: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)

We have found it useful in speech applications to use a variant of this which we call the DET (Detection Error

Tradeoff) Curve, described below.

In the DET curve we plot error rates on both axes, giving uniform treatment to both types of error, and use a scale for both axes which spreads out the plot and better distinguishes different well performing systems and usually produces plots that are close to linear.

Page 20: Sistemas de Interacción Natural (4e)

Recognition error rates as a function of population size in speaker identification and verification

0103-23

20

10

5

2

1

0.5

0.2

0.12 5 10 20 50 100

Male Female

IdentificationVerification

Rec

ogni

tion

err

or r

ate

(%)

Size of population

Page 21: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz

Reconocimiento de Locutor: Prestaciones (La Granja)

SHEEP, GOATS, LAMBS and WOLVESA Statistical Analysis of Speaker Performance

in the NIST 1998 Speaker Recognition Evaluation

George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4,1 National Institute of Standards and Technology, 2 The Johns Hopkins University3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International

Page 22: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz

Reconocimiento de Locutor: Prestaciones (La Granja)

Sheep (ovejas) – Sheep comprise our default speaker type. In our model, sheep dominate the population and systems perform nominally well for them.

Goats (cabras) – Goats, in our model, are those speakers who are particularly difficult to recognize. Goats tend to adversely affect the performance of systems by accounting for a disproportionate share of the missed detections. The goat population can be an especially important problem for entry control systems, where it is important that all users be reliably accepted.

Page 23: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz

Lambs (corderos) – Lambs, in our model, are those speakers who are particularly easy to imitate. That is, a randomly chosen speaker is exceptionally likely to be accepted as a lamb. Lambs tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if lambs can be identified, either through trial and error or through correlation with other directly observable characteristics.

Wolves (lobos) – Wolves, in our model, are those speakers who are particularly successful at imitating other speakers. That is, their speech is exceptionally likely to be accepted as that of another speaker. Wolves tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if wolves can be identified and recruited to defeat systems.

Page 24: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de Locutor Estructura de un Sistema de Reconocimiento de Locutor

Tratamiento Digital de VozTratamiento Digital de Voz

ResultadoReconocimiento

Señalde Voz

Entrenamiento

Reconocimiento

ExtracciónDe

Características

Modelos/Patronesde referencia

para cada Locutor

Comparación(Distancia)

Speech Recognition Technology in theUbiquitous/Wearable Computing Environment Sadaoki Furui

http://www.furui.cs.titech.ac.jp/

Page 25: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de Locutor Otros aspectos importantes:

Tratamiento Digital de VozTratamiento Digital de Voz

ResultadoReconocimiento

Señalde Voz

ExtracciónDe

Características

Modelos/Patronesde referencia

para cada Locutor

Comparación(Distancia)

Detector deActividad

CanceladorDe

Ecos

“Compensación”De

Ruido

Page 26: Sistemas de Interacción Natural (4e)

Identificación

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

• • •

SimilaritySimilarity

SimilaritySimilarity

SimilaritySimilarity

Referencetemplate or model

(Speaker #N)

Referencetemplate or model

(Speaker #N)

Referencetemplate or model

(Speaker #2)

Referencetemplate or model

(Speaker #2)

Referencetemplate or model

(Speaker #1)

Referencetemplate or model

(Speaker #1)

FeatureextractionFeature

extractionMaximumselection

Maximumselection

Speechwave

Identificationresult

(Speaker ID)

Page 27: Sistemas de Interacción Natural (4e)

Verificación

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Speechwave

Identificationresult

(Accept / Reject)

Speaker ID(#M)

SimilaritySimilarity

Referencetemplate or model

(Speaker #M)

Referencetemplate or model

(Speaker #M)

FeatureextractionFeature

extraction DecisionDecision

ThresholdThreshold

Page 28: Sistemas de Interacción Natural (4e)

Decisión

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Distance

Intra-speaker distance

Inter-speaker distance

DB

DB

Dis

trib

utio

n

Page 29: Sistemas de Interacción Natural (4e)

Objetivo: obtener un modelo del locutor Para discriminación, no para codificación ni síntesisMarco de Trabajo: Reconocimiento de PatronesEl clasificador óptimo es el clasificador de Bayes

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

contrario caso en (rechazo) ˆ

)/( y )/ˆ(max)/( si ˆ :iónClasificac

,......, ,....,

Clases ------- nesObservacio

o

iˆii

L212

OOO

oooO 1

ppp

T

Page 30: Sistemas de Interacción Natural (4e)

“Todo” lo necesario es conocer la función de probabilidad

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

O

)/( 1 Op)/( 2 Op

)/( 3 Op

Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo

Page 31: Sistemas de Interacción Natural (4e)

“Todo” lo necesario es conocer la función de probabilidad

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

O

)/( 1 Op

)/( 2 Op

)/( OLp

...

.

.

.

Max Rechazo ̂

Page 32: Sistemas de Interacción Natural (4e)

PERO: la función de probabilidad “nunca” se conoce: forma paramétrica desconocida y cantidad de datos de estima (entrenamiento) limitados

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

O

)/( 1 Op

)/( 2 Op

)/( OLp

...

.

.

.

Max Rechazo ̂

NO UN CLASIFICADOR ÚNICONO UN CLASIFICADOR ÚNICOFunciones deFunciones deDiscriminaciónDiscriminación

Page 33: Sistemas de Interacción Natural (4e)

De una forma simplificada podemos considerar:Por la técnica de clasificación:

Clasificadores no-paramétricos Clasificadores paramétricos (Discriminativos)

Atendiendo al tipo de información empleada: Clasificadores a partir de información a largo plazo Clasificadores a partir de información a corto plazo

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 34: Sistemas de Interacción Natural (4e)

0012-13

(b) short-term information based method

Inputspeech

Speakeridentity

Paterns

FeatureextractionFeature

extraction DecisionDecisionAccumulationAccumulationParametric orNon-ParametricParametric or

Non-Parametric

(a) Long-term-statistics-based method

Inputspeech

Speakeridentity

Reference templatesor models

FeatureextractionFeature

extraction DecisionDecisionDistance

orsimilarity

Distanceor

similarity

Long-termstatistics

Long-termstatistics

Average, variance,correlation, MAR

Page 35: Sistemas de Interacción Natural (4e)

Por la técnica de clasificación... Clasificadores no-paramétricos:

No hacen ninguna hipótesis sobre el modelo de distribución de la voz del locutor

Se basan completamente en los datos de entrenamiento

Un ejemplo típico serían los sistemas de Reconocimiento Un ejemplo típico serían los sistemas de Reconocimiento Independientes del Locutor basados en Cuantificación VectorialIndependientes del Locutor basados en Cuantificación Vectorial

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 36: Sistemas de Interacción Natural (4e)

Vector quantization (VQ)-based text-independent speaker recognition

0103-19

Spectral envelopes Speaker-specific codebook

Page 37: Sistemas de Interacción Natural (4e)

Cuantificador Vectorial

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Representa el conjunto de vectores de ENTRENAMIENTO XX={x1,x2, ... xN} por un

número pequeño de representantes (centroides) YY={y1, y2, ... yM} (M<N)

• Fase 1. Determinación de los representantes– Medida de distancia d(xi, yj)

– Entrenamiento: Codebook YY

• Fase 2. Asignación del centroide más próximo– Cuantificación de una observación o jkyodyodyoQ kjj ),(),(

Page 38: Sistemas de Interacción Natural (4e)

Entrenamiento CV algoritmo LBG

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Primer centroide

D? N?

Duplicación

Asignación de vectores

Cálculo de centroides

SISI

NO

NO

Page 39: Sistemas de Interacción Natural (4e)

Cuantificación

Asunción Moreno

Universidad Politécnica de Cataluña

Page 40: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 41: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 42: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 43: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 44: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 45: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 46: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 47: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 48: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 49: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 50: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 51: Sistemas de Interacción Natural (4e)

Entrenamiento

x

y

Page 52: Sistemas de Interacción Natural (4e)

Cuantificación

x

y

Page 53: Sistemas de Interacción Natural (4e)

VQ Performance on Unseen Data

Ramachandran & Mamone (eds) ‘Modern Methods of Speech Processing’ Kluer Academic, 1995

Page 54: Sistemas de Interacción Natural (4e)

Reconocimiento de VozReconocimiento de Voz

Reconocimiento de Locutor: Prestaciones (La Granja)

SHEEP, GOATS, LAMBS and WOLVESA Statistical Analysis of Speaker Performance

in the NIST 1998 Speaker Recognition Evaluation

George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4,1 National Institute of Standards and Technology, 2 The Johns Hopkins University3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International

Page 55: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Inputspeech

Speakeridentity

VQ codebooks

FeatureextractionFeatureextraction DecisionDecisionAccumulationAccumulationVQ distortionVQ distortion

jkyodyodyoQ

con

oQ

yyy

ooo

kjj

T

tt

L

M

LL

T

),(),(

D

or Lpara LocutAcumulada Distancia

}.... ,,{VQ

Locutor Ldel VQ elpara DistanciadeMedida

Ceps) CepsCeps :sticas(caracterí

nesObservacio deSecuencia } ... ,,{

1

L

21

L

21O

Independencia de Texto

Observaciones independientes

Page 56: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor mediante CV El cuantificador vectorial “representa” la distribución estadística de los datos Otras técnicas de entrenamiento:

Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN(técnicas de gradiente -> Redes Neuronales)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 57: Sistemas de Interacción Natural (4e)

Por la técnica de clasificación... Clasificadores paramétricos (I):

Son los más utilizados en Reconocimiento

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

acústica adprobabilid :)/(

Lenguajede Modelo-Gramática

fraseuna pronuncie se que de adprobabilid

HABLAde IENTO RECONOCIMEn

esequiprobal Locutores

)(

ilocutor elsea que de prioria adprobabilid :)(

interviene no :)(

)(

)()/()/(

)/( :necesita bayesianoor Clasificad

i

i

i

iii

i

O

O

O

OO

O

p

p

p

p

p

ppp

p

Page 58: Sistemas de Interacción Natural (4e)

Por la técnica de clasificación... Clasificadores paramétricos (II):

Utilizan una representación paramétrica explícita de la probabilidad acústica:

Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}

Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

)/( iOp

)/( iOp

Page 59: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

)/( iOp

)/( iOp

Page 60: Sistemas de Interacción Natural (4e)

Clasificadores paramétricos: GMM (Gaussian Mixture Models)

Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

ticas)caracterís vector D(dimensión Normal óndistribuci ,

1)a igual es pesos de(suma imezcla la para peso

imezcla la de diagonal) nte(generalme scovarianza de matriz

imezcla la de medias de vector

mezclas de número

siendo,

,)/(1

ii

i

i

i

ii

M

ii

N

c

M

Ncp

Σμ

Σ

μ

ΣμO o

Page 61: Sistemas de Interacción Natural (4e)

Clasificadores paramétricos: GMM (Gaussian Mixture Models)

Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}

La combinación de gaussianas se aproxima a la distribución de los datos.

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

oΣμO ii

M

ii Ncp ,)/(

1

Page 62: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 63: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 64: Sistemas de Interacción Natural (4e)

Identificación con GMMs

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

• • •Feature

extractionFeatureextraction

MaximumselectionMaximumselection

Speechwave

Identificationresult(Speaker ID)

)/( 1Op

)/( 2Op

)/( LOp

T

tt

T

tt

T

op

op

p

tudVerosimili

ooo

1i

1i

i

21

)]/(log[

logaritmos utilizando o

)/(

)/(

i"" Locutor elpara acumulada""

Ceps) CepsCeps :sticas(caracterí

nesObservacio deSecuencia } ... ,,{

O

O

Page 65: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Verificación con GMMs : Normalización

• Likelihood ratiolog L(O) log p(O= c) log p(O c)

c : identidad supuesta

• A posteriori probabilitylog L(O) log p(O = c) log p(O )

Ref : locutor de referencia o cohorte de locutores

• Modelo Universallog L(O) log p(O = c) log p(O

UBM)

UBM : Universal Background Model

• Likelihood ratiolog L(O) log p(O= c) log p(O c)

c : identidad supuesta

• A posteriori probabilitylog L(O) log p(O = c) log p(O )

Ref : locutor de referencia o cohorte de locutores

• Modelo Universallog L(O) log p(O = c) log p(O

UBM)

UBM : Universal Background Model

SRefSRef

Page 66: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 67: Sistemas de Interacción Natural (4e)

Clasificadores paramétricos: GMM (Gaussian Mixture Models)

Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}

¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar

Técnicas de Entrenamiento:ML (Maximum Likelihood)MAP (Maximun a posteriori)Similares resultados si no hay información a priori, pero MAP válida para adaptación

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

oΣμO ii

M

ii Ncp ,)/(

1

Page 68: Sistemas de Interacción Natural (4e)

Entrenamiento ML

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

ion) Maximizaton(Expectati EM Iterativo Algoritmo

)]/(log[ max argˆ

:eequivalent es que lo o

)/( max argˆ

:maximiza que el es para MLestimador El

Ceps) CepsCeps :sticas(caracterí

} ... ,,{

ENTO ENTRENAMIde nesObservacio deSecuencia una Dada

1

21

T

tt

T

op

p

ooo

O

O

Page 69: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

Page 70: Sistemas de Interacción Natural (4e)

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Page 71: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor => Reconocimiento de Habla

Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto

PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”)

Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

Tratamiento Digital de VozTratamiento Digital de Voz

Page 72: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

Tratamiento Digital de VozTratamiento Digital de Voz

C A S A

ENVENTANADO

V3 V4 V5 V6V2V1 PATRÓN}{

ANÁLISIS

Page 73: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)

ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario

RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer.

Tratamiento Digital de VozTratamiento Digital de Voz

PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco

SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)

),()Re,Re( ReRe fi

coi oodfPcoPd

Page 74: Sistemas de Interacción Natural (4e)

Tratamiento Digital de VozTratamiento Digital de Voz

1 5 6 7 8432

5

4

3

2

1PALABRAA RECONOCER(TIEMPO)

PATRÓNDE REFERENCIA(TIEMPO)

Page 75: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping

Tratamiento Digital de VozTratamiento Digital de Voz

Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica)

g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)}

1 < i < I ( nº tramas de Preco )

1 < j < J ( nºtramas de Pref )

g(i,j)

g(i,j-1)g(i-1,j-1)

g(i-1,j)

La distancia entrel el PRef y el PReco d(PRef, PReco) será:

d(Preco, Pref) = g(I,J) / I+J

Page 76: Sistemas de Interacción Natural (4e)

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)

Tratamiento Digital de VozTratamiento Digital de Voz

1 5 6 7 8432

5

4

3

2

1PALABRAA RECONOCER(TIEMPO)

PATRÓNDE REFERENCIA(TIEMPO)

Page 77: Sistemas de Interacción Natural (4e)

Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/ con secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado

Reconocimiento de HablaReconocimiento de Habla

Page 78: Sistemas de Interacción Natural (4e)

HMM (Hidden Markov Models) IMPORTA la secuencia de sonidos DEFINICIÓN DE UN HMM :

Topología (izquierda – derecha; saltos; no. estados)

Probabilidades de transión entre estados aij

Probabilidades de comenzar en el estado i: i

Probabilidades de observación de cada estado bi(Ot)

Reconocimiento de HablaReconocimiento de Habla

a55a11 a22 a33 a44

a24

a23 a34 a45

a13 a35

a12

Caso sencillo: HMM de una palabra L: L

Page 79: Sistemas de Interacción Natural (4e)

HMM (Hidden Markov Models)

Reconocimiento de HablaReconocimiento de Habla

a55a11 a22 a33 a44

a24

a23 a34 a45

a13 a35

a12

Caso sencillo: HMM de una palabra i: i

No. Estados: ¿no. sonidos ? ¿no. Medio de tramas / sonido?

“lógica propia del modelado HMM”

i = “siete” S1=/s/ S2=/i/ S3=/e/ S4=/t/ S5=/e/

Page 80: Sistemas de Interacción Natural (4e)

HMM (Hidden Markov Models)

Reconocimiento de HablaReconocimiento de Habla

a55a11 a22 a33 a44

a24

a23 a34 a45

a13 a35

a12

Caso sencillo: HMM de una palabra L: L

aij : duración de los sonidos en cada estado (?)

Probabilidad de comenzar en el estado i: i

Izquierda – derecha: 1 =1 ; i =0 i != 0

)(,, tL

iLL

w obAL

iaN

jij

11

Page 81: Sistemas de Interacción Natural (4e)

HMM (Hidden Markov Models)

Reconocimiento de HablaReconocimiento de Habla

Probabilidades de observación de cada estado bi(Ot):

Continua (mezcla de gaussianas)

Discreta (Cuantificador vectorial + probabilidades centroides)

Semicontinua (gaussianas compartidas)

mezclas de numero

mezclas las de Pesos

) varianzassólo :diagonal nte(generalme

i estado elpara k gaussiana la de covarianza de Matriz

i estadopara k gaussiana la de medias devector

,)(1

K

c

NcOb

k

ik

ik

ik

ik

K

kkti

Σ

μ

Σμ o

mezclas de numero

mezclas las de Pesos

) varianzassólo :diagonal nte(generalme

i estado elpara k gaussiana la de covarianza de Matriz

i estadopara k gaussiana la de medias devector

,)(1

K

c

NcOb

k

ik

ik

ik

ik

K

kkti

Σ

μ

Σμ o

Page 82: Sistemas de Interacción Natural (4e)

HMM (Hidden Markov Models)

Reconocimiento de HablaReconocimiento de HablaR

esultad

oR

esultad

o

DECISOR

1

3...............................................................

L

RECONOCIMIENTO

P(O/ 1)

P(O/ )

P(O/ 3)

P(O/ L)

XIM

O

2

Rechazo

Confianza

N-Best

Page 83: Sistemas de Interacción Natural (4e)

Eduardo Lleida Solano

Dpt. de Ingeniería Electrónica y Comunicaciones

Universidad de Zaragoza

Page 84: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Las Bases

Utilizando la fórmula de Bayes

)(

)()|()|(

OP

WPWOPOWP

P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O

Fórmula del Reconocedor

)()|(arg WPWOPmaxWW

Modelo Acústico Modelo de Lenguaje

Page 85: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Page 86: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Page 87: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Page 88: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Page 89: Sistemas de Interacción Natural (4e)

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza