Universidad Central “Marta Abreu” de Las Villas

Universidad Central “Marta Abreu” de Las Villas

Facultad de Matemática Física y Computación

Licenciatura en Ciencia de la Computación

TRABAJO DE DIPLOMA

Extracción de características de la voz utilizando el pitch para sistemas de verificación automática del locutor.

Autor: Ariel De Armas Toledo

Tutor: MSc. Roberto Díaz Amador

Santa Clara

2011

“Año 53 de la Revolución”

Universidad Central “Marta Abreu” de Las Villas

Facultad de Matemática Física y Computación

Licenciatura en Ciencia de la Computación

TRABAJO DE DIPLOMA

Extracción de características de la voz utilizando el pitch para sistemas de verificación automática del locutor.

Autor: Ariel De Armas Toledo

Tutor: MSc. Roberto Díaz Amador

Santa Clara

2011

“Año 53 de la Revolución”

Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central

“Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad

de Licenciatura en Ciencia de la Computación, autorizando a que el mismo sea utilizado

por la Institución, para los fines que estime conveniente, tanto de forma parcial como total

y que además no podrá ser presentado en eventos, ni publicados sin autorización de la

Universidad.

Firma del Autor

Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo

de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un

trabajo de esta envergadura referido a la temática señalada.

Firma del Autor Firma del Jefe de Departamento

donde se defiende el trabajo

Firma del Responsable de

Información Científico-Técnica

i

PENSAMIENTO

El conocimiento no es algo separado y que se baste a sí mismo, sino que está envuelto

en el proceso por el cual la vida se sostiene y se desenvuelve.

ii

DEDICATORIA

Le dedico este trabajo a mi madre Olga Lidia Toledo Dorta, a mi hermana Arlett De Armas

Toledo, a mi novia Lianet Gómez Pérez, a mi familia en general, a todos mis amigos. A

todos ellos les agradezco todo el esfuerzo y paciencia que han tenido conmigo durante el

transcurso de estos largos años. No tendré nunca como pagar todo lo que de una forma u

otra han hecho por mí. De una forma especial quiero dedicarle este trabajo a mi padre

Amaury De Armas Machado, quien en vida se hubiese sentido muy orgulloso del

resultado que significa la finalización de este trabajo de diploma. A todos ellos:

¡Muchas gracias!

iii

AGRADECIMIENTOS

Le doy las gracias al profesor Roberto Díaz Amador por su apoyo en la confección de

este trabajo de diploma.

iv

TAREA TÉCNICA

1. Revisión del Estado de Arte de los métodos de extracción de características

acústicas para sistemas de Verificación automática del Locutor, Reconocimiento

de voz o Reconocimiento del Locutor.

2. Implementación en Matlab de diferentes métodos de extracción de características

acústicas descritos en el Estado del Arte, que incluyan información de la

Frecuencia Fundamental.

3. Diseño, de ser posible, de una alternativa que contenga las ventajas de varias de

las descritas en el Estado del Arte.

4. Implementación de una interfaz amigable en Matlab, que permita la extracción de

características acústicas del locutor y la obtención de estas en formatos

compatibles con herramientas de verificación existentes o en desarrollo para el uso

de las pruebas.

Firma del Autor Firma del Tutor

v

RESUMEN

Los Sistemas de Control de Acceso, la Autentificación de Clientes y otros sistemas

biométricos constituyen una aplicación de los Sistemas de Verificación del Locutor. La

mayoría de estas aplicaciones requieren de altos niveles de confiabilidad, por esta razón

se han logrado introducir técnicas que permitan un buen funcionamiento de estos

sistemas. Sin embargo se dedican grandes esfuerzos en la actualidad, orientados a lograr

una mayor fiabilidad de estos sistemas, constituyendo un campo muy amplio de

investigación. Dentro de los problemas aún sin resolver, se encuentra lograr obtener

rasgos de la voz, que permitan discriminar mejor entre todos los locutores de un sistema.

En este trabajo se implementan los métodos de extracción de características PHCC (Pitch

Harmonics Cepstral Coefficients), y el PSMFCC (Pitch Synchronous Mel-Frequency

Cepstral Coefficients) y se propone el método PSPHCC (Pitch Synchronous Harmonics

Cepstral Coefficients). El funcionamiento de los tres métodos se verificó con un sistema

basado en Modelos Ocultos de Markov. Con los métodos implementados se obtienen

96% de exactitud del sistema y un EER de 1.43 %, contra un 93% y un EER 2.18% por

parte del algoritmo MFCC (Mel Frequency Cepstral Coefficients) tradicional. Como

resultado final se desarrolló el software PHaSe-SAEC, que permite la extracción de las

características del locutor por los métodos descritos en este trabajo y la obtención de los

mismos en ficheros compatibles con el sistema HTK y el sistema Weka.

vi

ABSTRACT

Access Control Systems, Client Authentication and other biometric systems are an

application of the Speaker Verification. Most of these applications require high levels of

reliability, for this reason they have managed to introduce techniques to smooth

functioning of these systems. However devoted great efforts currently aimed at achieving

greater reliability of these systems, providing a wide field of research. Among the problems

still unsolved, is able to obtain the voice features that allow better discrimination between

all speakers in a system. In this paper we implement the feature extraction methods PHCC

(Pitch Harmonics Cepstral Coefficients) and PSMFCC (Pitch Synchronous Mel-Frequency

Cepstral Coefficients) and the method proposed PSPHCC (Pitch Synchronous Harmonics

Cepstral Coefficients). The operation of the three methods was verified with a system

based on Hidden Markov Models. With the methods implemented are obtained 96%

accuracy of the system and an EER of 1.43%, against 93% and 2.18% EER by MFCC

(Mel Frequency Cepstral Coefficients) traditional algorithm. The end result is a software

PHaSE-SAEC, which allows the extraction of characteristic of the speaker by the methods

described in this work and getting them into files compatible with the HTK and the WEKA

system.

INTRODUCCIÓN 1

TABLA DE CONTENIDOS

ABSTRACT ........................................................................................................................... vi

CAPÍTULO 1. Generalidades de los Sistemas de Verificación del Locutor. .......... 6

1.1 Verificación Automática del Locutor. .................................................................. 6

1.2 Extracción de características acústicas. ............................................................ 8

1.2.1 Métodos de Extracción de Características Tradicionales. ...................... 9

1.2.1.1 Transformada de Fourier ............................................................................... 9

1.2.1.2 Coeficientes de Prediccion Lineal. ............................................................... 10

1.2.1.3 Coeficientes de Predicción Lineal Perceptual............................................ 11

1.2.1.4 Coeficientes Cepstrales. ............................................................................... 11

1.2.1.5 Coeficientes Mel-Cepstrales. ........................................................................ 12

1.2.1.6 Coeficientes Delta y Delta-Delta. ................................................................. 12

1.3 Rasgos emergentes en los últimos 10 años. .................................................. 13

1.4 Creación de modelos del locutor. ..................................................................... 13

1.4.1 Estrategias de Clasificación: Evolución Histórica y Estado Actual. ..... 14

1.4.2 Algoritmos de clasificación. ........................................................................ 15

1.4.2.1 Modelos Ocultos de Markov (HMM) ........................................................... 15

1.4.2.2 Redes Neuronales Artificiales. ..................................................................... 16

1.4.3 Etapa de entrenamieto y creación del sistema de verificación. ........... 18

1.5 Conclusiones del Capítulo. ................................................................................ 19

CAPÍTULO 2. MATERIALES Y MÉTODOS ............................................................... 20

2.1 Generalidades ...................................................................................................... 20

2.1.1 Enventanado de la señal de voz. .............................................................. 20

2.1.2 Detección de tramas sordas y sonoras. ................................................... 22

2.1.3 Mapeo de la señal del dominio del tiempo al dominio cepstral. ........... 23

INTRODUCCIÓN 2

2.2 Algoritmos de obtención de rasgos. ................................................................. 24

2.2.1 PHCC (Pitch Harmonics Cepstral Coefficients). ..................................... 24

2.2.2 PSMFCC (Pitch Synchronous Mel-Frequency Cepstral Coefficients). 29

2.2.3 PSPHCC(Pitch Synchronous Harmonics Cepstral Coefficients).......... 32

2.3 Conclusiones del capítulo .................................................................................. 33

CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ........................................................... 34

3.1 Plataforma Matlab. .............................................................................................. 34

3.2 Introducción al PHaSe-SAEC. ........................................................................... 35

3.2.1 Manipulación práctica en el ambiente PHaSe-SAEC. ........................... 36

3.3 Descripción del experimento. ............................................................................ 41

3.3.1 Base de Datos „‟ TIDIGITS‟‟. ........................................................................... 42

3.3.2 Creación de los modelos del locutor. ............................................................. 43

3.3.3 Etapa de Verificación........................................................................................ 43

3.4 Resultados por algoritmos. ................................................................................ 44

3.4.1 Resultados del PHCC (Pitch Harmonics Cepstral Coefficients). ......... 44

3.4.2 Resultados del PSMFCC (Pitch Synchronous Mel-Frequency Cepstral

Coefficients). ............................................................................................................... 44

3.4.3 Resultados del PSPHCC (Pitch Synchronous Harmonics Cepstral

Coefficients). ............................................................................................................... 44

3.5 Conclusiones de capítulo. .................................................................................. 45

CONCLUCIONES Y RECOMENDACIONES ................................................................ 46

REFERENCIAS BIBLIOGRÁFICAS................................................................................ 48

ANEXOS .............................................................................................................................. 50

Anexo I Tabla de errores cometidos por el HMM por cada locutor. ...................... 50

Anexo II Sistema PHaSe-SACE ............................................................................ 53

INTRODUCCIÓN 3

INTRODUCCIÓN

Las aplicaciones de los Sistemas de Verificación del Locutor (SVS, siglas en inglés) son

cada vez más frecuentes en distintas ramas, tales como la banca telefónica, aplicaciones

forenses, y aplicaciones de autentificación y seguridad en general , lo que presupone un

esfuerzo por contar con sistemas cada vez más confiables.

La génesis de estos sistemas estuvo muy vinculada a sistemas de reconocimiento de

palabras para la interacción hombre-máquina, y lo que se puede llamar la época de oro

comenzó a partir de 1996 con las competencias del National Institute of Standars and

Technology (NIST), que sirven de evaluación a sistemas propuestos por investigadores de

todo el mondo, utilizando la misma base de datos. Estas competencias cada año están

orientadas a mejorar una de las partes que componen los sistemas de reconocimiento de

locutor independiente de texto. Aunque básicamente no es lo mismo la verificación del

locutor, que el reconocimiento del locutor, muchas de las técnicas que se usan en uno son

extensibles al otro.

Un sistema de verificación esta compuesto por dos partes fundamentales, la de

entrenamiento de un modelo que caracterice a los locutores y la de verificación

propiamente dicha. En cada una de estas partes es necesario un bloque de extracción de

rasgos, estos rasgos son utilizados luego para realizar un modelo del locutor en la parte

de entrenamiento, o para realizar la comparación en la parte de verificación. Entre los

factores que afectan la calidad de estos sistemas se encuentran: 1) la variabilidad del

canal, 2) los métodos de entrenamiento del modelo y 3) la variabilidad de los rasgos que

caracterizan a cada locutor.

Los esfuerzos por mejorar el funcionamiento de estos sistemas están encaminados

fundamentalmente a resolver estos tres problemas. Los problemas asociados a la

variabilidad del canal, aunque es un problema no resuelto y es motivo de investigación,

han encontrado soluciones de alineamiento de rasgos, de substracción de media cepstral

y el algoritmo RASTA. Las áreas de investigación con respecto a este problema se

encuentran fundamentalmente vinculadas a la verificación utilizando un canal telefónico.

En el caso de los problemas asociados a los métodos de entrenamiento de los modelos,

se ha evolucionado de métodos de Comparación de Plantillas, Cuantización Vectorial y

Alineamiento Temporal Dinámico (DTW, siglas en inglés), todos empleados desde la

INTRODUCCIÓN 4

década de 1960, hasta modelos estocásticos que incluyen Modelos Ocultos de Markov

(HMM), Modelos de Mezclas de Gaussianas (GMM), modelos que utilizan Redes

Neuronales Artificiales y Máquinas de Soporte Vectorial (SVM), que comenzaron a

emplearse a partir de la última mitad de la década de 1990. Desde luego este también es

un campo de investigación abierto, sobre todo en lo referente al uso de Redes Neuronales

por la gran variedad que existen y por la complejidad del problema.

La variabilidad de los rasgos que caracterizan a cada locutor, aunque ha sido igualmente

un problema muy tratado en la literatura, sigue siendo un campo de investigación, sobre

todo orientado hacia la búsqueda de rasgos o características de la voz que discriminen

mejor a un locutor de otro. Los rasgos más utilizados hasta el momento han sido los que

dependen solamente de los aspectos fisiológicos y acústicos, quedando un poco menos

explotados aspectos prosódicos, sobre todo porque estos últimos presentan una mayor

dificultad para su obtención. En este sentido, los más utilizados han sido los Coeficientes

Cepstrales en la Escala de Mel (MFCC por sus siglas en inglés), aunque en los últimos

años, ha proliferado un número importante de trabajos que explotan otras alternativas, o

incluyen pequeñas variaciones a los clásicos MFCC, sobre todo con el objetivo de

incorporar información del período fundamental de la voz, (F0).

El problema afrontado en este trabajo consiste en mejorar el funcionamiento de un

sistema de verificación del locutor dependiente del locutor, incorporando de distintas

maneras de información referente al pitch. Para ello, se propone el siguiente objetivo:

OBJETIVO GENERAL

Implementar, utilizando Matlab, algoritmos de extracción de características acústicas

discriminativas del locutor que incorporen información del pitch, para mejorar el

funcionamiento de Sistemas de Verificación Automática, el cual se puede desglosar en los

siguientes objetivos específicos:

OBJETIVOS ESPECÍFICOS

1. Implementar el algoritmo de PHCC para la extracción de características acústicas.

2. Implementar el algoritmo PSMFCC para la extracción de características acústicas.

3. Combinar las características ventajosas de los algoritmos PHCC y PSMFCC, en un

nuevo algoritmo de extracción de características.

INTRODUCCIÓN 5

4. Desarrollar en una interfaz amigable los algoritmos desarrollados que permita obtener

las características acústicas en los formatos htk y arff para su posterior uso en

sistemas ya desarrollados o en desarrollo.

El informe se divide en 3 Capítulos, el primero dedicado a la caracterización de los

diferentes métodos de extracción de parámetros acústicos del locutor, el segundo a la

descripción de los algoritmos desarrollados o propuestos y el tercero a la descripción del

software realizado y de los principales resultados obtenidos.

CAPÍTULO 1. Generalidades de los Sistemas de Verificación del Locutor. 6

CAPÍTULO 1. Generalidades de los Sistemas de

Verificación del Locutor.

En este capítulo se explica el funcionamiento de los Sistemas de Verificación del Locutor

refiriéndose brevemente a cada uno de los bloques fundamentales que lo integran, a

saber, la extracción de parámetros acústicos, la creación de los modelos del locutor, y el

bloque de verificación. Se realiza un análisis de los diferentes métodos utilizados en la

extracción de los parámetros acústicos y sus limitaciones y se especifica la dirección en

que se orienta este trabajo con el objetivo de mejorar el funcionamiento de los sistemas

de verificación del locutor a partir de modificar el bloque de extracción de rasgos.

1.1 Verificación Automática del Locutor.

La verificación automática del locutor pertenece a un conjunto de novedosas técnicas que

actúan sobre la señal de voz para extraer información de manera automática. Entre estas

técnicas se encuentran el reconocimiento de la voz o de las frases (Campbell Jr, 1997), el

reconocimiento del idioma (Campbell et al., 2006), la identificación del locutor (Reynolds,

2002), y la verificación del locutor (Burget et al., 2007) propiamente dicha. Todas estas

técnicas tienen algunas características comunes, como son la extracción de rasgos

distintivos a partir de la información contenida en la voz y la creación de sistemas que

„aprendan‟ a partir de esos rasgos. Para el caso de sistemas de identificación y sistemas

de verificación, estos pueden ser dependientes del texto o independientes del texto, en

dependencia de si las palabras o frases pronunciadas tienen que ser de un diccionario

limitado como dígitos aislados o números telefónicos, o si puede tratarse de cualquier

palabra.

En el caso particular de la identificación del locutor, esta consiste en almacenar grandes

bases de datos las características de la voz de varios locutores para luego asignarle a un


locutor dado la identidad del individuo que mejor se aproxime a las características de su

voz. La Figura 1. 1 (a) muestra un esquema de este tipo de sistema.

Los sistemas de Verificación del Locutor, que son los tratados en este trabajo, consisten

en crear modelos con las características de los locutores para luego verificar si un locutor

es o no quien dice ser, de acuerdo al modelo que lo identifica. (Figura 1. 1 b) En los

sistemas de verificación sólo existen dos respuestas posibles: aceptar al locutor o

rechazar al locutor, las cuales dependen de un determinado umbral. Esto provoca que se

puedan dar cuatro casos en el momento de decidir la respuesta en el sistema, de las

cuales dos de ellas son correctas y las restantes incorrectas:

Aceptar un locutor registrado (Respuesta correcta).

Rechazar un locutor impostor (Respuesta correcta).

Aceptar un impostor (Respuesta incorrecta).

Rechazar un locutor registrado (Respuesta incorrecta).

(a) (b)

Figura 1. 1: Estructuras básicas de los sistemas automáticos de reconocimiento y verificación del locutor.

Los errores cometidos en el tercer y cuarto caso por el sistema se nombran Error de

Falsa Aceptación (FAR) y Error de Falso Rechazo (FRR) respectivamente. Generalmente

se diseñan sistemas tratando de disminuir a la vez los FAR y los FRR, el punto donde

ambos son mínimos se denomina punto de igual razón de error (EER).

En resumen, los sistemas de verificación del locutor (SVL) están formados

fundamentalmente por dos bloques básicos fundamentales, el primero es el bloque de

aprendizaje, donde el sistema aprenderá sobre rasgos importantes que caracterizan a los

locutores y un segundo bloque, el cual tiene como actividad fundamental tomar la decisión


de aceptar o rechazar al individuo que intenta autentificarse. Cada uno de estos bloques

va antecedido por un bloque de extracción de características acústicas que deben

caracterizar al locutor.

Los epígrafes que siguen se dedicaran a explicar brevemente las diferentes alternativas

de extracción de características acústicas y creación de modelos del locutor.

1.2 Extracción de características acústicas.

La extracción de características acústicas es el proceso de convertir la señal de voz en

algún tipo de representación paramétrica sumamente compactada para su posterior

análisis. Como se observa en la Figura 1. 2, la señal de voz varía muy lentamente en el

tiempo en periodos de hasta 30 ms (tiene características estacionarias). Sin embargo para

periodos mayores las características de la señal cambian para reflejar los diferentes

sonidos de la voz. Por esto la manera más usual de representar a la señal de voz es

mediante un análisis espectral de cortos periodos de tiempo. No se usan periodos

menores los 20 ms porque ese es el tiempo mínimo necesario para que cambie la forma

del tracto vocal en cualquier locutor. (Quatieri and Room, 2009)

Figura 1. 2: Señal de voz en el dominio del tiempo.

Los parámetros acústicos son un conjunto de parámetros característicos de la voz y en

consecuencia del locutor, en el momento de cada alocución. Estos parámetros pueden

ser estáticos o dinámicos. En el caso de ser estáticos constituyen una „fotografía‟ en el

dominio espectral, mientras que los dinámicos constituyen la variación temporal de los

parámetros estáticos. Los parámetros necesarios para desarrollar el sistema son:


1) la semántica,

2) la entonación y ritmo,

3) los aspectos acústicos y físicos del locutor.

La semántica depende del lugar de nacimiento del locutor, de su estatus social y de su

educación, en tanto, el ritmo y la entonación dependen de su personalidad, la influencia

recibida de sus padres o del entorno. Esto hace que estos parámetros sean muy difíciles

de obtener (Reynolds, 2003, Reynolds, 2002). Los parámetros relacionados al aspecto

físico dependen solamente de la estructura anatómica del tracto vocal por lo que su

obtención es más fácil.

Los parámetros que se usan para estos sistemas deben cumplir con las siguientes

características:

1) Alta variación entre locutores.

2) Robustez ante imitación o fingimiento

3) Robustez ante distorsión y ruido.

1.2.1 Métodos de Extracción de Características Tradicionales.

Como se ha visto antes los distintos parámetros que pueden caracterizar a un locutor

tienen diferentes niveles de complejidad. En este trabajo se presentarán solamente

aquellos parámetros acústicos que dependen solo de la estructura anatómica del tracto

vocal y que se extraen con relativa facilidad a partir de la señal de voz. Algunos de ellos

serán utilizados posteriormente en la implementación de nuevas técnicas de extracción de

características. Los parámetros clásicos son “La transformada Discreta de Fourier”,

“Coeficientes de Predicción Lineal”, “Coeficientes de Predicción Lineal Perceptual”,

“Coeficientes Cepstrales”, “Coeficientes Delta y Delta-Delta o Coeficientes de Velocidad y

Aceleración”.

1.2.1.1 Transformada Discreta de Fourier

Entre los parámetros que se pueden utilizar en estos sistemas están los coeficientes de la

Transformada de Fourier (FT) de manera directa. Para ello, se segmenta la voz utilizando

ventanas en las cuales se puede considerar que la señal tiene un comportamiento

estacionario, la solución consiste en multiplicar la señal por la función ventana, lo que

tiene el inconveniente del fenómeno de Gibbs. La transformada de Fourier se define como

se muestra en la ¡Error! No se encuentra el origen de la referencia.


Donde N es el número de muestras de la ventana que se va a analizar.

Aunque para el cálculo de la Transformada de Fourier existen algoritmos eficientes que no

conllevan a un costo computacional excesivo, no suele utilizarse este método

directamente para extraer rasgos para la verificación del locutor debido a que los

algoritmos de verificación del locutor utilizando la FT no hacen uso del modelo Fuente-

Filtro de producción de la voz, por lo que no se aprovecha información como la que brinda

el pitch.

1.2.1.2 Coeficientes de Prediccion Lineal.

La Predicción Lineal es un proceso matemático que permite predecir sucesos futuros de

un sistema lineal, es decir, sin ramificaciones, a partir de los acontecimientos ya pasados.

El principio se basa en que la voz puede modelarse como un sistema lineal variante en el

tiempo (Markel, 1976). La idea básica es que el tracto vocal puede modelarse con una

serie de cilindros huecos de diámetros variable. Las propiedades de la onda sonora

después de haber pasado por todos ellos pueden predecirse teniendo en cuenta que cada

uno de los cilindros condiciona la forma de la onda sonora al entrar en el siguiente; este

cálculo se simplifica utilizando la predicción lineal y aprovechando la periodicidad de la

onda sonora. La función de transferencia del tracto vocal queda reducida a un conjunto de

coeficientes, que generalmente se fijan entre 10 y 12 para obtener una buena

caracterización de la envolvente espectral. Aunque desde el punto de vista esquemático

se ha explicado de manera muy sencilla este modelo desde el punto de vista matemático

y conceptual es muy sofisticado, pues se aprovecha de las características estocásticas de

la señal de voz. La idea principal es modelar una señal como una combinación lineal de

valores pasados o de valores pasados y presentes de una entrada hipotética cuya salida

es la señal deseada. Matemáticamente esto se muestra en la Ecuación 2

donde , y G son parámetros del sistema hipotético, s n k representa los valores

pasados de la señal y u[n -l] son valores de la entrada hipotética.

Los coeficientes del predictor se calculan resolviendo un sistema de ecuaciones utilizando

el algoritmo de Levinson-Durbin. Los Coeficientes de Predicción Lineal por si solos,

aunque se han usado en el reconocimiento de palabras aisladas (Borrero et al., 2011), no

se utilizan en verificación del locutor debido a que tienen un rango muy dinámico y por lo

tanto varían demasiado con pequeños cambios en la señal, además, tienen el

inconveniente de que no están relacionados con la forma en que el sonido es percibido


por el hombre. Es por ello que se utilizan modelos que se derivan de la predicción lineal

como el de Predicción Lineal Perceptual (PLP).

1.2.1.3 Coeficientes de Predicción Lineal Perceptual.

La técnica de extracción de parámetros acústicos mediante predicción lineal perceptual

(PLP) es una combinación de la Técnica de la Transformada de Fourier y la técnica de

Predicción Lineal. El objetivo de esta técnica es incluir en los coeficientes de predicción o

coeficientes de autorregresión del modelo, solo polos de información que se relacionen

más con la forma natural de percibir el sonido por el hombre. El primer paso para calcular

los coeficientes PLP es obtener las bandas críticas mediante la Transformada de Fourier,

determinar su espectro de frecuencias y se transfiere a la escala Bark. Luego se igualan

las alturas perceptuales y se aplica Transformada de Fourier inversa. Por último se

calculan los coeficientes de predicción o los coeficientes de auto-regresión. En la figura

1.3 se muestra un esquema. La principal limitación de este método está asociada al rango

dinámico de los coeficientes.

Figura 1. 3 Modelo de Predicción Lineal Perceptual

1.2.1.4 Coeficientes Cepstrales.

Hasta ahora se han visto un grupo de parámetros que caracterizan a la señal de voz, y

con ello al locutor, sin embargo, estos modelos no pueden separar la información de la

fuente del la información del filtro. Esto se debe a que la señal de voz es el resultado de la

convolución de la fuente y la función de transferencia del filtro en el dominio del tiempo, lo

que en el dominio de la frecuencia es el producto. La primera operación es demasiado

compleja como para tratar de hacer el inverso, mientras que el producto es una relación

no lineal, por esta razón no es posible separar la fuente del filtro en el dominio de

frecuencias. Es por esta razón que se utilizan los coeficientes cepstrales, que son


coeficientes definidos en un nuevo dominio, el dominio de la „quefrency‟. A una señal en el

dominio del tiempo que es el resultado de la convolución de una entrada con la función de

transferencia de un sistema se le puede hallar su transforma de Fourier, con lo que queda

representada en el dominio de la frecuencia como un producto entre la entrada y la

función de transferencia, si se quiere representar en el dominio cepstral, entonces se

necesita convertir ese producto en una suma, para ello se puede utilizar la función

logaritmo. De este modo, si s n es la señal de voz a analizar, el cepstrum se define como:

Los Coeficientes Cepstrales cs[n] permiten conocer la información del tracto vocal que se

encuentra en la parte baja del cepstrum y del filtro (glotis), que se encuentra en la parte

alta del cepstrum.

1.2.1.5 Coeficientes Mel-Cepstrales.

En general, en los estudios de verificación del locutor se han centrado los esfuerzos en

representar la voz de la misma manera que el oído humano es capaz de escuchar, dando

lugar a modelos perceptuales. Estos modelos se basan en el hecho de la percepción de

los tonos en los humanos no responde a una escala lineal. El resultado de esta idea es

mapear los coeficientes cepstrales a la escala de Mel, que es una escala no lineal

obtenida experimentalmente, esto da como resultado los llamados Mel Frequency

Cepstral Coefficients, (MFCC). En la práctica los MFCC se calculan utilizando un banco

de filtros triangulares, espaciados uniformemente en la escala Mel, que calculan el

promedio del espectro alrededor de la frecuencia central. Finalmente se calcula el

logaritmo de la energía de cada filtro, y el cepstrum en la escala Mel es la transformada

de coseno de las salidas de los filtros. Generalmente se utiliza un banco de filtros que

contiene entre 12 y 40 filtros, sindo lo más común utlizar entre 12 y 13. Los coeficientes

MFCC son los más utilizados en sistemas de verificación. (Bimbot et al., 2004)

1.2.1.6 Coeficientes Delta y Delta-Delta.

De manera conjunta con los coeficientes MFCC se utiliza la información sobre los

cambios temporales en el espectro (Furui S., 1986). En este sentido se utilizan los

coeficientes de primera y segunda derivada o coeficientes delta y delta-delta

respectivamente. Los coeficientes delta se definen como:

mientras que lo delta-delta se definen como:


Entonces por cada trama analizada de la señal de voz se tiene un vector de

características compuesto por los coeficientes MFCC, los coeficientes delta y los

coeficientes delta-delta. Por lo general se utilizan 13 coeficientes de cada tipo, dando un

vector de 39 elementos.

1.3 Rasgos emergentes en los últimos 10 años.

El los últimos años los sistemas de verificación del locutor han complejizado la extracción

de rasgos, introduciendo fundamentalmente información espectro-temporal y algún tipo de

información prosódica. (Kinnunen and Li, 2010). La prosodia del habla se refiere a la

entonación, energía y velocidad del habla. Es bien sabido que estos rasgos son

característicos de cada persona y por tanto aportan información acerca del locutor. Más

aún, la prosodia no está correlacionada con la forma de la envolvente espectral. Por tanto,

añadir dicha información a las características espectrales ya empleadas puede llevar a

una mejora de los resultados de los sistemas. En general en los últimos años se ha

intentado agregar información prosódica a largo plazo (M. J. Carey, 1996. ) (A. G. Adami,

2003. ) (B. Peskin, 2003) a los rasgos tradicionales descritos en el epígrafe 1.2.1. Otros

sistemas han intentado utilizar valores prosódicos tales como la entonación y curvas de

potencia muestreados por ventanas. (D. A. Reynolds, 2002). Sin embargo también se

han reportado experimentos donde el uso de estos últimos rasgos no ofrece una mejora

significativa al uso de los rasgos tradicionales. (I. Luengo), motivado posiblemente, por la

variabilidad intersección.

Como punto intermedio se han realizado experimentos orientados a incorporar

información de la entonación solamente a través del pitch e incorporarlos a los rasgos

espectrales tradicionales. En este sentido destacan los trabajos (Gu and Rose, 2001) y

(Kim, 2004), que se toman como base para los experimentos en este trabajo.

1.4 Creación de modelos del locutor.

Como se ha dicho a la salida de un verificador de locutor se obtiene la aceptación o

rechazo de un locutor a la clase a que dice pertenecer. Es decir, en el proceso se evalúan

los atributos desconocidos y se discrimina si corresponde o no a la clase invocada. Una

característica distintiva de los sistemas de verificación es la creación de modelo general o

modelo UBM o BGM con una gran cantidad de locutores, que luego se adapta para cada

locutor en particular. Las técnicas utilizadas con este fin están encaminadas


fundamentalmente a disminuir la similitud de un locutor respecto al resto, pudiéndose

utilizar técnicas generales de sistemas de reconocimiento de voz, que se adaptan a los

sistemas de verificación del locutor. Es por ello que a pesar de las diferencias que se

explican en el epígrafe 1.1, para el desarrollo de estos sistemas históricamente se han

tenido en cuenta modelos que se han usado indistintamente para la identificación y para

la verificación. En este epígrafe se describe de manera general y sin entrar en detalles los

sistemas de creación de modelos mas utilizados.

1.4.1 Estrategias de Clasificación: Evolución Histórica y Estado Actual.

Los sistemas de reconocimiento del locutor corren paralelos a los de reconocimiento del

habla en los comienzos, de forma que las metodologías empleadas eran una adaptación

de las usadas en estos últimos. Una de las primeras metodologías utilizadas lo

constituyen aquellos sistemas en los años 70 y que utilizaban Parámetros Estadísticos

basadas en los trabajos de (Furui S., 1972) y (Markel 1977). Su principal aplicación era en

el reconocimiento del locutor independiente del texto. Posteriormente se comienza a

utilizar estrategias basadas en el Alineamiento Temporal Dinámico (DTW por sus siglas

en inglés) basado en los trabajos de (Furui, 1986), para la verificación del locutor

dependiente del texto. Con los trabajos de (Portiz A, 1982) y (Zheng, 1988) se comienzan

técnicas basada en Modelos Ocultos de Markov que permitían realizar el reconocimiento

tanto dependientes como independientes del texto. Constituye hoy día una estrategia a

seguir por muchos sistemas de verificación desarrollados hasta la actualidad. La

Cuantificación Vectorial también ha sido utilizada en sistemas de verificación del locutor

sobre todo para sistemas que son dependientes del texto. Esto se debe a su

característica de no poder modelar la información temporal incluida en la secuencia de

vectores de características extraída de la muestra de voz. Este modelo ha sido muy

utilizado en los primeros sistemas por (Li, 1983), (Shikano, 1985), en comparación con

otros modelos como los HMM, demostrando un mejor comportamiento cuando el número

de muestras de voz de referencia es pequeño, ahora bien, cuando éste aumenta, su

rendimiento decrece frente a los HMMS (Matsui T, 1992).

La evolución de los estudios centrados en el tema, llevó a una profundización en las

líneas de trabajo presentadas, teniendo como consecuencia el auge de las basadas en

(HMM), en detrimento de las otras, al tiempo que aparecieron nuevos enfoques, entre los

que se pueden destacar los sistemas basados en Modelos de Mezcla de Gaussianas

(Gaussian Mixture Model, GMM) y Redes Neuronales Artificiales (ANN).


Las primeras referencias sobre el uso de redes neuronales en el reconocimiento del

locutor quizás sean los trabajos de (Oglesby J, 1990) donde usaban un MLP por hablante,

y de (Bennani Y, 1990) donde el modelo escogido fue un LVQ (Learning Vector

Quantization).

1.4.2 Algoritmos de clasificación.

A continuación se expondrán de forma breve los aspectos más importantes que describen

a los algoritmos: Modelos Ocultos de Markov (HMM) y Redes Neuronales Artificiales.

Esto se debe a que en primer lugar el primero constituye el algoritmo en que se encuentra

basado el sistema de verificación que se pretende mejorar a través de los algoritmos de

extracción de características que se proponen en el capítulo dos de este trabajo. Además

los HMM han sido muy utilizados en sistemas comerciales de reconocimiento del locutor y

del lenguaje. Sin embargo las Redes Neuronales Artificiales también han sido muy

utilizadas en problema del reconocimiento del locutor y aunque resultan un poco más

difíciles de utilizar, los HMM no presentan tan buenos resultados puntuales como estos.

1.4.2.1 Modelos Ocultos de Markov (HMM)

Los modelos ocultos de Markov (HMM) corresponden a modelos estocásticos que han

sido usados con éxito en el ámbito de reconocimiento de hablante dependiente de texto.

Cada palabra de un locutor determinado es generada por un modelo de Markov, el que

consiste en una serie finita de estados interconectados por probabilidades de transición.

Cada uno de los vectores de características tiene cierta probabilidad de mantenerse en el

estado actual o avanzar al siguiente. Por su parte, cada uno de los estados tiene una

probabilidad (o densidad de probabilidad) de presenciar una cierta observación, es decir,

observar un vector de características. En este caso, solamente son visibles las

observaciones, desconociéndose la secuencia de estados. En la fase de entrenamiento,

se genera el modelo de cada hablante que corresponde a (6), tal que se maximice la

probabilidad de la observación dado el modelo

donde A={aij} es la matriz de probabilidades de transición, B=bj (k) es la matriz de

probabilidades de la observación y π es la probabilidad que cada estado sea el primero

(Fig. 1.4). El cálculo de las matrices A, B y pi se realiza a través del algoritmo Baum-

Welch o métodos de gradientes, pero no se obtendrá el óptimo, sino máximos locales. En

el test, el problema de macheo o similitud entre una voz desconocida y una clase


conocida puede ser formulado por la distancia entre una observación y un modelo de

locutor conocido. La observación corresponde a un vector de características, y el modelo

del hablante conocido es el modelo oculto de Markov. La distancia antes citada

corresponde a una densidad de probabilidad dada por donde es el hablante

desconocido, el hablante conocido, es el vector de observaciones, siendo cada una

de ellas una serie de coeficientes y es el modelo del hablante conocido.

Figura 1.4 Esquema de operación de un HMM de 5 estados.

1.4.2.2 Redes Neuronales Artificiales.

Otra categoría de algoritmos clasificadores son los clasificadores supervisados, siendo el

más popular las redes neuronales, en particular del perceptrón multicapa (Fig. 1.5). El

vector de características (generalmente coeficientes cepstrales) se multiplica por los

respectivos pesos y los resultados se suman y se evalúa en la función de activación, del

tipo logsig, escalón u otra. En este caso, la salida puede ser 0 o 1, simbolizando la

pertenencia o no a alguna clase. La esencia principal del aprendizaje supervisado

responde a la existencia de una serie de ejemplares de entrenamiento, los cuales pasan

sucesivamente por esta red neuronal, en este caso forzando uno de los dos valores en la

salida, lo que trae consigo que el error sea asumido por la modificación de los valores de

los pesos (retropropagación del error). Múltiples perceptrones son utilizados para separar


más clases, siendo usual que la salida de un perceptrón sea la entrada a otro.

Gráficamente, el perceptrón multicapa modela una línea de decisión de las clases

entrenadas, lo que trae consigo que para incorporar una nueva clase, se deba entrenar

nuevamente toda la red. En el caso del reconocimiento del hablante, el entrenamiento se

realiza con las voces de todos los individuos de interés. En el test, el vector de

características de la voz desconocida es sometido al paso de esta red ya entrenada (con

todos los pesos determinados) y su salida se asociará con alguna de las clases.

Figura 1.5 Esquema para MLP. (Tomado de Matlab NN Toolbox).

Las redes neuronales como la descrita no suelen utilizarse con mucho éxito en las tareas

de la verificacion del locutor, porque en el entrenamiento no pueden tener en cuenta un

aspecto que es fundamental en el procesamiento de voz: la dependencia de una trama de

tiempo con las anteriores. Sin embargo las redes neuronales recurrentes (RNN) admiten

conexiones hacia atrás. Estas conexiones hacia atrás, llamadas de retroalimentación, son

las que permiten que la red sea capaz de guardar una memoria de los estados anteriores,

para su uso en el cálculo de las salidas del estado actual, o sea, mantener una especie de

memoria de los procesamientos pasados; reflejando relaciones causales.

Las RNN se consideran sistemas dinámicos cuyo estado evoluciona siguiendo un

marcado comportamiento no lineal. Exhiben dos tipos básicos de funcionamiento: sistema

autónomo convergente y sistema no autónomo no convergente. El primer tipo de


comportamiento permite realizar tareas de asociación (como las resueltas por los modelos

de memorias asociativas, la generación de señales con condiciones iniciales fijas, etc. El

segundo permite el análisis y la reproducción de señales bajo condiciones variables en el

tiempo, así como realizar tareas de clasificación y predicción en estructuras de

información complejas.

En el caso del procesamiento de voz y en particular de la verificacion del locutor, una red

que pudiera ofrecer resultados favorables es la red de Elman. La red de Elman contiene 2

capas, la primera de ellas tiene una coneccion recurrente, mientras que la segunda es la

capa de salida. La figura 1.6 muestra un esquema básico de la red de Elman.

Figura 1.6 Esquema general de una red de Elma. (Tomado de Matlab NN Toolbox).

1.4.3 Etapa de entrenamieto y creación del sistema de verificación.

En los SVL, los modelos del locutor se crean utilizando, Modelos Ocultos de Harkov

(HMM) o Redes Neuronales Artificiales, los cuales permiten al sistema aprender sobre los

distintos rasgos acústicos del locutor y clasificarlos lo más exacto posible. En cualquiera

de los casos, se necesitan un número importante de datos para efectuar el entrenamiento

de los modelos. Por lo general, se crean modelos generales (BGM), que después se

particularizan para cada locutor. Las técnicas utilizadas para esto están encaminadas

fundamentalmente a disminuir la similitud de un locutor respecto al resto, pudiéndose

utilizar técnicas generales de sistemas de reconocimiento de voz, que se adaptan a los

sistemas de verificación del locutor.


1.5 Conclusiones del Capítulo.

En este capítulo se ha hecho una breve descripción de los métodos utilizados

tradicionalmente para la extracción de rasgos del locutor, a saber, métodos basados en el

conocimiento espectral, y de los métodos utilizados más recientemente, a saber, métodos

basados en conocimiento prosódico. Por último se mencionaron los mecanismos de

creación de modelos de locutores, en particular utilizando los HMM y las NN. En los

siguientes epígrafes del próximo capítulo se desarrollarán algoritmos de extracción de

características que incluyan información del pitch en la extracción de los rasgos

tradicionales, para evaluar su desempeño en un sistema de verificación del locutor.

CAPÍTULO 2. Materiales y Métodos. 20

CAPÍTULO 2. MATERIALES Y MÉTODOS

En este capítulo primeramente se hace la introducción de algunos conceptos generales

necesarios. Posteriormente se realiza una descripción detallada de los algoritmos de

extracción de características, a saber, Pitch Harmonics Cepstral Coefficients (PHCC),

Pitch Synchronous Mel-Frequency Cepstral Coefficients (PSMFCC), y Pitch Synchronous

Harmonics Cepstral Coefficients (PSPHCC). Los dos primeros son algoritmos existentes

en la literatura. El tercer algoritmo y último constituye una nueva aproximación a las

técnicas de extracción de características acústicas del locutor, pues combina los aspectos

más notables de los algoritmos PHCC y PSMFCC, con lo cual se espera mejorar el

desempeño del sistema.

2.1 Generalidades

Para la descripción de los algoritmos mencionados en la introducción de este capítulo es

necesario definir algunos conceptos importantes relacionados con los bloques funcionales

fundamentales de los mismos. Sucede que las temáticas que se describen en este

epígrafe constituyen estándares a seguir en las técnicas de extracción de características

del locutor. Por tal motivo se ha decidido hacer una separación de estos conceptos en

este epígrafe, buscando no repetir estos aspectos que son comunes a todos los

algoritmos que se presentan posteriormente. De esta forma solamente será necesario

hacer referencia a estos conceptos en la descripción de los mismos en el momento que

sea necesario.

2.1.1 Enventanado de la señal de voz.

Para el tratamiento de la señal de voz es necesario en primer lugar, lograr el

procesamiento en un intervalo finito de tiempo. Para ello es necesario fragmentar toda la

alocución en tramas, estas tramas deben tener una duración tal que garantice que la

señal sea estacionaria o aproximadamente estacionaria durante ese tiempo, debido a que


la mayoría de las técnicas básicas para el procesamiento asumen estacionalidad de la

señal. Teniendo en cuenta las características del mecanismo de producción, la señal de

voz se considera estacionaria en tramas de 20-30 ms, siendo lo más usual utilizar tramas

de 20 milisegundos, con un solapamiento del 50 % que garantice que no existan

discontinuidades entre las tramas. Teniendo en cuenta que se requiere además la

información de la señal en el dominio de la frecuencia, es necesario que al obtener cada

una de las tramas se evite un corte abrupto en el dominio del tiempo, que conllevaría

inevitablemente a la persistencia del fenómeno de Gibbs, y con ello una mala

representación espectral. Para solucionar este problema se suelen suavizar cada una de

las tramas utilizando ventanas con una caída suave hacia los bordes, la más utilizada es

la ventana de Hamming. Su definición se muestra en la ecuación (8).

A continuación se muestra el seudocódigo del proceso de enventanado.


2.1.2 Detección de tramas sordas y sonoras.

Los algoritmos que se utilizan están basados en incorporar información referida al periodo

fundamental de la señal de voz (pitch), para lo cual es necesario el cálculo de este. Sin

embargo, para el cálculo del pitch se necesita tener conocimiento de la sonoridad de las

tramas, es decir, conocer si las tramas se corresponden a segmentos de sonidos

vocálicos o a segmentos de sonidos sordos. La detección de sonoridad, se realiza

utilizando varios métodos, fundamentalmente utilizando el cálculo de la energía de la

trama, y el número de cruces por cero.

La energía de una trama se calcula como:

Mientras que la cantidad de cruces por cero se calcula simplemente por la variación del

signo de cada muestra. A continuación se muestra el procedimiento a seguir para

determinar la sonoridad de una trama.


2.1.3 Mapeo de la señal del dominio del tiempo al dominio cepstral.

El cálculo de los coeficientes en el dominio cepstral en realidad se puede interpretar como

un mapeo de la señal del dominio al dominio cepstral, con el objetivo de separar la

información de la fuente (aire que sale de la cavidad toráxica ) del filtro (cavidad bucal) en

el modelo fuente-filtro de producción de la voz. En otras palabras: la señal de voz de

salida se pude interpreta como el paso de una señal de entrada (aire) por un filtro

(cavidad vocal), y por lo tanto esta salida es la convolución de la entrada con la respuesta

impulsiva del filtro. Si se lleva al dominio de la frecuencia, entonces esta convolución se

convierte en un producto del espectro de la entrada con la respuesta de frecuencias del

filtro, pero la operación de producto no permite separar fácilmente la fuente del filtro, por

lo que se trasforma al dominio cepstral calculando el logaritmo de este producto, lo que da

por resultado una suma. En la práctica, la obtención de los coeficientes cepstrales se

realiza al hacer pasar cada trama de la señal de voz por un banco de filtros pasa-bandas

triangulares, a distintas frecuencias centrales. En general, los sistemas de identificación o

verificación de locutores tienen la premisa de que el mejor clasificador es el oído humano,

es por ello, que el banco de filtros se coloca en una escala logarítmica, colocando cada

filtro en aquellas frecuencias donde el ser humano tiene una mejor respuesta auditiva.

Aunque no se puede afirmar que un sistema automatizado tenga un comportamiento

similar al del oído, lo cierto es que se trata de la técnica mas aceptada. Los filtros

triangulares se crean a partir de la ecuación (10) presentada a continuación:

donde es el valor de cada frecuencia de la trama analizada y es la frecuencia centra

del filtro. Una alternativa para crear los bancos de filtro es utilizar una frecuencia central

para el primer filtro, con un ancho de banda , entonces la frecuencia central y el

ancho de banda del resto de los filtros se obtiene como en las ecuaciones (11) y (12)

respectivamente.


2.2 Algoritmos de obtención de rasgos.

En los siguientes subepígrafes se realiza la descripción de los diferentes algoritmos

implementados para la extracción de los parámetros de la voz. Se utilizan diagramas de

bloques para reflejar los aspectos más generales de cada uno de estos. Se utiliza el

pseudocódigo para mostrar en detalles el funcionamiento de cada uno de los algoritmos.

2.2.1 PHCC (Pitch Harmonics Cepstral Coefficients).

El método ha sido elaborado con el objetivo de mejorar la eficiencia de los sistemas de

verificación en ambientes ruidosos. Eso es un aspecto importante puesto que la robustez

y la exactitud del sistema puede comprometerse por la distorsión espectral causada por

el ruido de fondo. La presencia de ruido puede crear perturbaciones en el tono

fundamental y por tanto se obtendrían errores en la información adquirida sobre la

adicción de los locutores en el sistema en el momento de la alocución.


El algoritmo PHCC se propone gastar un mayor esfuerzo en la obtención a través de

diferentes criterios de una mejor aproximación del tono fundamental. En la figura 2.2.1 se

muestra un diagrama de bloque del algoritmo.

Figura 2.2.1 Diagrama de bloques del PHCC (Pitch Harmonics Cepstral Coefficients)

A continuación se presenta una descripción más detallada de los pasos a seguir para la

implementación del mismo.

Funcionamiento:

Paso1: Obtener a partir de la señal de entrada el conjunto de ventanas a las cuales se le

extraerán los rasgos. Estas ventanas son del tipo Hamming .En el epígrafe anterior se

mostró como se realiza el proceso y se definió un procedimiento que realiza

esta labor.

de dimensión donde representa la cantidad de segmentos obtenidos de

la señal y la cantidad de muestras de la señal por cada ventana.

Paso2:

Se hace una clasificación de cada segmento representado por Frames en cuanto a su

sonoridad, es decir se determina si el segmento es sordo o no lo es .En cada caso se

registra en un vector nombrado en la posición i-ésima si el segmento i-ésimo es o no un

segmento sordo. Para clasificar el segmento se utiliza el algoritmo “isvoiced“, el cual se

Entramado

Enventanado FFT

Raíz Cuadrada Det Sonoridad AMDF

Pesaje Armónicos Filtrado Cepstrum


encuentra descrito en el epígrafe anterior. La obtención del vector queda definida de la

siguiente forma:

Paso3: A continuación se realiza el cálculo del tono fundamental en cada uno de los segmentos

sonoros detectados anteriormente. El algoritmo AMDF se utiliza para realizar esta

operación. El siguiente seudocódigo muestra como se realiza la obtención del pith (Tono

fundamental) para todos los segmentos de la señal.


Paso 4:

Se realiza el pesaje de los primeros armónicos del pith, en aquellos segmentos sonoros.

Este paso es el más importante de todos, pues constituye la estrategia trazada para

intentar obtener rasgos más precisos. Inicialmente se obtiene el espectro de cada

segmento de voz utilizando la Transformada Discretea de Fourier vista en el capítulo

anterior. Esta se obtendrá con una resolución de 4056 muestras. Para el espectro

perteneciente a cada ventana se determina la raíz cuadrada. Después se realiza un

pesaje del espectro, que consiste es ponderar con un mayor peso las frecuencias que

constituyen armónicos del pitch, como se muestra en la ecuación (13)

Por último, se lleva a la escala de Mel, mediante la transformada discreta de coseno del

logaritmo del espectro ponderado de la señal. (Paso 5)

El seudocódigo que sigue muestra el algoritmo a través de un procedimiento que

responde al nombre de “Weight_Spectrum”


Paso5: Finalmente, con el espectro pesado se obtienen los coeficientes cepstrales, como se muestra en el siguiente pseudocódigo:


2.2.2 PSMFCC (Pitch Synchronous Mel-Frequency Cepstral Coefficients).

El PSMFCC propone tomar el algoritmo de extracción de características del locutor

(MFCC) y modificar la forma en que se obtienen los segmentos de la señal antes de ser

filtrada de forma tradicional. El objetivo fundamental es intentar reducir la cantidad de

segmentos que hay que procesar. De esta forma se disminuye la dimensión del problema

pues la cantidad de coeficientes cepstrales obtenidos de una señal de voz es

directamente proporcional a la cantidad de segmentos en los que se analiza la misma.

El algoritmo parte del criterio de que aquellos segmentos adyacentes que tengan igual

tono fundamental deben unirse en un solo segmento, pues la información que describe el

tono es la misma en todos, de esta manera se está incorporando una información

suprasegmental. La aplicación de este criterio debe hacerse bajo la condición de que los

segmentos obtenidos al final tengan igual cantidad de muestras, aunque las dimensiones

de los intervalos de tiempos que representan cada uno de los segmentos pudiesen ser


diferentes. El algoritmo parte de definir inicialmente el valor máximo de segmentos con

igual tono fundamental que podrán unirse. Aquellos grupos de segmentos con igual tono

fundamental, donde la cantidad de segmentos que los componen no igualan el valor

máximo establecidos, deberán integrarse para formar un solo segmento y posteriormente

se obtendrá una resolución del mismo con igual cantidad de muestras que las que se

obtendrían de unir el total máximo de segmentos establecido. Para esto se realiza una

interpolación cúbica de los grupos obtenidos donde el factor de resolución es la cantidad

de segmentos que conforma el grupo sobre el máximo establecidos. A continuación se

muestra el diagrama de bloques que conforman al algoritmo.

Figura 2.2.2: Diagrama de bloques del PSMFCC (Pitch Synchronous Mel-Frequency Cepstral Coefficients).

El algoritmo realiza la reducción de la cantidad de segmentos aplicando un método al que

se le llama “PitchSyncronous”. En la figura 2.2.2 se muestra el diagrama bloques que

describe al algoritmo PSMFCC .

Paso1: Se realiza el entramado de la señal para obtener los segmentos iniciales de la

señal. Ver Paso1 de algoritmo anterior PHCC.

Paso2: En este paso se obtiene el valor de pith de cada segmento. Ver Paso3 del

algoritmo anterior PHCC.

Paso 3: En este paso se realiza la obtención de un nuevo bloque de segmentos a través

de la sincronización con el pith. La descripción de este proceso se hará bajo la

descripción del procedimiento “PitchSyncronous”, con el cual este algoritmo se identifica.

Entramado Enventanado AMDF

Sincronización Filtrado Cepstrum



Paso4: En este se obtienen los coeficientes cepstrales para cada segmento de voz

obtenido anteriormente. Ver paso 5 del PHCC.

2.2.3 PSPHCC(Pitch Synchronous Harmonics Cepstral Coefficients)

Con el algoritmo PSPHCC se pretende aprovechar las ventajas de los algoritmos PHCC y

PSMFCC. Por una parte se introduce la detección de los segmentos sonoros que realiza

el PHCC buscando dar mayor peso a los armónicos del pitch. Posteriormente se pasará a

sincronizar los segmentos adyacentes intentando reducir la cantidad de segmentos a

procesar posteriormente e incorporando la información intersegmentos. Luego se realiza

el pesado de los armónicos en los segmentos sonoros como lo hace el PHCC .Con esto

se busca tener una nueva alternativa al cálculo de los MFCC tradicionales. En la figura

2.2.3.1 se muestra el diagrama de bloques de este algoritmo. Puesto que cada uno de sus

bloques se encuentra descrito en cada uno de los algoritmos vistos con anterioridad no es

necesario realizar una descripción más detallada de cada uno de los pasos que lo

conforman.

Figura: 2.2.3.1 Diagrama de bloques de PSPHCC.

Entramado Enventanado FFT

Raiz Cuadrada Det sonoridad

Sincronización

AMDF

Pesaje Armónico Filtrado

Cepstrum


2.3 Conclusiones del capítulo

En este capítulo se ha realizado una descripción de los algoritmos de extracción de

características de voz que se implementaron en este trabajo. Se mostraron aquellos

conceptos más generales que son comunes a todos y las particularidades de cada uno de

ellos. El algoritmo PHCC (Pitch Harmonics Cepstral Coefficients) gasta un mayor

esfuerzo en la discriminación de aquellos segmentos de silencio, basándose

fundamentalmente en el análisis de aquellos segmentos sonoros, a los cuales pondera

con mayor peso sus armónicos, buscando tener una mejor información del tono

fundamental. El algoritmo PSMFCC (Pitch Synchronous Mel-Frequency Cepstral

Coefficients) se caracteriza por intentar reducir la cantidad de segmentos a analizar, en el

proceso de extracción de rasgos. Esto es una cuestión muy importante puesto que el

número de coeficientes cepstrales depende fundamentalmente de la cantidad de

segmentos o ventanas que se procesan. Por último el algoritmo PSPHCC (Pitch

Synchronous Harmonics Cepstral Coefficients) visto al final de este capítulo, surge como

una iniciativa en este trabajo, en la búsqueda de nuevas aproximaciones que permitan

mejorar la extracción de características de voz del sistema de verificación que se pretende

mejorar. Este algoritmo reúne los aspectos más representativos de los algoritmos

PSMFCC y PHCC, tomando del primero la habilidad de reducir las dimensiones del

problema y del segundo su capacidad de obtención de una mejor información del tono

fundamental. Por último resta señalar que todos los algoritmos de extracción de

características de la voz presentados en este capítulo fueron implementados sobre la

plataforma Matlab para analizar posteriormente la influencia de cada uno de ellos en el

rendimiento del sistema de verificación.

Conclusiones y Recomendaciones. 34

CAPÍTULO 3. RESULTADOS Y DISCUSIÓN

En este capítulo se presentan los principales resultados alcanzados en este trabajo. Se

parte inicialmente dando una descripción de la plataforma Matlab sobre la cual se realizó

la implementación de los algoritmos descritos en el capítulos 2 y la implementación del

software PHaSe-SAEC .Esto se hace en el epígrafe 3.1. A continuación en el epígrafe 3.2

y 3.2.1 se explican los detalles del sistema PHaSe-SAEC, herramienta para la extracción

de características del locutor, y fruto de este trabajo. Le sigue en el epígrafe 3.3 y sus

subepígrafes la descripción del experimento realizado, describiendo la base de datos de

locutores utilizada y cómo se realiza el entrenamiento y verificación de los modelos,

basándose en la herramienta (HTK) .Por último en el epígrafe 3.4 se presentan las

conclusiones parciales obtenidas.

3.1 Plataforma Matlab.

MATLAB significa Matrix Laboratory y es un lenguaje de alto nivel que permite desarrollar

el cálculo, la visualización y la programación. Es un sistema interactivo que se basa en

arreglos que no necesitan dimensionamiento e incluye varias técnicas de procesamiento

de vectores y matrices. Desarrollado por LINPACK y EISPACK, actualmente incorpora

librerías BLAS y se ha convertido en puntero en el trabajo con matrices.

El uso de MATLAB se ha generalizado en universidades e industrias. Las universidades lo

incluyen en cursos de matemática avanzada, de ingeniería y de ciencias, mientras que en

la industria se utiliza para el diseño y análisis. Su utilización tan difundida se debe a su

facilidad y a sus potencialidades, ya que se ha enriquecido con familias de funciones

llamadas toolboxes que permiten su utilización en la solución de problemas de ramas


específicas. Entre los toolboxes más sobresalientes se encuentran los de procesamientos

de señales, control de sistemas, redes neuronales, lógica difusa, trabajo en el dominio

wavelet y simulación.

Entre las principales potencialidades de MATLAB se encuentra:

Cálculos matemáticos.

Desarrollo de algoritmos.

Análisis, exploración y visualización de datos.

Adquisición de datos.

Visualización de gráficos.

Permite además el desarrollo de interfaces gráficas.

Aunque las versiones actuales de MATLAB permiten el desarrollo de ejecutables, su uso

para este fin no se ha difundido, y en este trabajo se ha seleccionado por las facilidades

que brinda en el procesamiento de señales y su amplia utilización en el desarrollo de

versiones experimentales de sistemas que posteriormente se llevan a otros lenguajes.

3.2 Introducción al PHaSe-SAEC.

Es un sistema desarrollado totalmente sobre la plataforma Matlab. Está diseñado para

ser utilizado por especialistas en el campo del Procesamiento Digital de Señales,

específicamente hacia aquellos que realizan estudios enfocados sobre la extracción de

parámetros de la voz. Esta herramienta permite procesar de manera automáticas

archivos de audio de extensión wav con grabaciones de locutores. Se encuentra

capacitado para realizar la extracción de patrones de la voz, a toda una base de datos,

de grabaciones de locutores, con solo la especificación del algoritmo a utilizar por parte

del usuario. Actualmente integra los algoritmos descritos en el capítulo anterior, ellos son

el PHCC, PSMFCC y el PSPHCC. No requiere de una red de computadoras para realizar

su trabajo, a no ser que la ubicación de la base de datos a procesar se encuentre en otro

ordenador o que los resultados alcanzados se quieran depositar fuera del ordenador en

donde se realiza el procesamiento.

Su desarrollo en este trabajo, posibilitó la obtención a través de cada uno de estos

algoritmos, los patrones de la voz de todas las grabaciones contenida en la base de

datos (TIDIGITS). A partir de esto se realizó el estudio del rendimiento del sistema de


verificación (HTK) al recibir como entrada en el proceso de aprendizaje y clasificación

los patrones de voz obtenidos con cada uno de estos algoritmos. Primeramente se analizó

el rendimiento del HTK con el PHCC, posteriormente con el PSMFCC y por último con el

PSPHCC. En el epígrafe 3.2 se expone los detalles del experimento y los resultados

obtenidos.

El PHaSe-SAEC se apoya en una interfaz gráfica amigable e intuitiva debidamente

diseñada para usuarios identificados en este campo de investigación. Además de la

funcionalidad fundamental que es la extracción de patrones de voz involucra en su

funcionamiento un subsistema de adaptación de datos, que permite convertir de manera

directa los resultados obtenidos por los algoritmos de extracción de características en

tres formatos de salidas diferentes. Los formatos de salida se encuentra totalmente a

disposición del usuario y la utilización de estos se debe realizar en dependencia de hacia

qué sistema de clasificación va dirigido. Hasta el momento el PHaSe-SAEC posibilita la

exportación de sus resultados hacia el clasificador basado en HMM del HTK (Sistema de

verificación del locutor), en segundo lugar hacia el Weka generando un archivo *.arrf al

cual se le podrá aplicar las diversas técnicas de clasificación que este software brinda.

Por último el PHaSe-SAEC permite exportar sus resultados al sistema PHaSe-SACE el

cual está siendo desarrollado por el autor de este trabajo. El PHaSE-SAECE se basa en

el huso de las redes neuronales aplicadas al campo del reconocimiento de patrones de la

voz. Específicamente utiliza una red neuronal de Elman, cuya arquitectura fue presentada

en el Capítulo1. El PHaSE-SAECE posibilita la definición de la arquitectura de la red, la

definición de parámetros de entrenamiento, así como la puesta en marcha del mismo

.También da la posibilidad de realizar simulaciones de la red y la obtención de resultados

que permitan asumir un criterio sobre el rendimiento de la misma.

3.2.1 Manipulación práctica en el ambiente PHaSe-SAEC.

Una vez posicionado sobre el directorio de la aplicación se pasa a ejecutar el comando

execute, el cual solamente definirá el conjunto de variables de entornos necesarias para

el correcto funcionamiento del mismo. Posteriormente se pasa a ejecutar la aplicación

invocando a la aplicación con el nombre menusaec, el cual hace que se presente la

ventana principal de la aplicación como se muestra en la figura 3.2.1


Figura 3.2.1 Ventana de prestación del PHaSe-SAEC

Una vez presentada la aplicación se pasa a utilizar una de sus dos funcionalidades

fundamentales. Para hacer huso de ellas se pasa a seleccionar en el menú principal la

opción Extraer patrones de voz o la opción Generar para Weka .Se empezará por la

primera por su importancia. Al seleccionar la primera opción se muestra la interfaz gráfica

que brinda PHaSe-SAEC como ambiente para realizar la extracción de patrones de voz.

Ver figura 3.2.2


Figura 3.2.2 Ambiente PHaSe-SAEC para la extracción de características de la voz.

En la pare superior izquierda el usuario puede definir los directorios sobre los cuales va a

operar el sistema, definiendo en el orden que crea conveniente el directorio donde se

encuentran los archivos de voz a procesar y el directorio donde se requiere que se

almacenen los datos obtenidos. Posteriormente se pasa a definir cual de los algoritmos de

extracción de características de voz se desea utilizar seleccionando uno de los

presentados en la parte superior derecha de la interfaz. Una vez definido esto se puede

pasar a seleccionar el formato de salidas que debe tener en cuenta el sistema, para salvar

los resultados obtenidos a medida que va procesando los archivos de audio. Es posible

seleccionar inicialmente dos formatos .El primero bajo el nombre de RNA hará que el

sistema almacene los datos en archivos binarios con extensión saec, los cuales van

dirigido hacia la aplicación PHaSE-SAECE mencionada anteriormente. Este sistema

comprende la estructura de los datos de estos archivos y es capaz de realizar el

entrenamiento y simulación de su clasificador a partir de archivos de entrada con este

formato. Es preciso aclarar que este formato asume que todos los archivos de voz que


encuentre en ese camino constituyen distintas casos de grabaciones de la voz del mismo

locutor. Por esta razón es necesario definir qué identificador, en valor numérico, se le

asignará a ese locutor antes de iniciar el proceso de extracción de características. El

segundo formato es utilizado para generar archivos con extensión mfc con los datos de

los patrones de voz alcanzados en cada grabación. Este es el formato requerido para el

sistema HTK .Una vez configurada correctamente el PHaSe-SAEC se pasa a iniciar el

proceso, presionando sobre el botón iniciar. Este control es el encargado de iniciar la

búsqueda de todos los archivos de audio existentes en el directorio especificado (no

importa la profanidad de los mismos) y de procesar todos los que existan almacenando

los resultados en el directorio especificado, con igual nombre al de la grabación. El

PHaSe-SAEC en todo momento brinda información acerca de la evolución del

procesamiento. Para eso cuenta en la parte inferior con un área donde se muestra la

totalidad de archivos detectados en el directorio de búsqueda , la totalidad de archivos de

sonido detectados, el subdirectorio actual sobre el cual está buscando , el archivo que se

encuentra generando en el momento. Además cuenta con una especie de pizarra que en

la región central, donde se visualiza el indicador de progreso del sistema y la cantidad de

archivos procesado en cada momento. Esta información es importante puesto que el

usuario puede saber que tan lejos se encuentra el sistema de concluir con el

procesamiento. Una vez culminado la operación de extracción de patrones de la voz

indicada por el usuario el sistema pasa a mostrar información adicional sobre todos los

archivos de audio que procesó y los que se obtuvieron como cumplimiento de la orden del

usuario. En la figura 3.2.3 se presenta como se ve la finalización del PHaSe-SAEC una

vez cumplida su tarea.


Figura 3.2.3 Finalización de proceso de extracción de características en el PHaSe-SAEC.

Visto el como se utiliza el PHaSe-SAEC para que realice la extracción de característica de

la voz contenida en una base de datos de grabaciones, se pasará a mostrar como el

mismo es capas de crear archivos arrf para uso en el Weka.

Para realizar esta operación es necesario que los datos de los patrones de voz se hayan

obtenido con el formato de salida RNA visto anteriormente, pues este formato no

solamente es utilizado por el PHaSe-SAECE, también el PHaSe-SAEC utiliza estos

archivos para hacer una nueva conversión de los datos al formato Weka. Para realizar

esta operación solamente es necesario seleccionar la opción Generar para Weka en el

menú principal de la aplicación. Una vez hecho esto el sistema muestra la interfaz que se

refleja en la figura 3.2.4 que se encargará de recibir las orientaciones necesarias para

realizar la conversión del formato saec al formato arrf.


Figura 3.2.4 Interfaz PHaSe-SAEC para llevar al formato del Weka.

Una vez con esta interfaz frente al usuario, este solo debe definir donde se encuentra el

directorio que contiene los archivo saec que se deben incluir. Posteriormente debe decidir

donde desea almacenar el archivo de salida y el nombre que desea darle. No es preciso

definir un orden para realizar las operaciones descritas, lo importante es que se

especifiquen todos estos parámetros al sistema. De no ser así el sistema le informará al

usuario a través de mensajes de error cuales de ellos faltan. En el proceso de cambio de

formato el usuario también podrá observar la información relacionada sobre que

directorios y archivos se encuentra trabajando el sistema, la totalidad de archivos

detectados y de ellos cuantos son propiedad del PHaSe-SAEC y un indicador para saber

estimar el tiempo que resta para que el sistema culmine con la operación indicada. En la

figura 3.2.5 se muestra el PHaSe-SAEC generando un archivo nombrado” Patrones.arff”

para el Weka, con la información de los parámetros acústicas de locutores almacenados

en archivos binarios con extensión saec.

Figura 3.5 PHaSe-SAEC generando para el formato Weka

3.3 Descripción del experimento.

El experimento consiste en tomar los algoritmos PHCC, PSMFCC y PSPHCC

presentados en este trabajo y utilizar cada una de estos, como el bloque de extracción de


características en el sistema de verificación que se pretende mejorar. Para facilitar el

trabajo se utilizó la herramienta PHaSe-SAEC antes vista para procesar de forma

completa, la base de datos de grabaciones TIDIGITS , con la que se dispone para realizar

el experimento. Una vez obtenidos los patrones de voz de cada uno de los locutores

pertenecientes a TIDIGITS, para cada uno de los algoritmos, se pasa entonces a realizar

el entrenamiento y la verificación del sistema, con cada uno de los resultados obtenidos

por los algoritmos anteriores. Las etapas de entrenamiento de los modelos y la posterior

verificación se realizan con la herramienta HTK (Young et al., 1995), que es una

herramienta diseñada para el reconocimiento de voz con la utilización de Modelos Ocultos

de Markov.

3.3.1 Base de Datos „‟ TIDIGITS‟‟.

La base de datos TIDIGITS, contiene grabaciones de locutores comprendidos entre 21 y

70 años, cada uno de los cuales dice 77 secuencias de los dígitos: one, two, three, four,

five, six, seven, eigth, nine, zero, oh, distribuidos como se relaciona en la Tabla 3.3. 1 .

Tabla 3.3. 1: Distribución de las secuencias por cantidad de dígitos

Cantidad de dígitos en la secuencia Cantidad de secuencias

1 22

2 11

3 11

4 11

5 11

7 11

La cantidad de dígitos que pronuncia cada locutor en la fase de entrenamiento en este

trabajo es aleatoria, pues para cada uno de los locutores solo se utiliza un subconjunto de

sus datos, de forma tal que no todos lo dígitos se entrenan para cada locutor, el resto de

los datos se utiliza en la fase de verificación.


3.3.2 Creación de los modelos del locutor.

Los HMM son modelos estocásticos que permiten construir un modelo para cada locutor

en una fase de entrenamiento, y luego, en la fase de verificación busca cual es la

probabilidad de que los parámetros del locutor desconocido se corresponda con el modelo

correspondiente. En otras palabras, obtener la probabilidad de que cada uno de los

modelos conocidos se corresponda con la secuencia de observación.

El sistema utiliza Modelos Ocultos de Markov (HMM) en la modelación de las unidades

del vocabulario empleado y de los locutores usuarios del sistema. Primero se obtiene un

modelo de todos los locutores o modelo global (BGM). Los modelos globales se toman

como base en la fase de entrenamiento para adaptarles sus medias, varianzas y pesos

asociados a las mezclas Gausianas a cada locutor empleando el algoritmo de adaptación

maximun a posteriori (MAP). Este proceso se realiza para los coeficientes calculados con

el banco de filtros en escala de Mel, y para los coeficientes calculados por los distintos

algoritmos presentados en este trabajo.

3.3.3 Etapa de Verificación.

La verificación se realiza mediante umbrales adaptados para cada locutor, teniendo en

cuenta los scores que le asigna el sistema a cada presunto locutor, sobre la base del

reconocimiento de palabras (en este caso dígitos). En la fase de verificación se obtienen

las probabilidades de cada palabra reconocida empleando los modelos del locutor. A

estas probabilidades se le sustraen las obtenidas empleando los modelos globales. La

suma de estas diferencias por cada palabra detectada, constituye la probabilidad

asociada al presunto locutor. Esto es en esencia una tasa de probabilidad logarítmica

normalizada que se compara contra un umbral de decisión por encima del cual se acepta

o deniega la alocución. El umbral, como ya se ha dicho, se calcula para cada locutor, para

el caso en que la tasa de falsa aceptación sea igual a la tasa de falso rechazo, esto es

„Equal Error Rate ‟(EER).


3.4 Resultados por algoritmos.

En los subepígrafes que siguen se presentarán los resultados obtenidos por los

algoritmos tratados en este trabajo. Cada uno de ellos se utilizó para obtener los patrones

de voz de aquellos locutores, cuyas grabaciones se encuentran depositadas en la base de

datos TIDIGITS, que se presentó en el epígrafe 3.3.1.La herramienta HTK se utilizó para

realizar las pruebas con cada uno de estos algoritmo. El proceso de entrenamiento y

verificación se mostró en los epígrafes 3.3.2 y 3.3.3.El algoritmo MFCC que se pretende

mejorar, al actuar sobre la base de datos TIDIGITS, produce un 92% de exactitud de

clasificaciones correctas. Este resultado será tomado como referencia en los subepígrafes

posteriores.

3.4.1 Resultados del PHCC (Pitch Harmonics Cepstral Coefficients).

Este algoritmo al introducir un mayor peso a los componentes espectrales armónicos con

el pith, produjo una mejora en el rendimiento del sistema de verificación, al comparar los

resultados que se obtienen con el MFCC, con respecto a los que se obtuvieron con este

algoritmo. El PHCC produjo un 96% de clasificaciones correctas que supera al 92%

alcanzado por el MFCC.

3.4.2 Resultados del PSMFCC (Pitch Synchronous Mel-Frequency Cepstral

Coefficients).

Con el PSMFCC se obtuvo un 93 % de clasificación correctas, las cuales aunque no

superan al algoritmo anterior si presenta una leve mejora al MFCC.

3.4.3 Resultados del PSPHCC (Pitch Synchronous Harmonics Cepstral

Coefficients).

La combinación de los aspectos más representativos de los algoritmos anteriores en el

PSPHCC, produjo como resultado un 95% de exactitud del sistema. Este resultado

muestra una mejora en el rendimiento del sistema de verificación como se pretendía y

además supera los resultados alcanzados por el PSMFCC, pero no logra superar al

PHCC, el cual además gasta un menor esfuerzo en obtener los coeficientes cepstrales.


3.5 Conclusiones de capítulo.

El sistema PHasE-SAEC constituye un resultado importante en este trabajo de diploma,

ya que el mismo se utilizó como herramienta automática para la extracción de las

características acústicas de la base de datos TIDIGITS, sobre la cual se realizaron los

experimentos. Esta herramienta incorpora la implementación de los algoritmos PHCC,

PSMFCC y PSPHCC que han sido objeto de estudio en este trabajo, y sobre los cuales

PHasE-SAEC brinda facilidades para la utilización de los mismos.

El rendimiento del sistema HTK se vio mejorado con la utilización de cada uno de los

algoritmos que se implementaron en este trabajo. De todos ellos, el PHCC brindó los

mejores resultados alcanzados por el sistema, para la base de datos TIDIGITS con la que

se realizaron las pruebas. Los resultados obtenidos no son concluyentes. Por falta de

nuevas bases de datos, no es posible realizar una mayor cantidad de pruebas, que

permitan a través de análisis estadístico determinar con exactitud que tan superiores

(inferiores) son estos algoritmos con relación al MFCC que se pretende superar.


CONCLUCIONES Y RECOMENDACIONES

En este trabajo se implementan diferentes alternativas de extracción de características

acústicas para la verificación del locutor teniendo en cuenta información de pitch, y se

propone un método novedoso para mejorar el desempeño de estos sistemas. El método

propuesto se basa en sustituir el cálculo de los MFCC, por otros coeficientes. Estos se

basan en dar mayor peso a las componentes espectrales que son armónicos del pitch y

interconectar tramas de voz con el mismo pitch para reducir la dimensionalidad del

problema e incluir información que involucre varios segmentos. Durante su realización se

arribó a las siguientes conclusiones:

1. El algoritmo PHCC, que introduce mayor peso a las componentes espectrales

armónicas con el pitch para el cálculo de los Coeficientes Cepstrales, provoca una EER

de 1.43 %, para aproximadamente un 96 % de buena clasificación. El algoritmo

PS_MFCC, provoca una EER de 1.91 %, para aproximadamente un 93 % de buena

clasificación.

2. Ambos algoritmos superan el desempeño de los MFCC, presumiblemente porque

incorporan información del pitch.

3. El algoritmo propuesto en este trabajo, PS_PHCC, provoca un EER de 1.62 %

para un 95 % de buena clasificación, mejorando al algoritmo MFCC, sin embargo su

desempeño está por debajo del PS_MFCC.

4. Los resultados obtenidos en este trabajo no son concluyentes, porque no se ha

realizado un análisis estadístico de los mismos, producto a que la base de datos con que

se ha trabajado es escasa, y no se cuenta por el momento con otras que permitan

entonces hacer un análisis comparativo.

A partir del trabajo realizado queda abierta la posibilidad de buscar otros métodos que

permitan mejorar el desempeño de los SVL, utilizando no sólo la información del tracto

vocal, sino también de la fuente, e incluir información suprasegmental.

Como trabajo inmediato se recomienda:


1. Realizar estos experimentos con una mayor cantidad de bases de datos (10 o

más), que permita posteriormente realizar un análisis estadístico del rendimiento

del sistema con cada uno de los algoritmos vistos. De esta forma será posible

determinar si estos superan (no superan) al MFCC del sistema de verificación

2. Utilizar el software PHaSe-SAEC, construido en este trabajo, para la extracción de

parámetros acústicos, y aprovechar sus facilidades para exportar datos para los

programas HTK y Weka.

3. Incorporar nuevas técnicas de extracción de parámetros acústicos del locutor al

PHaSe-SAEC que permitan aumentar la potencialidad del mismo.

4. Incorporar bases de datos en idioma español para realizar experimentos con los

algoritmos descritos en este trabajo, buscando tener un indicador de los mismos

sobre este idioma. Esto permitirá realizar una valoración sobre la aplicabilidad de

los mismos en aplicaciones de interés nacional.

5. Valorar la posibilidad de realizar la creación de los modelos del locutor mediante el

uso de Redes Neuronales Artificiales, en particular redes de Elman y utilizar para

este fin las herramientas desarrolladas en este trabajo.

.

ANEXOS 48

REFERENCIAS BIBLIOGRÁFICAS

A. G. ADAMI, R. M., D. A. REYNOLDS, AND J. J. GODFREY, . Year. Modeling Prosodic Dynamics for

Speaker Recognition. In: ICASSP, 2003. Hong Kong.

B. PESKIN, J. N., J. ABRAMSON, D. JONES, D. KLUSACEK, D. A. REYNOLDS, AND B. XIANG,. Year.

Using Prosodic and Conversational Features for High Performance Speaker

Recognition. In: ICASSP, 2003 Hong Kong.

BENNANI Y, F. F. G. P. 1990. A Connectionist Approach for Automatic Speaker

Identification.

BIMBOT, F., BONASTRE, J. F., FREDOUILLE, C., GRAVIER, G., MAGRIN-CHAGNOLLEAU, I.,

MEIGNIER, S., MERLIN, T., ORTEGA-GARCÍA, J., PETROVSKA-DELACRÉTAZ, D. & REYNOLDS, D.

A. 2004. A tutorial on text-independent speaker verification. EURASIP Journal on Applied

Signal Processing, 2004, 430-451.

BORRERO, H., BAQUERO, Y. & ALEZONES, Z. Year. Reconocimiento de Palabras Aisladas

Utilizando LPC Y DTW, para control de navegación de un mini-robot. In, 2011.

BURGET, L., MATEJKA, P., SCHWARZ, P., GLEMBEK, O. & CERNOCKY, J. 2007. Analysis of

feature extraction and channel compensation in a GMM speaker recognition system. Audio,

Speech, and Language Processing, IEEE Transactions on, 15, 1979-1986.

CAMPBELL JR, J. P. 1997. Speaker recognition: A tutorial. Proceedings of the IEEE, 85, 1437-

1462.

CAMPBELL, W., GLEASON, T., NAVRATIL, J., REYNOLDS, D., SHEN, W., SINGER, E. &

TORRES-CARRASQUILLO, P. Year. Advanced language recognition using cepstra and

phonotactics: MITLL system performance on the NIST 2005 language recognition evaluation.

In, 2006. IEEE, 1-8.

D. A. REYNOLDS, W. A., J. P. CAMPBELL, J. NAVRATIL, B. PESKIN, A. G. ADAMI, Q. JIN, D. KLUSACEK,

J. ABRAMSON, R. MICHAESCU, J. J. GODFREY, J. DOUGLAS, AND B. XIANG 2002. SuperSID

project final report,” SuperSID project

FURUI, S. 1986. Speaker-Independent isolated word recognition using dinamic feature of

ANEXOS 49

speech spectrum. IEEE Trans Acust Speech and Signal Processing , ASSP.

FURUI S., I. F. Y. S. 1972. Talker Recognition by Longtime Averaged Speech Spectrum.

GU, L. & ROSE, K. Year. Perceptual harmonic cepstral coefficients for speech recognition in

noisy environment. In, 2001. IEEE, 125-128.

I. LUENGO, E. N., I HENAEZ, ET ALL. Eficacia de las características prosódicas a corto plazo en la

verificación de locutor

KIM, S. E. T. 2004. A Pitch Synchronous Features Extraction Method for Speaker

Recognition. ICASSP

KINNUNEN, T. & LI, H. 2010. An overview of text-independent speaker recognition: From

features to supervectors. Speech communication, 52, 12-40.

LI, W. E. H. 1983. An approach to text Independent Speaker Recognition with Short

Utterances.

M. J. CAREY, E. S. P., H. LLOYD-THOMAS, AND S. BENNETT, . Year. Robust Prosodic

Features for Speaker Identification,. In: ICSLP, 1996. Philadelphia, EEUU.

MARKEL , J. 1977. Long-Term Feature Averaging for Speaker Recognition”. Proc. IEEE

Trans. Acoust. Speech Signal Processing.

MATSUI T, F. S. 1992. Comparison of text Independent Speaker Recognition Methods

Using VQ Distortion and Discrete/Continuous HMMs.

OGLESBY J, M. 1990. Optimization of Neural Models for Speaker Identification.

PORTIZ A, B. 1982. Linear Prediction Hidden Markov Models and the Speech Signal. Proc.

IEEE ICASSP.

QUATIERI, T. F. & ROOM, D. T. 2009. EE533 Digital Speech Processing Fall 2009.

REYNOLDS 2003. The superSID project: exploiting high_level information for high accuracy

speaker recognition.

REYNOLDS, D. A. Year. An overview of automatic speaker recognition technology. In, 2002.

IEEE, IV-4072-IV-4075.

SHIKANO, K. 1985. Text Independent Speaker Recognition Experiments Using Codebooks

in Vector

Quantization. J. Acoust. Soc. Am. (abstract), Suppl.

ZHENG, Y. 1988. Text Dependent Speaker Identification Using Circular Hidden Markov

Models.

ANEXOS 50

ANEXOS

Anexo I Tabla de errores cometidos por el HMM por cada locutor.

Clasificación. HMM

LOC MFCC PHCC PS_MFCC PS_PHCC

1 0.8147 0.4984 0.3484 0.4956

2 0.9058 0.9597 1.0342 0.0922

3 0.127 0.3404 0.4818 0.2519

4 0.9134 0.5853 0.207 1.0047

5 0.6324 0.2238 1.0135 0.1676

6 1.0975 0.7513 1.0973 0.9084

7 0.2785 0.2551 0.4915 0.5922

8 0.5469 0.506 0.1245 1.0957

9 0.9575 0.6991 0.289 0.086

10 0.9649 0.8909 0.4578 0.4869

11 1.1576 0.9593 0.6663 0.1173

12 0.9706 0.5472 0.2937 1.0581

13 0.9572 0.1386 0.6752 0.0051

14 0.4854 0.1493 0.7966 0.8524

15 0.8003 0.2575 0.2484 0.899

ANEXOS 51

16 0.6419 0.8407 0.1315 0.9556

17 0.4218 0.2543 0.3323 0.0929

18 0.9157 0.8143 0.357 0.4398

19 0.7922 0.2435 0.4751 0.2859

20 0.9595 0.9293 0.5688 0.8801

21 0.6557 0.35 0.0958 0.4746

22 0.0357 0.1966 0.294 1.0017

23 0.8491 0.2511 0.8971 0.2

24 0.934 0.616 0.0327 0.2902

25 0.6787 0.4733 1.0403 0.1601

26 0.7577 0.3517 0.818 0.1497

27 0.7431 0.8308 0.5472 0.9562

28 0.3922 0.5853 0.6479 0.6377

29 0.6555 0.5497 0.2658 0.6048

30 1.1712 0.9172 0.5139 0.1595

31 0.706 0.2858 1.0787 0.9383

32 0.0318 0.7572 0.6124 0.6843

33 0.2769 0.7537 0.5837 0.386

34 0.0462 0.3804 0.2594 0.5646

35 0.0971 0.5678 0.5476 0.442

36 0.8235 0.0759 0.6989 0.0836

37 0.6948 0.054 0.7606 0.2639

38 0.3171 0.5308 0.443 0.1357

39 0.9502 0.7792 0.4115 0.2023

40 0.0344 0.934 1.1065 0.2639

41 0.4387 0.1299 0.0423 0.459

ANEXOS 52

42 0.3816 0.5688 0.9914 0.0546

43 0.7655 0.4694 1.0229 0.993

44 0.7952 0.0119 0.8917 1.0393

45 0.1869 0.3371 0.1106 0.54

46 0.4898 0.1622 0.2933 0.5382

47 0.4456 0.7943 0.3756 0.3715

48 0.6463 0.3112 0.7613 0.9901

49 0.7094 0.5285 0.1529 0.4062

50 0.7547 0.1656 0.8078 0.1223

51 0.276 0.602 0.1196 0.8583

52 0.6797 0.263 0.7322 0.4287

53 0.6551 0.6541 0.5535 0.2659

54 0.1626 0.6892 0.8725 0.4443

55 0.119 0.7482 0.8008 0.1061

ANEXOS 53

Anexo II Sistema PHaSe-SACE

El sistema PHaSe-SACE utiliza una Red Neuronal Artificial Recurrente (Elman) para el

reconocimiento del locutor. Surge como una iniciativa, en el intento de mejorar también el

bloque de reconocimiento del Sistema de Verificación utilizado como indicador de

efectividad de los algoritmos vistos en este trabajo. Este sistema solo constituye una

herramienta que permite a los investigadores estudiar el comportamiento de un sistema

de verificación utilizando este tipo de red neuronal. La implantación en un sistema real

utilizando esta red, depende de los resultados experimentales que se alcancen con esta

herramienta. La figura que se muestra a continuación constituye el ambiente gráfico que

muestra PHaSe-SACE para el reconocimiento del locutor.

PHaSe-SACE herramienta para el reconocimiento del locutor. Se apoya en una red neuronal

artificial recurrente (Elman).

ANEXOS 54

PHaSe-SACE permite al investigador crear distintas topologías de la red neuronal con la

que se quiere hacer el experimento. Para definir la topología solo se tiene que dirigir a la

sección superior izquierda “Topología de la red neuronal artificial” y definir cada capa

oculta de la red y la cantidad de neuronas por capa. Es importante señalar que la capa

inicial y final de la red no es controlada directamente por el usuario, depende de la base

de casos con que se entrene la red, en la cual el sistema de forma automática detecta la

cantidad de rasgos de entradas y define en la capa inicial una neurona por cada uno de

estos. Lo mismo sucede con la capa de salida, en donde el sistema determina la cantidad

de neuronas en dependencia de la cantidad de locutores diferentes que participan en fase

de entrenamiento. De igual manera asigna una neurona por cada locutor. PHaSe-SACE

permite configurar los distintos parámetros de entrenamiento de la red. Cuenta para esto

con una sección destinada a tal objetivo en la esquina superior derecha, en donde el

usuario puede definir el máximo de iteraciones, el intervalo de visualización de red ,

máximo de fallas y una cota inferior del error que se quiere obtener. Una vez definidos

estos parámetros es posible pasar al entrenamiento de red con solo especificar el

directorio donde se encuentran los archivos generados con los patrones de voz de los

locutores. Estos archivos previamente debieron haber sido generados por el sistema

PHaSe-SAEC en el formato RNA. Para esto, basta con presionar en el botón Nuevo de la

sección Base de casos: Entrenamiento para especificar el directorio y luego en el botón

Cargar. Posteriormente se presiona en el botón entrenar para dar inicio al proceso de

entrenamiento. En la figura siguiente se muestra el sistema en la fase de entrenamiento.

ANEXOS 55

PHaSe-SACE realizando un entrenamiento.

Una vez completada la fase de entrenamiento, la red se encuentra lista para realizar

clasificaciones que permitan al usuario conocer la efectividad de la red .Para ello debe

especificar de forma similar el directorio donde se encuentran aquellos casos que se

utilizarán para simular la red y con presionar en el botón Simular Red el sistema mostrará

los resultados de clasificación por cada caso y finalmente mostrará la cantidad de casos

correctamente clasificados, los incorrectamente clasificados y dará la exactitud del

sistema. El criterio asumido para eso es la cantidad de casos correctamente clasificados

dividido por el total de casos con que se simuló la red. Esto es un criterio que puede ser

cambiado en futuros trabajos. Finalmente el usuario puede realizar una salva de la red

para su posterior uso presionando sobre el botón Guardar Modelo.

Documents

Universidad Central “Marta Abreu” de Las Villas