Download pdf - Evaluation of the Effects of Speech Enhancement Algorithms

Evaluation of the Effects of Speech EnhancementAlgorithms on the Detection of Fundamental

Frequency of Speech

Nicanor Garcıa Ospina, Juan Camilo Vasquez Correa, JesusFrancisco Vargas Bonilla, Juan Rafael Orozco Arroyave, Julian

David Arias Londono

Facultad de IngenierıaUniversidad de Antioquia

[email protected]

18 de septiembre de 2014

1 / 30

Contenido

IntroduccionProblema del ruidoObjetivoTecnicas de Speech EnhancementMetodos de deteccion del pitch y segmentacion v/uvMetodologıaResultadosConclusiones

2 / 30

Introduccion

Dos tipos desonidos [1]:

I Vocalicos(voiced).

I No-vocalicos(unvoiced).

Segmentacion v/uv:

I Segmentacionautomatica [2].

I Mejordesempeno [3, 4].

3 / 30

Introduccion

Pitch: Frecuencia de vibracionde los pliegues vocales [2].

I Su presencia es necesariapara que un sonido seavocalico.

I Se puede usar para realizarsegmentacion v/uv.

I Independiente del hablan-te y del idioma [1].

Time (s)

0 1.1310

5000

Fre

qu

ency

(H

z)

Time (s)

0 1.1310

8000

Fre

qu

ency

(H

z)

4 / 30

Problema del ruidoEn ambientes no-controlados:

I La segmentacion v/uv y la deteccion del pitch se ven afectadas porruido aditivo [2].

Para remediar esto se debe:

I Pre-procesar la senal.

I Tecnicas de Speech Enhancement.

I Su efecto no ha sido evaluado a profundidad.

5 / 30

Objetivo

I Evaluar de manera objetiva el efecto de las tecnicas de SpeechEnhancement en el desempeno de sistemas para deteccion delpitch y segmentacion v/uv.

6 / 30

Speech Enhancement

Tecnicas de eliminacion de ruido disenadas para lasenal de voz [5].

I Buscan un estimador de la senal de voz limpia.

I Su objetivo es la calidad e inteligibilidad.

I Mejor desempeno en algunos sistemas [6, 7]

Se pueden dividir en cuatro tipos de algoritmos:

I Sustraccion Espectral (Spectral Substraction,SS)

I Filtros de Wiener (Wiener Filter, WF)

I Basadas en modelos estadısticos (ME)

I Subespacio (Subspace)

7 / 30

Modelo de senal

Se utiliza el siguiente modelo para lasenal contaminada [5]

y(n) = x(n) + d(n) (1)

donde

I x [n] es la senal de voz limpia.

I d(n) es el ruido.

I Se asume independencia y no-correlacion.

8 / 30

Sustraccion espectral

Ventajas:

I Muy simple computacionalmente.

I Relativamente buena efectividad.

I Muchas versiones y mejoras [5].

Desventajas:

I Produce ruido musical[8].

Versiones evaluadas:

I Sustraccion Espectral con sobre-sustraccion (SSBerouti) [9]. +

I Sustraccion Espectral Multi-Banda (SSMB) [10]. +

9 / 30

Filtro de Wiener

Es un estimador lineal del espectro complejo dela senal limpia [5].Ventajas:

I Es optimo en terminos del mınimo errorcuadratico medio.

I Poca distorsion de la senal.

Desventajas:

I Elimina poco ruido a SNRs bajas.

I No es posible calcular directamente H(ωk).

Version evaluada:

I Estimacion de la SNR a priori (WF) [11].

+

10 / 30

Metodos basados en modelos estadısticosDesarrollados a partir de modelosestadısticos de los espectros demagnitud de la senal y el ruido.Ventajas:

I Estimadores no lineales [5].

I Disminuyen el ruido musical [12].

Desventajas:

I Computacionalmentecomplejos[13].

Estimadores evaluados:

I Minimum Mean Square Error(MMSE) [14]. +

I Log-spectra MMSE (LogMMSE)[15]. +

11 / 30

Algoritmos de subespacio

La senal contaminada define un espaciovectorial que se puede descomponer en:

1. Sub-espacio de senal.

2. Sub-espacio de ruido.

Ventajas:

I Transformada dependiente de lasenal.

I Disminucion de ruido musical.

Desventajas:

I Computacionalmente complejo.

Version evaluada:

I Enfoque de sub-espacio generalizado

(KLT) [16]. +

12 / 30

Metodos de deteccion del pitch y segmentacion v/uv

En este trabajo se escogieron dos de los algoritmos mas usados [17, 18]:

I Metodo modificado de la autocorrelacion implementado en Praat [19].

I Metodo Suma de armonicos de la onda residual (SRH) [20].

Ambos algoritmos cuentan con metodos de segmentacion v/uv basados enumbrales.

13 / 30

Deteccion de pitch y segmentacion v/uv en PraatPraat es uno de los programas masutilizados para el analisis de lavoz [21]. El metodo modificado dela autocorrelacion [19]:

I Toma en cuenta el efecto de laventana.

I Robusto a errores de octa-va [19].

I Segmentacion v/uv a partir dela energıa del pitch.

Se evaluaron las configuraciones:

I Praat1: Ventana deHamming.

I Praat2: Ventana Gaussiana.

+

14 / 30

Metodo SRH

I Analisis en tiempo cortode la senal e(t).

I Disminucion de los efectosdel ruido y las resonanciasdel tracto vocal[20].

I Deteccion en dos iteracio-nes.

I Segmentacion v/uv a par-tir del valor del SRH.

+

15 / 30

Metodologıa: Bases de datos

Se utilizo la base de datos de laUniversidad Keele [22].

I Creada para la evaluacion de al-goritmos de deteccion del pitch ysegmentacion v/uv.

I 10 grabaciones de la fabula TheNorth Wind and the Sun.

I Balanceada: 5 mujeres y 5 hom-bres.

I Etiquetas de referencia.

Se uso la configuracion por defecto delos algoritmos de Speech Enhancement.

16 / 30

Metodologıa: Medidas de evaluacion

Evaluacion de los segmentadores v/uv [2]:

I Voicing Detection Error (VDE).

Considera:

I El numero de segmentos vocalicos etiquetados como no vocalicos: NV→U

I El numero de aquellos no-vocalicos etiquetados como vocalicos NU→V

I El numero total de segmentos en la senal N

Se calcula como

VDE =NV→U + NU→V

N× 100 % (2)

17 / 30

Metodologıa: Medidas de evaluacion

Evaluacion de la deteccion del pitch [2]:

I Gross Pitch Error (GPE)

Considera:

I El numero de segmentos vocalicos con un error relativo mayor al 20 % NF0E

I El numero de segmentos vocalicos correctamente identificados NVV

Se calcula como:

GPE =NF0E

NVV× 100 % (3)

18 / 30

Experimento

Configuracion de los algoritmos de deteccion y segmentacion:

Praat1 Praat2 SRHPaso [ms] 10Ventana de analisis [ms] 40 80 100Solape [ %] 75 87.5 90Mın. pitch [Hz] 75Max. pitch [Hz] 500

I Los valores presentados aquı son las media de los GPE y VDE en todas lassenales de la base de datos.

19 / 30

ResultadosEvaluacion de los algoritmos de segmentacion y deteccion.Ruido WGN sin procesamiento.

−4 −2 0 2 4 6 8 105

10

15

20

25

30

35

40

SNR [dB]

VD

E [%

]

Voicing Determination Error −WGN

Cl − Praat 1

Cl − Praat 2

Cl − SRH

Ns − Praat 1

Ns − Praat 2

Ns − SRH

−4 −2 0 2 4 6 8 101

2

3

4

5

6

7

8

9

10

SNR [dB]

GP

E [%

]

Gross Pitch Error −WGN

Cl − Praat 1

Cl − Praat 2

Cl − SRH

Ns − Praat 1

Ns − Praat 2

Ns − SRH

20 / 30

ResultadosEvaluacion de los algoritmos de segmentacion y deteccion.Ruido Cafeteria sin procesamiento.

−4 −2 0 2 4 6 8 105

10

15

20

25

30

35

40

45

SNR [dB]

VD

E [

%]

Voicing Determination Error −Cafeteria babble

Cl − Praat 1

Cl − Praat 2

Cl − SRH

Ns − Praat 1

Ns − Praat 2

Ns − SRH

−4 −2 0 2 4 6 8 100

5

10

15

20

25

30

35

40

SNR [dB]

GP

E [

%]

Gross Pitch Error −Cafeteria babble

Cl − Praat 1

Cl − Praat 2

Cl − SRH

Ns − Praat 1

Ns − Praat 2

Ns − SRH

21 / 30

ResultadosEvaluacion de los algoritmos de Speech Enhancement.Ruido WGN. Segmentacion y deteccion con SRH.

−4 −2 0 2 4 6 8 105

10

15

20

25

30

SNR [dB]

VD

E [%

]

Voicing Determination Error −WGN − SRH

Clean

Noisy

KLT

MMSE

LogMMSE

SSBerouti

SSMB

WF

−4 −2 0 2 4 6 8 101

2

3

4

5

6

7

8

9

SNR [dB]

GP

E [%

]

Gross Pitch Error −WGN − SRH

Clean

Noisy

KLT

MMSE

LogMMSE

SSBerouti

SSMB

WF

22 / 30

ResultadosEvaluacion de los algoritmos de Speech Enhancement.Ruido Cafeteria. Segmentacion y deteccion con SRH.

−4 −2 0 2 4 6 8 105

10

15

20

25

30

35

40

45

SNR [dB]

VD

E [%

]

Voicing Determination Error −Cafeteria babble − SRH

Clean

Noisy

KLT

MMSE

LogMMSE

SSBerouti

SSMB

WF

−4 −2 0 2 4 6 8 100

10

20

30

40

50

60

SNR [dB]

GP

E [%

]

Gross Pitch Error −Cafeteria babble − SRH

Clean

Noisy

KLT

MMSE

LogMMSE

SSBerouti

SSMB

WF

23 / 30

Conclusiones

I SRH tiene un desempeno mejor que Praat en la segmentacion v/uv y ladeteccion del pitch tanto para las senales limpias como para aquellas con-taminadas con ruido WGN.

I Ambos, SRH y Praat, tienen desempenos similares para senales contami-nadas con ruido tipo Cafeteria.

I Solo el algoritmo KLT es capaz de mejorar la segmentacion v/uv, realizadacon SRH, en senales contaminadas con ruido tipo Cafeteria.

I Ninguna tecnica de Speech Enhancement logra mejorar significativamentela deteccion del pitch.

I Como trabajo futuro se propone evaluar el efecto de las tecnicas de SpeechEnhancement en otras tecnicas de deteccion del pitch y segmentacion v/uvy en caracterısticas como medidas de ruido y MFCCs.

24 / 30

Agradecimientos

Se agradece a Colciencias, mediante la convocatoria de jovenesinvestigadores e innovadores 2013, de la cual es beneficiario JuanCamilo Vasquez Correa, y mediante la Convocatoria 528 paraestudios de doctorado en Colombia 2011 de la cual es beneficiarioJuan Rafael Orozco Arroyave. Este trabajo tambien es parcialmentefinanciado por el proyecto de colciencias numero 111556933858.

25 / 30

Gracias¿Preguntas?

26 / 30

Bibliografia I

[1] R. W. Schafer L. R. Rabiner.Introduction to Digital Speech Processing, Foundations and Trends in Signal Processing, volume 1.now Publishers Inc., Hanover, MA, 4 edition, 2007.

[2] W. J. Hess.Spriger Handbook of Speech Processing, chapter 10. Pitch and Voicing Determination of Speech with anExtension Toward Music Signals, pages 181–212.Springer-Verlag, Berlin, 2008.

[3] Eliza Concepcion, Mary Shalom, B. Lopez, Michael Gringo, Angelo Bayona, Michael Morales, Franz De Leon,Belen Calingacion, Prospero Naval, Rowena Cristina, and L. Guevara.Determination of prosodic feature set for emotion recognition in acted call center speech.2008.

[4] J. Pohjalainen and P. Alku.Automatic detection of anger in telephone speech with robust autoregressive modulation filtering.In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages7537–7541, May 2013.

[5] Philipos C. Loizou.Speech Enhancement: Theory and Practice.CRC Press, Inc., Boca Raton, FL, USA, 2nd edition, 2013.

[6] Jia-Ching Wang, Chung-Hsien Yang, Jhing-Fa Wang, and Hsiao-Ping Lee.Robust speaker identification and verification.Computational Intelligence Magazine, IEEE, 2(2):52–59, 2007.

[7] R. Saeidi, J. Pohjalainen, T. Kinnunen, and P. Alku.Temporally weighted linear prediction features for tackling additive noise in speaker verification.Signal Processing Letters, IEEE, 17(6):599–602, June 2010.

Bibliografia II

[8] S. Boll.Suppression of acoustic noise in speech using spectral subtraction.Acoustics, Speech and Signal Processing, IEEE Transactions on, 27(2):113–120, 1979.

[9] M. Berouti, R. Schwartz, and J. Makhoul.Enhancement of speech corrupted by acoustic noise.In Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’79., volume 4, pages208–211, 1979.

[10] Sunil Kamath and Philipos Loizou.A multi-band spectral subtraction method for enhancing speech corrupted by colored noise.In Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, volume 4,pages IV–4164–IV–4164, 2002.

[11] P. Scalart and J.V. Filho.Speech enhancement based on a priori signal to noise estimation.In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEEInternational Conference on, volume 2, pages 629–632 vol. 2, 1996.

[12] O. Cappe and J. Laroche.Evaluation of short-time spectral attenuation techniques for the restoration of musical recordings.Speech and Audio Processing, IEEE Transactions on, 3(1):84–93, Jan 1995.

[13] P.J. Wolfe and S.J. Godsill.Simple alternatives to the ephraim and malah suppression rule for speech enhancement.In Statistical Signal Processing, 2001. Proceedings of the 11th IEEE Signal Processing Workshop on, pages496–499, 2001.

[14] Y. Ephraim and D. Malah.Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator.Acoustics, Speech and Signal Processing, IEEE Transactions on, 32(6):1109–1121, 1984.

Bibliografia III

[15] Y. Ephraim and D. Malah.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.Acoustics, Speech and Signal Processing, IEEE Transactions on, 33(2):443–445, 1985.

[16] Yi Hu and P.C. Loizou.A generalized subspace approach for enhancing speech corrupted by colored noise.Speech and Audio Processing, IEEE Transactions on, 11(4):334–341, 2003.

[17] M.A Little, P.E. McSharry, E.J. Hunter, J. Spielman, and L.O. Ramig.Suitability of dysphonia measurements for telemonitoring of parkinson’s disease.Biomedical Engineering, IEEE Transactions on, 56(4):1015–1022, April 2009.

[18] Thomas Drugman, Myriam Rijckaert, Claire Janssens, and Marc Remacle.Tracheoesophageal speech: A dedicated objective acoustic assessment.Computer Speech & Language, (0):–, 2014.

[19] Paul Boersma.Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampledsound.In IFA Proceedings 17, pages 97–110, 1993.

[20] Thomas Drugman and Abeer Alwan.Joint robust voicing detection and pitch estimation based on residual harmonics.In INTERSPEECH, pages 1973–1976. ISCA, 2011.

[21] Paul Boersma and David Weenink.Praat: doing phonetics by computer, 2013.

[22] F. Plante, Georg F. Meyer, and William A. Ainsworth.A pitch extraction reference database.In EUROSPEECH. ISCA, 1995.

Bibliografia IV

[23] L.T. McWhorter and L.L. Scharf.Multiwindow estimators of correlation.Signal Processing, IEEE Transactions on, 46(2):440–448, Feb 1998.

Sustraccion espectral con sobre-sustraccion

Para disminuir la incidencia del ruido musical Beroutti et al. proponen en 1979 lasiguiente modificacion [9]

|X (ω)| =

{|Y (ω)| − α|D(ω)| si |Y (ω)| > (α+ β)|D(ω)|β|D(ω)| en otro caso

Se propone utilizar dos parametros en la tecnica, el de sobre-sustraccion α y el

parametro de piso de ruido β. Volver

1 / 23

Parametro de sobre-sustraccion

El parametro de sobre-sustraccion se calcula a partir de la SN por una relacion linealde la siguiente manera

α =

α0 + 5

ssi SNR < −5dB

α0 − 1s

(SNR) si − 5dB ≤ SNR ≤ 20dB1 si SNR > 20dB

donde 1/s es la pendiente de la recta.

El parametro β es constante. Volver

2 / 23

Sustraccion espectral multi-banda

Debido a que la senal de voz no se ve afectada de igual forma en todo el espectro,Kamath y Loizou proponen en 2002 la siguiente modificacion [10]

|Xi (ω)|2 =

{|Yi (ω)|2 − αiδi |Di (ω)|2 si |Y (ω)|2 > |D(ω)|2β|Di (ω)|2 en otro caso

El parametro δ se calcula de la siguiente manera

δi =

1 si fi < 1kHz

2,5 si 1kHz < fi <fs2− 2kHz

1,5 si fi >fs2− 2kHz

Donde fi es la frecuencia superior de la i-esima banda y fs la frecuencia de muestreo.

El parametro de sobre-sustraccion αi tambien se calcula para cada banda con la SNR

respectiva. Volver

3 / 23

Detalles, filtros de Wiener

Para desarrollar el filtro de Wiener en la frecuencia se parte de un filtro de respuestainfinita al impulso para obtener un estimador de la senal deseada d :

d(n) =∞∑

k=−∞hky(n − k) = h(n) ∗ y(n) (4)

En el dominio de la frecuencia

D(ω) = H(ω)Y (ω) (5)

El error de esta estimacion viene dado por

E(ω) = D(ω)− D(ω) = D(ω)− H(ω)Y (ω) (6)

El error cuadratico medio viene dado por

E [|E(ω)|2] = E [|D(ω)|2]− H(ω)E [D ∗ (ω)Y (ω)]−H ∗ (ω)E [Y ∗ (ω)D(ω)] + |H(ω)|2E [|Y (ω)|2]

(7)

Volver

4 / 23

Detalles, desarrollo filtros de Wiener

Notando que Pyy = E [|Y (ω)|2] es el espectro de potencia de y(n) y quePyd = E [Y (ω)D ∗ (ω)] es el espectro cruzado de potencia, se puede expresar el MMSEcomo

E [|E(ω)|2] = E [|D(ω)|2]− H(ω)Pyd (ω)− H ∗ (ω)Pdy (ω) + |H(ω)|2Pyy (ω) (8)

derivando con respecto a H(ω) e igualando a cero se obtiene que el filtro optimoesta dado por

H(ω) =Pdy (ω)

Pyy (ω)(9)

Volver

5 / 23

Detalles, filtros de Wiener para Speech Enhancement

En el caso de la eliminacion de ruido en senales de voz y asumiendo no-correlacionentre senal de voz y ruido se tiene que

Pdy = E [X (ω){X (ω) + N(ω)}∗]= E [X (ω)X ∗ (ω) + E [X (ω)N ∗ (ω)]= Pxx (ω)

(10)

y de manera similar

Pyy = E [{X (ω) + N(ω)}{X (ω) + N(ω)}∗]= Pxx (ω) + Pnn(ω)

(11)

Volver

6 / 23

Relacion senal-a-ruido a priori y a posteriori

La relacion senal a ruido (SNR) a priori es la razon entre la senal de voz original y elruido, ası se expresa de diferentes maneras de acuerdo a las caracterısticas que seobservan [5]

ξk ,Pxx (ωk )

Pdd (ωk ),λx (k)

λd (k),

E [|X (ω)|2]

E [|D(ω)|2](12)

No se puede determinar directamente en condiciones reales. Se han desarrolladodiferentes algoritmos para estimarla.La Relacion senal a ruido a posteriori se define como la razon entre la senal de vozcontaminada y el ruido. Se puede expresar como

γk ,Pyy (ωk )

Pdd (ωk ),

Y 2k

λd (k),

E [|Y (ω)|2]

E [|D(ω)|2](13)

Tampoco se puede determinar exactamente, pues no se puede determinar el ruidodirectamente.

7 / 23

Estimacion de la SNR a priori I

Una de los metodos propuestos para obtener un estimado de la SNR a priori esconocido como Decision-Directed Approach. En este se parte de las siguienteigualdades [14]

ξk (m) =E [X 2

k (m)]

λd (k,m)(14)

ξk (m) = E [γk (m)]− 1 (15)

donde m denota la ventana de analisis actual. Al combinarlas resulta

ξk (m) = E

[1

2

X 2k (m)

λd (k,m)+

1

2(γk (m)− 1)

](16)

El estimador final se logra al hacer la anterior ecuacion recursiva.

ξk (m) = α|Xk (m − 1)|2

|Dk (m − 1)|2+ (1− α) max(γk (m)− 1, 0) (17)

donde α es un factor de ponderacion que reemplaza el 1/2 y Xk (m − 1) es el espectro

del estimador de la senal limpia obtenido para la ventana anterior.

8 / 23

Detalles algoritmo MMSE

En el enfoque Bayesiano del error cuadratico medio el valor esperado se realiza conrespecto a la pdf conjunta p(Y,Xk ) y esta dado por

BMSE(Xk ) =

∫ ∫(Xk − Xk )2p(Y,Xk )YdXk (18)

La minimizacion de la anterior resulta en

Xk = E [Xk |Y (ω0)Y (ω1)...Y (ωN−1)] (19)

y asumiendo independencia entre los coeficientes de la transformada de Fourier

Xk = E [Xk |Y (ωk )] =

∫ ∞0

Xkp(xk |Y (ωk ))dXk (20)

Volver

9 / 23


Utilizando la regla de Bayes para determinar la probabilidad p(xk |Y (ωk ))

Xk =

∫∞0 Xkp(Y (ωk |Xk )p(Xk )dXk∫∞0 P(Y (ωk )|Xk )p(Xk )dXk

(21)

Ademas

p(Y (ωk |Xk )p(Xk ) =

∫ 2π

0p(Y (ωk )|xk , θx )p(xk , θx )dθx (22)

Donde θx es la realizacion de la variable aleatoria de la fase de X (ωk ). Ahora se debenestimar p(Y (ωk )|xk , θx ) y p(xk , θx ). Asumiendo Y (ωk ) como la suma de dos variablesaleatorias Gaussianas de media cero

p(Y (ωk )|xk , θx ) =1

πλd (k)exp(

{−

1

λd (k)|Y (ωk )− X (ωk )|2

}(23)

donde λD(k) es la varianza de la k-esima componente espectral del ruido. Volver

10 / 23


Para variables aleatorias Gaussianas complejas como se asumio X (ωk ) se sabe que lamagnitud, Xk y fase, θx (k), son independientes y que se puede evaluar la pdf conjuntacomo el producto de las pdfs individuales. La pdf de Xk sigue una distribucion deRayleigh pues Xk =

√r(k)2 + i(k)2 donde r(k) = Re{X (ωk )} y i(k) = Im{X (ωk )}

son variables aleatorias Gaussianas. La pdf de θx (k) is uniforme en (−π, π), ası

p(xk , θx ) =Xk

πλx (k)exp

{−

X 2k

λx (k)

}(24)

donde λx (k) la varianza de la k-esima componente espectral de la senal limpia.

Volver

11 / 23


El paso final para obtener el estimador de la magnitud de la senal limpia se dareemplazando las ecuaciones 24 y 23 en 22 y esta a su vez en 21 y utilizando larepresentacion integral de la funcion de Bessel modificada, ası

con1

λ(k)=

1

λx (k)+

1

λd (k)(25)

Volver

12 / 23


Se pueden evaluar las integrales en la anterior diapositiva como

∫ ∞0

xce−ax2I0(bx)dx =

Γ(0,5c + 0,5)

2a(c+1)/2Φ

(c + 1

2, 1;

b2

4a

)(26)

donde Φ(a, b; z) es la funcion hipergeometrica confluente, definida como

Φ(a, b; z) = 1 +a

b

z

1!+

a(a + 1)

b(b + 1)

z

2!+

a(a + 1)(a + 2)

b(b + 1)(b + 2)

z

3!+ . . . (27)

Volver

13 / 23

Estimador de la magnitud LogMMSE

Basado en las suposiciones ya mencionadas para los coeficientes y minimizando elerror cuadratico medio del logaritmo del espectro de magnitud [15]

E{(log Xk − log Xk )2} (28)

se obtiene un estimador con la funcion de ganancia

G(ξk , γk ) =ξk

ξk + 1exp

{1

2

∫ ∞νk

e−t

tdt

}(29)

Volver

14 / 23

Detalles algoritmo LogMMSE

El estimador optimo se puede obtener evaluando la media del logaritmo de XK

log Xk = E [log Xk |Y (ωk )] (30)

Denotando Zk = log Xk , su funcion generadora de momentos condicionada en Y (ωk )esta dada por

ΦZk |Y (ωk )(µ) = E [exp(µZk )|Y (ωk )] = E [Xµk |Y (ωk )] (31)

Utilizando el mismo modelo estadıstico que se utilizo para obtener el estimadorMMSE, se obtiene

ΦZk |Y (ωk )(µ) = λµ/2k Γ

(µ2

+ 1)

Φ(−µ

2, 1;−νk

)(32)

donde Γ(·) es la funcion gamma y Φ(a, b; x) es la funcion hipergeometrica confluente.

Volver

15 / 23

Detalles algoritmo LogMMSE

Tomando la derivada con respecto µ y evaluandola en µ = 0 es obtiene la mediacondicional del logiaritmo de Xk

E [log Xk |Y (ωk )] =1

2

[log λk + log νk +

∫ ∞νk

exp−tt

dt

](33)

Volver

16 / 23

Enfoque de subespacio generalizado

En esta propuesta se busca una matriz H optima que pueda diagonalizarsimultaneamente las matrices de covarianza de la senal limpia y el ruido,Rx,Rn ∈ <K×K . Ası, [16]

H = V−TQVT (34)

donde V es la matriz de eigenvectores de la matriz Σ estimada como

Σ = R−1n Ry − I (35)

y Q es una matriz diagonal cuyos elementos qii se calculan como:

qii =λ

(i)x

λ(i)x + µ

(36)

donde los λx se estiman como los eigenvalores positivos de la matriz Σ y µ es el

multiplicador de Lagrange, un parametro escalar que sirve para controlar el equilibrio

entre la cantidad de ruido removida y la distorsion de la senal.

Volver

17 / 23

Detalles enfoque de subespacio generalizado

Para ello se sigue el siguiente procedimiento: 1. Calcular la matriz de covarianzaconjunta Σ:

Σ = R−1n Rx (37)

Como no es posible acceder x, this matrix se estima como

Σ = R−1n Ry − I (38)

donde Ry ∈ <K×K es la matriz de covarianza de la senal contaminada, estimada

utilizando el metodo multi-taper [23].

Volver

18 / 23


La matriz de covarianza del ruido Rn se estima inicialmente encontrando el vector deautocorrelacion en una ventana de la senal que solo contiene ruido y organizando estevector en una matriz de Toeplitz y se actualiza cuando se cumple:

Ry(1, 1)

Rn(1, 1)≤ γ (39)

donde γ es un umbral. Luego, se actualiza como:

R(new)n = αR

(old)n + (1− α)Ry (40)

donde α es el coeficiente de adaptacion, que controla la tasa de actualizacion.

Volver

19 / 23


2. Obtener las matrices de eigenvalores y (Λx) eigenvectores (V ) of Σ, i.e.,

ΣV = ΛxV (41)

Estos diagonalizan simultaneamente a Rx y Rn:

Λx = VTRxV (42)

I = VTRnV (43)

Volver

20 / 23


3. Se calcula el estimador optimo como:

H = V−TQVT (44)

donde Q es una matriz diagonal cuyos elementos qii se calculan como:

qii =λ

(i)x

λ(i)x + µ

(45)

donde λx son los eigenvalores de la matriz de covarianza de la senal limpia y µ es elmultiplicador de Lagrange, un parametro escalar que sirve para controlar el equilibrioentre la cantidad de ruido removida y la distorsion de la senal.Como no es posible acceder a la senal limpia, los eigenvalores de Rx se estiman comolos eigenvalores positivos de Σ.

Volver

21 / 23

Detalles metodo de deteccion de pitch en Praat

La senal enventanada se calcula como

a(t) = [x(tmid − 0,5T + t)− µx ]w(t) (46)

donde µx es la media de la senal en el segmento.La funcion de autocorrelacion normalizada se calcula como

ra(τ) =

∫ T−τ0 a(t)a(t + τ)dt∫ T

0 a2(t)dt(47)

El estimado de la funcion de autocorrelacion es:

rx (τ) ≈ra(τ)

rw (τ)(48)

I La longitud de analisis de la ventana esta ligada a la frecuencia mınima a consi-derar como pitch.

Volver

22 / 23

Detalles metodo de Suma de Armonicos de la SenalResidual (SRH)

I Filtrado inverso por prediccion lineal de orden 12 para obtener e(t).

I Se calcula la FFT de un tamano igual a la frecuencia de muestreo para obtenerE(k).

I El valor del SRH se calcula como

SRH(f ) = E(f ) +

Nharm∑k=2

[E(k · f )− E((k − 0,5) · f )] (49)

I Dos iteraciones, la segunda con adaptacion de las frecuencias maximas y mınimasal hablante.

Volver

23 / 23