Evaluation of the Effects of Speech EnhancementAlgorithms on the Detection of Fundamental
Frequency of Speech
Nicanor Garcıa Ospina, Juan Camilo Vasquez Correa, JesusFrancisco Vargas Bonilla, Juan Rafael Orozco Arroyave, Julian
David Arias Londono
Facultad de IngenierıaUniversidad de Antioquia
18 de septiembre de 2014
1 / 30
Contenido
IntroduccionProblema del ruidoObjetivoTecnicas de Speech EnhancementMetodos de deteccion del pitch y segmentacion v/uvMetodologıaResultadosConclusiones
2 / 30
Introduccion
Dos tipos desonidos [1]:
I Vocalicos(voiced).
I No-vocalicos(unvoiced).
Segmentacion v/uv:
I Segmentacionautomatica [2].
I Mejordesempeno [3, 4].
3 / 30
Introduccion
Pitch: Frecuencia de vibracionde los pliegues vocales [2].
I Su presencia es necesariapara que un sonido seavocalico.
I Se puede usar para realizarsegmentacion v/uv.
I Independiente del hablan-te y del idioma [1].
Time (s)
0 1.1310
5000
Fre
qu
ency
(H
z)
Time (s)
0 1.1310
8000
Fre
qu
ency
(H
z)
4 / 30
Problema del ruidoEn ambientes no-controlados:
I La segmentacion v/uv y la deteccion del pitch se ven afectadas porruido aditivo [2].
Para remediar esto se debe:
I Pre-procesar la senal.
I Tecnicas de Speech Enhancement.
I Su efecto no ha sido evaluado a profundidad.
5 / 30
Objetivo
I Evaluar de manera objetiva el efecto de las tecnicas de SpeechEnhancement en el desempeno de sistemas para deteccion delpitch y segmentacion v/uv.
6 / 30
Speech Enhancement
Tecnicas de eliminacion de ruido disenadas para lasenal de voz [5].
I Buscan un estimador de la senal de voz limpia.
I Su objetivo es la calidad e inteligibilidad.
I Mejor desempeno en algunos sistemas [6, 7]
Se pueden dividir en cuatro tipos de algoritmos:
I Sustraccion Espectral (Spectral Substraction,SS)
I Filtros de Wiener (Wiener Filter, WF)
I Basadas en modelos estadısticos (ME)
I Subespacio (Subspace)
7 / 30
Modelo de senal
Se utiliza el siguiente modelo para lasenal contaminada [5]
y(n) = x(n) + d(n) (1)
donde
I x [n] es la senal de voz limpia.
I d(n) es el ruido.
I Se asume independencia y no-correlacion.
8 / 30
Sustraccion espectral
Ventajas:
I Muy simple computacionalmente.
I Relativamente buena efectividad.
I Muchas versiones y mejoras [5].
Desventajas:
I Produce ruido musical[8].
Versiones evaluadas:
I Sustraccion Espectral con sobre-sustraccion (SSBerouti) [9]. +
I Sustraccion Espectral Multi-Banda (SSMB) [10]. +
9 / 30
Filtro de Wiener
Es un estimador lineal del espectro complejo dela senal limpia [5].Ventajas:
I Es optimo en terminos del mınimo errorcuadratico medio.
I Poca distorsion de la senal.
Desventajas:
I Elimina poco ruido a SNRs bajas.
I No es posible calcular directamente H(ωk).
Version evaluada:
I Estimacion de la SNR a priori (WF) [11].
+
10 / 30
Metodos basados en modelos estadısticosDesarrollados a partir de modelosestadısticos de los espectros demagnitud de la senal y el ruido.Ventajas:
I Estimadores no lineales [5].
I Disminuyen el ruido musical [12].
Desventajas:
I Computacionalmentecomplejos[13].
Estimadores evaluados:
I Minimum Mean Square Error(MMSE) [14]. +
I Log-spectra MMSE (LogMMSE)[15]. +
11 / 30
Algoritmos de subespacio
La senal contaminada define un espaciovectorial que se puede descomponer en:
1. Sub-espacio de senal.
2. Sub-espacio de ruido.
Ventajas:
I Transformada dependiente de lasenal.
I Disminucion de ruido musical.
Desventajas:
I Computacionalmente complejo.
Version evaluada:
I Enfoque de sub-espacio generalizado
(KLT) [16]. +
12 / 30
Metodos de deteccion del pitch y segmentacion v/uv
En este trabajo se escogieron dos de los algoritmos mas usados [17, 18]:
I Metodo modificado de la autocorrelacion implementado en Praat [19].
I Metodo Suma de armonicos de la onda residual (SRH) [20].
Ambos algoritmos cuentan con metodos de segmentacion v/uv basados enumbrales.
13 / 30
Deteccion de pitch y segmentacion v/uv en PraatPraat es uno de los programas masutilizados para el analisis de lavoz [21]. El metodo modificado dela autocorrelacion [19]:
I Toma en cuenta el efecto de laventana.
I Robusto a errores de octa-va [19].
I Segmentacion v/uv a partir dela energıa del pitch.
Se evaluaron las configuraciones:
I Praat1: Ventana deHamming.
I Praat2: Ventana Gaussiana.
+
14 / 30
Metodo SRH
I Analisis en tiempo cortode la senal e(t).
I Disminucion de los efectosdel ruido y las resonanciasdel tracto vocal[20].
I Deteccion en dos iteracio-nes.
I Segmentacion v/uv a par-tir del valor del SRH.
+
15 / 30
Metodologıa: Bases de datos
Se utilizo la base de datos de laUniversidad Keele [22].
I Creada para la evaluacion de al-goritmos de deteccion del pitch ysegmentacion v/uv.
I 10 grabaciones de la fabula TheNorth Wind and the Sun.
I Balanceada: 5 mujeres y 5 hom-bres.
I Etiquetas de referencia.
Se uso la configuracion por defecto delos algoritmos de Speech Enhancement.
16 / 30
Metodologıa: Medidas de evaluacion
Evaluacion de los segmentadores v/uv [2]:
I Voicing Detection Error (VDE).
Considera:
I El numero de segmentos vocalicos etiquetados como no vocalicos: NV→U
I El numero de aquellos no-vocalicos etiquetados como vocalicos NU→V
I El numero total de segmentos en la senal N
Se calcula como
VDE =NV→U + NU→V
N× 100 % (2)
17 / 30
Metodologıa: Medidas de evaluacion
Evaluacion de la deteccion del pitch [2]:
I Gross Pitch Error (GPE)
Considera:
I El numero de segmentos vocalicos con un error relativo mayor al 20 % NF0E
I El numero de segmentos vocalicos correctamente identificados NVV
Se calcula como:
GPE =NF0E
NVV× 100 % (3)
18 / 30
Experimento
Configuracion de los algoritmos de deteccion y segmentacion:
Praat1 Praat2 SRHPaso [ms] 10Ventana de analisis [ms] 40 80 100Solape [ %] 75 87.5 90Mın. pitch [Hz] 75Max. pitch [Hz] 500
I Los valores presentados aquı son las media de los GPE y VDE en todas lassenales de la base de datos.
19 / 30
ResultadosEvaluacion de los algoritmos de segmentacion y deteccion.Ruido WGN sin procesamiento.
−4 −2 0 2 4 6 8 105
10
15
20
25
30
35
40
SNR [dB]
VD
E [%
]
Voicing Determination Error −WGN
Cl − Praat 1
Cl − Praat 2
Cl − SRH
Ns − Praat 1
Ns − Praat 2
Ns − SRH
−4 −2 0 2 4 6 8 101
2
3
4
5
6
7
8
9
10
SNR [dB]
GP
E [%
]
Gross Pitch Error −WGN
Cl − Praat 1
Cl − Praat 2
Cl − SRH
Ns − Praat 1
Ns − Praat 2
Ns − SRH
20 / 30
ResultadosEvaluacion de los algoritmos de segmentacion y deteccion.Ruido Cafeteria sin procesamiento.
−4 −2 0 2 4 6 8 105
10
15
20
25
30
35
40
45
SNR [dB]
VD
E [
%]
Voicing Determination Error −Cafeteria babble
Cl − Praat 1
Cl − Praat 2
Cl − SRH
Ns − Praat 1
Ns − Praat 2
Ns − SRH
−4 −2 0 2 4 6 8 100
5
10
15
20
25
30
35
40
SNR [dB]
GP
E [
%]
Gross Pitch Error −Cafeteria babble
Cl − Praat 1
Cl − Praat 2
Cl − SRH
Ns − Praat 1
Ns − Praat 2
Ns − SRH
21 / 30
ResultadosEvaluacion de los algoritmos de Speech Enhancement.Ruido WGN. Segmentacion y deteccion con SRH.
−4 −2 0 2 4 6 8 105
10
15
20
25
30
SNR [dB]
VD
E [%
]
Voicing Determination Error −WGN − SRH
Clean
Noisy
KLT
MMSE
LogMMSE
SSBerouti
SSMB
WF
−4 −2 0 2 4 6 8 101
2
3
4
5
6
7
8
9
SNR [dB]
GP
E [%
]
Gross Pitch Error −WGN − SRH
Clean
Noisy
KLT
MMSE
LogMMSE
SSBerouti
SSMB
WF
22 / 30
ResultadosEvaluacion de los algoritmos de Speech Enhancement.Ruido Cafeteria. Segmentacion y deteccion con SRH.
−4 −2 0 2 4 6 8 105
10
15
20
25
30
35
40
45
SNR [dB]
VD
E [%
]
Voicing Determination Error −Cafeteria babble − SRH
Clean
Noisy
KLT
MMSE
LogMMSE
SSBerouti
SSMB
WF
−4 −2 0 2 4 6 8 100
10
20
30
40
50
60
SNR [dB]
GP
E [%
]
Gross Pitch Error −Cafeteria babble − SRH
Clean
Noisy
KLT
MMSE
LogMMSE
SSBerouti
SSMB
WF
23 / 30
Conclusiones
I SRH tiene un desempeno mejor que Praat en la segmentacion v/uv y ladeteccion del pitch tanto para las senales limpias como para aquellas con-taminadas con ruido WGN.
I Ambos, SRH y Praat, tienen desempenos similares para senales contami-nadas con ruido tipo Cafeteria.
I Solo el algoritmo KLT es capaz de mejorar la segmentacion v/uv, realizadacon SRH, en senales contaminadas con ruido tipo Cafeteria.
I Ninguna tecnica de Speech Enhancement logra mejorar significativamentela deteccion del pitch.
I Como trabajo futuro se propone evaluar el efecto de las tecnicas de SpeechEnhancement en otras tecnicas de deteccion del pitch y segmentacion v/uvy en caracterısticas como medidas de ruido y MFCCs.
24 / 30
Agradecimientos
Se agradece a Colciencias, mediante la convocatoria de jovenesinvestigadores e innovadores 2013, de la cual es beneficiario JuanCamilo Vasquez Correa, y mediante la Convocatoria 528 paraestudios de doctorado en Colombia 2011 de la cual es beneficiarioJuan Rafael Orozco Arroyave. Este trabajo tambien es parcialmentefinanciado por el proyecto de colciencias numero 111556933858.
25 / 30
Gracias¿Preguntas?
26 / 30
Bibliografia I
[1] R. W. Schafer L. R. Rabiner.Introduction to Digital Speech Processing, Foundations and Trends in Signal Processing, volume 1.now Publishers Inc., Hanover, MA, 4 edition, 2007.
[2] W. J. Hess.Spriger Handbook of Speech Processing, chapter 10. Pitch and Voicing Determination of Speech with anExtension Toward Music Signals, pages 181–212.Springer-Verlag, Berlin, 2008.
[3] Eliza Concepcion, Mary Shalom, B. Lopez, Michael Gringo, Angelo Bayona, Michael Morales, Franz De Leon,Belen Calingacion, Prospero Naval, Rowena Cristina, and L. Guevara.Determination of prosodic feature set for emotion recognition in acted call center speech.2008.
[4] J. Pohjalainen and P. Alku.Automatic detection of anger in telephone speech with robust autoregressive modulation filtering.In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages7537–7541, May 2013.
[5] Philipos C. Loizou.Speech Enhancement: Theory and Practice.CRC Press, Inc., Boca Raton, FL, USA, 2nd edition, 2013.
[6] Jia-Ching Wang, Chung-Hsien Yang, Jhing-Fa Wang, and Hsiao-Ping Lee.Robust speaker identification and verification.Computational Intelligence Magazine, IEEE, 2(2):52–59, 2007.
[7] R. Saeidi, J. Pohjalainen, T. Kinnunen, and P. Alku.Temporally weighted linear prediction features for tackling additive noise in speaker verification.Signal Processing Letters, IEEE, 17(6):599–602, June 2010.
Bibliografia II
[8] S. Boll.Suppression of acoustic noise in speech using spectral subtraction.Acoustics, Speech and Signal Processing, IEEE Transactions on, 27(2):113–120, 1979.
[9] M. Berouti, R. Schwartz, and J. Makhoul.Enhancement of speech corrupted by acoustic noise.In Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’79., volume 4, pages208–211, 1979.
[10] Sunil Kamath and Philipos Loizou.A multi-band spectral subtraction method for enhancing speech corrupted by colored noise.In Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, volume 4,pages IV–4164–IV–4164, 2002.
[11] P. Scalart and J.V. Filho.Speech enhancement based on a priori signal to noise estimation.In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEEInternational Conference on, volume 2, pages 629–632 vol. 2, 1996.
[12] O. Cappe and J. Laroche.Evaluation of short-time spectral attenuation techniques for the restoration of musical recordings.Speech and Audio Processing, IEEE Transactions on, 3(1):84–93, Jan 1995.
[13] P.J. Wolfe and S.J. Godsill.Simple alternatives to the ephraim and malah suppression rule for speech enhancement.In Statistical Signal Processing, 2001. Proceedings of the 11th IEEE Signal Processing Workshop on, pages496–499, 2001.
[14] Y. Ephraim and D. Malah.Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator.Acoustics, Speech and Signal Processing, IEEE Transactions on, 32(6):1109–1121, 1984.
Bibliografia III
[15] Y. Ephraim and D. Malah.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.Acoustics, Speech and Signal Processing, IEEE Transactions on, 33(2):443–445, 1985.
[16] Yi Hu and P.C. Loizou.A generalized subspace approach for enhancing speech corrupted by colored noise.Speech and Audio Processing, IEEE Transactions on, 11(4):334–341, 2003.
[17] M.A Little, P.E. McSharry, E.J. Hunter, J. Spielman, and L.O. Ramig.Suitability of dysphonia measurements for telemonitoring of parkinson’s disease.Biomedical Engineering, IEEE Transactions on, 56(4):1015–1022, April 2009.
[18] Thomas Drugman, Myriam Rijckaert, Claire Janssens, and Marc Remacle.Tracheoesophageal speech: A dedicated objective acoustic assessment.Computer Speech & Language, (0):–, 2014.
[19] Paul Boersma.Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampledsound.In IFA Proceedings 17, pages 97–110, 1993.
[20] Thomas Drugman and Abeer Alwan.Joint robust voicing detection and pitch estimation based on residual harmonics.In INTERSPEECH, pages 1973–1976. ISCA, 2011.
[21] Paul Boersma and David Weenink.Praat: doing phonetics by computer, 2013.
[22] F. Plante, Georg F. Meyer, and William A. Ainsworth.A pitch extraction reference database.In EUROSPEECH. ISCA, 1995.
Bibliografia IV
[23] L.T. McWhorter and L.L. Scharf.Multiwindow estimators of correlation.Signal Processing, IEEE Transactions on, 46(2):440–448, Feb 1998.
Sustraccion espectral con sobre-sustraccion
Para disminuir la incidencia del ruido musical Beroutti et al. proponen en 1979 lasiguiente modificacion [9]
|X (ω)| =
{|Y (ω)| − α|D(ω)| si |Y (ω)| > (α+ β)|D(ω)|β|D(ω)| en otro caso
Se propone utilizar dos parametros en la tecnica, el de sobre-sustraccion α y el
parametro de piso de ruido β. Volver
1 / 23
Parametro de sobre-sustraccion
El parametro de sobre-sustraccion se calcula a partir de la SN por una relacion linealde la siguiente manera
α =
α0 + 5
ssi SNR < −5dB
α0 − 1s
(SNR) si − 5dB ≤ SNR ≤ 20dB1 si SNR > 20dB
donde 1/s es la pendiente de la recta.
El parametro β es constante. Volver
2 / 23
Sustraccion espectral multi-banda
Debido a que la senal de voz no se ve afectada de igual forma en todo el espectro,Kamath y Loizou proponen en 2002 la siguiente modificacion [10]
|Xi (ω)|2 =
{|Yi (ω)|2 − αiδi |Di (ω)|2 si |Y (ω)|2 > |D(ω)|2β|Di (ω)|2 en otro caso
El parametro δ se calcula de la siguiente manera
δi =
1 si fi < 1kHz
2,5 si 1kHz < fi <fs2− 2kHz
1,5 si fi >fs2− 2kHz
Donde fi es la frecuencia superior de la i-esima banda y fs la frecuencia de muestreo.
El parametro de sobre-sustraccion αi tambien se calcula para cada banda con la SNR
respectiva. Volver
3 / 23
Detalles, filtros de Wiener
Para desarrollar el filtro de Wiener en la frecuencia se parte de un filtro de respuestainfinita al impulso para obtener un estimador de la senal deseada d :
d(n) =∞∑
k=−∞hky(n − k) = h(n) ∗ y(n) (4)
En el dominio de la frecuencia
D(ω) = H(ω)Y (ω) (5)
El error de esta estimacion viene dado por
E(ω) = D(ω)− D(ω) = D(ω)− H(ω)Y (ω) (6)
El error cuadratico medio viene dado por
E [|E(ω)|2] = E [|D(ω)|2]− H(ω)E [D ∗ (ω)Y (ω)]−H ∗ (ω)E [Y ∗ (ω)D(ω)] + |H(ω)|2E [|Y (ω)|2]
(7)
Volver
4 / 23
Detalles, desarrollo filtros de Wiener
Notando que Pyy = E [|Y (ω)|2] es el espectro de potencia de y(n) y quePyd = E [Y (ω)D ∗ (ω)] es el espectro cruzado de potencia, se puede expresar el MMSEcomo
E [|E(ω)|2] = E [|D(ω)|2]− H(ω)Pyd (ω)− H ∗ (ω)Pdy (ω) + |H(ω)|2Pyy (ω) (8)
derivando con respecto a H(ω) e igualando a cero se obtiene que el filtro optimoesta dado por
H(ω) =Pdy (ω)
Pyy (ω)(9)
Volver
5 / 23
Detalles, filtros de Wiener para Speech Enhancement
En el caso de la eliminacion de ruido en senales de voz y asumiendo no-correlacionentre senal de voz y ruido se tiene que
Pdy = E [X (ω){X (ω) + N(ω)}∗]= E [X (ω)X ∗ (ω) + E [X (ω)N ∗ (ω)]= Pxx (ω)
(10)
y de manera similar
Pyy = E [{X (ω) + N(ω)}{X (ω) + N(ω)}∗]= Pxx (ω) + Pnn(ω)
(11)
Volver
6 / 23
Relacion senal-a-ruido a priori y a posteriori
La relacion senal a ruido (SNR) a priori es la razon entre la senal de voz original y elruido, ası se expresa de diferentes maneras de acuerdo a las caracterısticas que seobservan [5]
ξk ,Pxx (ωk )
Pdd (ωk ),λx (k)
λd (k),
E [|X (ω)|2]
E [|D(ω)|2](12)
No se puede determinar directamente en condiciones reales. Se han desarrolladodiferentes algoritmos para estimarla.La Relacion senal a ruido a posteriori se define como la razon entre la senal de vozcontaminada y el ruido. Se puede expresar como
γk ,Pyy (ωk )
Pdd (ωk ),
Y 2k
λd (k),
E [|Y (ω)|2]
E [|D(ω)|2](13)
Tampoco se puede determinar exactamente, pues no se puede determinar el ruidodirectamente.
7 / 23
Estimacion de la SNR a priori I
Una de los metodos propuestos para obtener un estimado de la SNR a priori esconocido como Decision-Directed Approach. En este se parte de las siguienteigualdades [14]
ξk (m) =E [X 2
k (m)]
λd (k,m)(14)
ξk (m) = E [γk (m)]− 1 (15)
donde m denota la ventana de analisis actual. Al combinarlas resulta
ξk (m) = E
[1
2
X 2k (m)
λd (k,m)+
1
2(γk (m)− 1)
](16)
El estimador final se logra al hacer la anterior ecuacion recursiva.
ξk (m) = α|Xk (m − 1)|2
|Dk (m − 1)|2+ (1− α) max(γk (m)− 1, 0) (17)
donde α es un factor de ponderacion que reemplaza el 1/2 y Xk (m − 1) es el espectro
del estimador de la senal limpia obtenido para la ventana anterior.
8 / 23
Detalles algoritmo MMSE
En el enfoque Bayesiano del error cuadratico medio el valor esperado se realiza conrespecto a la pdf conjunta p(Y,Xk ) y esta dado por
BMSE(Xk ) =
∫ ∫(Xk − Xk )2p(Y,Xk )YdXk (18)
La minimizacion de la anterior resulta en
Xk = E [Xk |Y (ω0)Y (ω1)...Y (ωN−1)] (19)
y asumiendo independencia entre los coeficientes de la transformada de Fourier
Xk = E [Xk |Y (ωk )] =
∫ ∞0
Xkp(xk |Y (ωk ))dXk (20)
Volver
9 / 23
Detalles algoritmo MMSE
Utilizando la regla de Bayes para determinar la probabilidad p(xk |Y (ωk ))
Xk =
∫∞0 Xkp(Y (ωk |Xk )p(Xk )dXk∫∞0 P(Y (ωk )|Xk )p(Xk )dXk
(21)
Ademas
p(Y (ωk |Xk )p(Xk ) =
∫ 2π
0p(Y (ωk )|xk , θx )p(xk , θx )dθx (22)
Donde θx es la realizacion de la variable aleatoria de la fase de X (ωk ). Ahora se debenestimar p(Y (ωk )|xk , θx ) y p(xk , θx ). Asumiendo Y (ωk ) como la suma de dos variablesaleatorias Gaussianas de media cero
p(Y (ωk )|xk , θx ) =1
πλd (k)exp(
{−
1
λd (k)|Y (ωk )− X (ωk )|2
}(23)
donde λD(k) es la varianza de la k-esima componente espectral del ruido. Volver
10 / 23
Detalles algoritmo MMSE
Para variables aleatorias Gaussianas complejas como se asumio X (ωk ) se sabe que lamagnitud, Xk y fase, θx (k), son independientes y que se puede evaluar la pdf conjuntacomo el producto de las pdfs individuales. La pdf de Xk sigue una distribucion deRayleigh pues Xk =
√r(k)2 + i(k)2 donde r(k) = Re{X (ωk )} y i(k) = Im{X (ωk )}
son variables aleatorias Gaussianas. La pdf de θx (k) is uniforme en (−π, π), ası
p(xk , θx ) =Xk
πλx (k)exp
{−
X 2k
λx (k)
}(24)
donde λx (k) la varianza de la k-esima componente espectral de la senal limpia.
Volver
11 / 23
Detalles algoritmo MMSE
El paso final para obtener el estimador de la magnitud de la senal limpia se dareemplazando las ecuaciones 24 y 23 en 22 y esta a su vez en 21 y utilizando larepresentacion integral de la funcion de Bessel modificada, ası
con1
λ(k)=
1
λx (k)+
1
λd (k)(25)
Volver
12 / 23
Detalles algoritmo MMSE
Se pueden evaluar las integrales en la anterior diapositiva como
∫ ∞0
xce−ax2I0(bx)dx =
Γ(0,5c + 0,5)
2a(c+1)/2Φ
(c + 1
2, 1;
b2
4a
)(26)
donde Φ(a, b; z) es la funcion hipergeometrica confluente, definida como
Φ(a, b; z) = 1 +a
b
z
1!+
a(a + 1)
b(b + 1)
z
2!+
a(a + 1)(a + 2)
b(b + 1)(b + 2)
z
3!+ . . . (27)
Volver
13 / 23
Estimador de la magnitud LogMMSE
Basado en las suposiciones ya mencionadas para los coeficientes y minimizando elerror cuadratico medio del logaritmo del espectro de magnitud [15]
E{(log Xk − log Xk )2} (28)
se obtiene un estimador con la funcion de ganancia
G(ξk , γk ) =ξk
ξk + 1exp
{1
2
∫ ∞νk
e−t
tdt
}(29)
Volver
14 / 23
Detalles algoritmo LogMMSE
El estimador optimo se puede obtener evaluando la media del logaritmo de XK
log Xk = E [log Xk |Y (ωk )] (30)
Denotando Zk = log Xk , su funcion generadora de momentos condicionada en Y (ωk )esta dada por
ΦZk |Y (ωk )(µ) = E [exp(µZk )|Y (ωk )] = E [Xµk |Y (ωk )] (31)
Utilizando el mismo modelo estadıstico que se utilizo para obtener el estimadorMMSE, se obtiene
ΦZk |Y (ωk )(µ) = λµ/2k Γ
(µ2
+ 1)
Φ(−µ
2, 1;−νk
)(32)
donde Γ(·) es la funcion gamma y Φ(a, b; x) es la funcion hipergeometrica confluente.
Volver
15 / 23
Detalles algoritmo LogMMSE
Tomando la derivada con respecto µ y evaluandola en µ = 0 es obtiene la mediacondicional del logiaritmo de Xk
E [log Xk |Y (ωk )] =1
2
[log λk + log νk +
∫ ∞νk
exp−tt
dt
](33)
Volver
16 / 23
Enfoque de subespacio generalizado
En esta propuesta se busca una matriz H optima que pueda diagonalizarsimultaneamente las matrices de covarianza de la senal limpia y el ruido,Rx,Rn ∈ <K×K . Ası, [16]
H = V−TQVT (34)
donde V es la matriz de eigenvectores de la matriz Σ estimada como
Σ = R−1n Ry − I (35)
y Q es una matriz diagonal cuyos elementos qii se calculan como:
qii =λ
(i)x
λ(i)x + µ
(36)
donde los λx se estiman como los eigenvalores positivos de la matriz Σ y µ es el
multiplicador de Lagrange, un parametro escalar que sirve para controlar el equilibrio
entre la cantidad de ruido removida y la distorsion de la senal.
Volver
17 / 23
Detalles enfoque de subespacio generalizado
Para ello se sigue el siguiente procedimiento: 1. Calcular la matriz de covarianzaconjunta Σ:
Σ = R−1n Rx (37)
Como no es posible acceder x, this matrix se estima como
Σ = R−1n Ry − I (38)
donde Ry ∈ <K×K es la matriz de covarianza de la senal contaminada, estimada
utilizando el metodo multi-taper [23].
Volver
18 / 23
Detalles enfoque de subespacio generalizado
La matriz de covarianza del ruido Rn se estima inicialmente encontrando el vector deautocorrelacion en una ventana de la senal que solo contiene ruido y organizando estevector en una matriz de Toeplitz y se actualiza cuando se cumple:
Ry(1, 1)
Rn(1, 1)≤ γ (39)
donde γ es un umbral. Luego, se actualiza como:
R(new)n = αR
(old)n + (1− α)Ry (40)
donde α es el coeficiente de adaptacion, que controla la tasa de actualizacion.
Volver
19 / 23
Detalles enfoque de subespacio generalizado
2. Obtener las matrices de eigenvalores y (Λx) eigenvectores (V ) of Σ, i.e.,
ΣV = ΛxV (41)
Estos diagonalizan simultaneamente a Rx y Rn:
Λx = VTRxV (42)
I = VTRnV (43)
Volver
20 / 23
Detalles enfoque de subespacio generalizado
3. Se calcula el estimador optimo como:
H = V−TQVT (44)
donde Q es una matriz diagonal cuyos elementos qii se calculan como:
qii =λ
(i)x
λ(i)x + µ
(45)
donde λx son los eigenvalores de la matriz de covarianza de la senal limpia y µ es elmultiplicador de Lagrange, un parametro escalar que sirve para controlar el equilibrioentre la cantidad de ruido removida y la distorsion de la senal.Como no es posible acceder a la senal limpia, los eigenvalores de Rx se estiman comolos eigenvalores positivos de Σ.
Volver
21 / 23
Detalles metodo de deteccion de pitch en Praat
La senal enventanada se calcula como
a(t) = [x(tmid − 0,5T + t)− µx ]w(t) (46)
donde µx es la media de la senal en el segmento.La funcion de autocorrelacion normalizada se calcula como
ra(τ) =
∫ T−τ0 a(t)a(t + τ)dt∫ T
0 a2(t)dt(47)
El estimado de la funcion de autocorrelacion es:
rx (τ) ≈ra(τ)
rw (τ)(48)
I La longitud de analisis de la ventana esta ligada a la frecuencia mınima a consi-derar como pitch.
Volver
22 / 23
Detalles metodo de Suma de Armonicos de la SenalResidual (SRH)
I Filtrado inverso por prediccion lineal de orden 12 para obtener e(t).
I Se calcula la FFT de un tamano igual a la frecuencia de muestreo para obtenerE(k).
I El valor del SRH se calcula como
SRH(f ) = E(f ) +
Nharm∑k=2
[E(k · f )− E((k − 0,5) · f )] (49)
I Dos iteraciones, la segunda con adaptacion de las frecuencias maximas y mınimasal hablante.
Volver
23 / 23