Upload
dangduong
View
224
Download
0
Embed Size (px)
Citation preview
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 1
Universidadde Granada
$63(&726�7e&1,&26�'(/�,03/$17(�&2&/($5�
)81&,21$0,(172��326,%,/,'$'(6�<�/,0,7$&,21(6
Ángel de la Torre Vega
Dpto. Electrónica y Tecnología de ComputadoresUniversidad de Granada
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 2
Universidadde Granada
FDGHQD�GH�KXHVHFLOORV
WtPSDQR YHQWDQD�RYDO
YHQWDQDFyFOHD
QHUYLR�DXGLWLYR
UHGRQGD
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 3
Universidadde Granada
Laberinto óseo anterior (cóclea)
• Hueso compacto• Formado en el 5º mes de vida embrionaria• Tubo cónico, enrollado sobre cono que
describe 2 vueltas y media
5-6
mm
1-2
mm
32-35 mm
9 mm
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 4
Universidadde Granada
Laberinto membranoso (rampas cocleares)
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 5
Universidadde Granada
El órgano de Corti
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 6
Universidadde Granada
FyFOHD FyFOHD�GHVHQUROODGDPercepción auditiva
HVWULER Y��RYDO
YLEUDFLyQ
Y��UHGRQGD
&HO�FLOLDGDV0HPE��GH5HLVVQHU
SHULOLQID
FRFOHDU
0HPE��EDVLODU3RWHQFLDOHV�GH�DFFLyQ
SDUHG
,PSXOVRV�HOpFWULFRVDXGLWLYRQHUYLR
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 7
Universidadde Granada Teorías de la percepción sonora
• Tonotópica• Patrón temporal de estimulación
– Frecuencia máxima de disparo en células ciliadas y fibras del nervio coclear: 400 – 800 descargas por segundo
– Patrón temporal: depende de la sincronización
• Combinación de ambos mecanismos:– A bajas frecuencias predomina el patrón temporal de
estimulación– A altas frecuencias predomina tonotopia
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 8
Universidadde Granada
Punto de máxima estimulación
���+]
���+] ����+]����+]
����+]����+]
����+]
����+]
�����+]�����+]
�����+]
�����+]
�����+]
��N+]��N+]��N+]
��N+]
���N+]
���N+]
���N+]
���N+]
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 9
Universidadde Granada
Reconocimiento automático de voz
Extracción decaracterísticas
Reconocimientode voz
Sistema de diálogo
Modeloacústico
(fonemas)
Modelolenguaje
(voc+gram)
Basede
datos
Adquisiciónde la voz
Representaciónde la voz
Secuenciade palabras respuesta
Vozsintetizada
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 10
Universidadde Granada
Percepción de la voz
Aparatoauditivo Interpretación del mensaje
Modeloacústico
(fonemas)
Modelolenguaje
(voc+gram)
Informacióncontextual
Adquisiciónde la voz
Representaciónde la voz en
el nervio auditivorespuesta
Producciónde voz
Aparatofonador
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 11
Universidadde Granada
Percepción de la voz con I.C.
ImplanteCoclear Interpretación del mensaje
Modeloacústico
(fonemas)
Modelolenguaje
(voc+gram)
Informacióncontextual
Adquisiciónde la voz
Representaciónde la voz en
el nervio auditivorespuesta
Producciónde voz
Aparatofonador
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 12
Universidadde Granada • Analogía entre:
– Implante coclear– Reconocimiento automático de voz (bloque de
extracción de características)
• Objetivos comunes:– Representar la información de la señal de voz
que permite identificar, discriminar y reconocer las distintas unidades de la voz:
• fonemas• sílabas• palabras
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 13
Universidadde Granada
PLFUyIRQR�\SURFHVDGRU
WUDQVPLVRU�5) UHFHSWRU�5)�\HPLVRU�GH�HVWtPXORV
HOHFWURGR�GH�UHIHUHQFLD
JXtD�GH�HOHFWURGRV
HOHFWURGRVDFWLYRV
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 14
Universidadde Granada
Imagen Rx de un implante
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 15
Universidadde Granada
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 16
Universidadde Granada Objetivos y limitaciones del I.C.
• Objetivos:– Percepción de los sonidos– Percepción de la voz con calidad:
• Identificación, discriminación y reconocimiento de unidades• Fonemas, sílabas, palabras
• Limitaciones:– Técnicas– Aprendizaje
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 17
Universidadde Granada Características del oído humano
• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interación entre canales
• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 18
Universidadde Granada Limitaciones del implante coclear
• No hay conexión sináptica:– Un electrodo estimula muchas fibras– Si se estimulan simultáneamente varios electrodos
hay interferencia entre canales
• Consecuencias:– Pocos electrodos (se representa sólo la envolvente
espectral)– Alta tasa de estimulación– En cada instante sólo se estimula un canal
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 19
Universidadde Granada Limitaciones del implante coclear
• Resolución espectral: pobre – (pocos electrodos)
• Resolución temporal: aceptable – (en implantes con alta tasa de estimulación)– (depende del estado del nervio auditivo)
• Resolución en intensidad: aceptable– (depende del estado del nervio auditivo)
¿Qúe consecuencias tienen las limitaciones sobre la percepción de la voz?
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 20
Universidadde Granada
La señal de voz
/sal/
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 21
Universidadde Granada
La señal de voz
/s/ /a/ /l/
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 22
Universidadde Granada Espectro de las vocales
�D�
�H�
�D� cerrada
�L�
�R�
�X�
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 23
Universidadde Granada Espectro de las vocales
�D�
�H�
�D� cerrada
�L�
�R�
�X�
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 24
Universidadde Granada Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
freq.
2o
form
ante
(Hz)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 25
Universidadde Granada Espectro de consonantes sonoras
�O�
�5�
�\�
�P�
�Q�
�x�
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 26
Universidadde Granada Espectro de consonantes fricativas
�V�
�VV�
�VK�
�]�
�I�
�M�
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 27
Universidadde Granada Fonemas no estacionarios
• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 28
Universidadde Granada
Espectrograma(representación tiempo - frecuencia)
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 29
Universidadde Granada
Espectrograma(representación tiempo - frecuencia)
P��E�R�L��D NRP S�U�D���5�����������S�D��Q
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 30
Universidadde Granada
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:– Tono fundamental– Estructura fina del espectro
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 31
Universidadde Granada Estrategias de estimulación
• Separación de señal de audio en bandas de frecuencia
• Asignación de bandas a electrodos (tonotópica)• Estimulación de los electrodos de acuerdo con la
energía en cada banda de frecuencia en cada instante de tiempo (patrón temporal)
• Las limitaciones - compromisos y soluciones dan lugar a las estrategias de estimulación
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 32
Universidadde Granada Estrategias de codificación
• Analógicas:– Compressed Analog
• Pulsátiles:– Extracción de características
• F0/F1/F2• MPEAK
– Híbridas:• SMSP / SPEAK • N-of-M
– Forma de onda:• ACE / CIS / CIS+
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 33
Universidadde Granada Compressed Analog
compresion
compresion
compresion
compresion
compresion
Estim. elec 1
Estim. elec 2
Estim. elec 3
Estim. elec 4
Estim. elec 5
Banco defiltros
Ajuste deniveles
Adquisiciónde la señal
Estimulación
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 34
Universidadde Granada Compressed analog
• Estimulación analógica (no pulsátil)• Estimulación simultánea de todos los electrodos
(interacción entre canales)– Estimulación bipolar– Campo eléctrico de cercanía
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 35
Universidadde Granada
F0 / F1 / F2
• Estima parámetros:– F0: tono fundamental (frecuencia)– F1: primer formante (frecuencia y amplitud)– F2: segundo formante (frecuencia y amplitud)
• Estimula dos electrodos en cada ciclo:– los correspondientes a las frecuencias F1 y F2– con las amplitudes estimadas para F1 y F2– con la tasa de estimulación asociada a F0
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 36
Universidadde Granada F0 / F1 / F2
F21 k - 3 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2A2F1A1
Generador deestímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 37
Universidadde Granada F0 / F1 / F2
F21 k - 3 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2A2F1A1
Generador deestímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
Selecciona unoentre canales 6-20
Selecciona unoentre canales 1-5
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 38
Universidadde Granada
MPEAK (Multi Peak)
F2800 - 4 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2A2F1A1
Generador deestímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
4 k - 6 k
2.8 k - 4 k
2 k - 2.8 k
Electrodo 20
Electrodo 17
Electrodo 14
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 39
Universidadde Granada
Extracción de características
• Presentan la información esencial para percibir la voz:– Tono fundamental (F0)– Primer y segundo formante
• Representación pobre de la voz• Sensibilidad a estimación de F0, F1 y F2:
– Respuesta pobre en condiciones de ruido
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 40
Universidadde Granada
SMSP, SPEAK y N-of-M
Adquisiciónde la señal
Selección de los
N canalescon mayorintensidad
Ajustede
niveles
Selección deelectrodos EstimulaciónBanco de filtros y
detecc. envolvente
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 41
Universidadde Granada
• Implementaciones (alta tasa de estimulación):– SMSP: en cada ciclo, 6-de-16 canales– SPEAK: en cada ciclo, 6-de-20 canales– N-of-M: en cada ciclo, 2-de-12 a 11-de-12
• Ventajas:– Mejor representación que extracción de caract.– Menos sensible a ruido de fondo
• Inconvenientes:– Se pierde información (canales con menos energía)
• Compromiso:– Número de canales - tasa de estimulación
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 42
Universidadde Granada
CIS: Continuous Interlived Sampling
Adquisiciónde la señal
Ajusteniveles
Banco de filtros ydetecc. envolvente
Generaciónestímulos
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 43
Universidadde Granada
• Implementaciones (alta tasa de estimulación):– ACE (Nucleus24): hasta 22 canales– CIS (Clarion): hasta 8 canales– CIS+ (Medel): hasta 12 canales
• Ventajas:– Todos los electrodos estimulados en cada ciclo con
alta tasa de estimulación– Mejor representación de la señal de audio– Mejor resolución en intensidad– Mayor sensibilidad
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 44
Universidadde Granada Tendencias en las estrategias
• Estimulación monopolar• Estimulación pulsátil con pulsos bifásicos• Estrategias de forma de onda• Algoritmos de respuesta rápida en la detección de
envolvente• Pulsos no solapados• Alta tasa de estimulación• Objetivos:
– Resolución frecuencial– Resolución temporal– Resolución en intensidad– Sensibilidad
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 45
Universidadde Granada
Percepción con Implante CoclearLimitaciones
• Resolución espectral:– Pocos electrodos (muchos menos de 6.000)– ¿Por qué no más electrodos?– Intervalo de frecuencia 200 Hz – 10.000 Hz
• Resolución temporal:– 300 ... 3000 disparos/seg
• Respuesta a los distintos niveles de intensidad
• Limitaciones fisiológicas y ausencia de mecanismos de adaptación
• Limitaciones relacionadas con las habilidades
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 46
Universidadde Granada ¿Cómo oye un implantado?
• No se puede saber
• Sólo unos pocos pacientes están en condiciones de hacer comparaciones
• Observación indirecta (qué son capaces de hacer)
• Teniendo en cuenta todo el proceso de estimulación se puede sintetizar la señal “tal y como la oiría un implantado”
• Ejemplos en: http://www.ugr.es/~atv
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 47
Universidadde Granada Aportaciones del Implante Coclear
• Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido)
• Para ello, antes hay que desarrollar....– habilidades perceptuales– habilidades lingüísticas
• Comprensión de la voz en ruido: difícil• Percepción de los distintos sonidos, música
– proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral)
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 48
Universidadde Granada Conclusiones
• Tendencias en estrategias de codificación:– Reducir extracción de características– Alta tasa de estimulación
• Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios:– Envolvente espectral– Resolución temporal– Resolución en intensidad
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 49
Universidadde Granada
• Prestaciones:– Representación de la señal de audio suficiente para
comprender la voz
• Limitaciones:– Aprendizaje– Percepción de la música– Comprensión de la voz en condiciones de ruido
• Los implantes en el futuro