49
Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 1 Universidad de Granada $63(&7267e&1,&26’(/ ,03/$17(&2&/($5 )81&,21$0,(172326,%,/,’$’(6< /,0,7$&,21(6 Ángel de la Torre Vega Dpto. Electrónica y Tecnología de Computadores Universidad de Granada

$63(&726 7e&1,&26 ’(/ ,03/$17( &2&/($5˛dtstc.ugr.es/~atv/Documents/Docs/malaga_03.pdf · – Percepción de los sonidos – Percepción de la voz con calidad: • Identificación,

Embed Size (px)

Citation preview

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 1

Universidadde Granada

$63(&726�7e&1,&26�'(/�,03/$17(�&2&/($5�

)81&,21$0,(172��326,%,/,'$'(6�<�/,0,7$&,21(6

Ángel de la Torre Vega

Dpto. Electrónica y Tecnología de ComputadoresUniversidad de Granada

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 2

Universidadde Granada

FDGHQD�GH�KXHVHFLOORV

WtPSDQR YHQWDQD�RYDO

YHQWDQDFyFOHD

QHUYLR�DXGLWLYR

UHGRQGD

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 3

Universidadde Granada

Laberinto óseo anterior (cóclea)

• Hueso compacto• Formado en el 5º mes de vida embrionaria• Tubo cónico, enrollado sobre cono que

describe 2 vueltas y media

5-6

mm

1-2

mm

32-35 mm

9 mm

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 4

Universidadde Granada

Laberinto membranoso (rampas cocleares)

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 5

Universidadde Granada

El órgano de Corti

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 6

Universidadde Granada

FyFOHD FyFOHD�GHVHQUROODGDPercepción auditiva

HVWULER Y��RYDO

YLEUDFLyQ

Y��UHGRQGD

&HO�FLOLDGDV0HPE��GH5HLVVQHU

SHULOLQID

FRFOHDU

0HPE��EDVLODU3RWHQFLDOHV�GH�DFFLyQ

SDUHG

,PSXOVRV�HOpFWULFRVDXGLWLYRQHUYLR

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 7

Universidadde Granada Teorías de la percepción sonora

• Tonotópica• Patrón temporal de estimulación

– Frecuencia máxima de disparo en células ciliadas y fibras del nervio coclear: 400 – 800 descargas por segundo

– Patrón temporal: depende de la sincronización

• Combinación de ambos mecanismos:– A bajas frecuencias predomina el patrón temporal de

estimulación– A altas frecuencias predomina tonotopia

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 8

Universidadde Granada

Punto de máxima estimulación

���+]

���+] ����+]����+]

����+]����+]

����+]

����+]

�����+]�����+]

�����+]

�����+]

�����+]

��N+]��N+]��N+]

��N+]

���N+]

���N+]

���N+]

���N+]

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 9

Universidadde Granada

Reconocimiento automático de voz

Extracción decaracterísticas

Reconocimientode voz

Sistema de diálogo

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Basede

datos

Adquisiciónde la voz

Representaciónde la voz

Secuenciade palabras respuesta

Vozsintetizada

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 10

Universidadde Granada

Percepción de la voz

Aparatoauditivo Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 11

Universidadde Granada

Percepción de la voz con I.C.

ImplanteCoclear Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 12

Universidadde Granada • Analogía entre:

– Implante coclear– Reconocimiento automático de voz (bloque de

extracción de características)

• Objetivos comunes:– Representar la información de la señal de voz

que permite identificar, discriminar y reconocer las distintas unidades de la voz:

• fonemas• sílabas• palabras

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 13

Universidadde Granada

PLFUyIRQR�\SURFHVDGRU

WUDQVPLVRU�5) UHFHSWRU�5)�\HPLVRU�GH�HVWtPXORV

HOHFWURGR�GH�UHIHUHQFLD

JXtD�GH�HOHFWURGRV

HOHFWURGRVDFWLYRV

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 14

Universidadde Granada

Imagen Rx de un implante

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 15

Universidadde Granada

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 16

Universidadde Granada Objetivos y limitaciones del I.C.

• Objetivos:– Percepción de los sonidos– Percepción de la voz con calidad:

• Identificación, discriminación y reconocimiento de unidades• Fonemas, sílabas, palabras

• Limitaciones:– Técnicas– Aprendizaje

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 17

Universidadde Granada Características del oído humano

• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interación entre canales

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 18

Universidadde Granada Limitaciones del implante coclear

• No hay conexión sináptica:– Un electrodo estimula muchas fibras– Si se estimulan simultáneamente varios electrodos

hay interferencia entre canales

• Consecuencias:– Pocos electrodos (se representa sólo la envolvente

espectral)– Alta tasa de estimulación– En cada instante sólo se estimula un canal

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 19

Universidadde Granada Limitaciones del implante coclear

• Resolución espectral: pobre – (pocos electrodos)

• Resolución temporal: aceptable – (en implantes con alta tasa de estimulación)– (depende del estado del nervio auditivo)

• Resolución en intensidad: aceptable– (depende del estado del nervio auditivo)

¿Qúe consecuencias tienen las limitaciones sobre la percepción de la voz?

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 20

Universidadde Granada

La señal de voz

/sal/

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 21

Universidadde Granada

La señal de voz

/s/ /a/ /l/

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 22

Universidadde Granada Espectro de las vocales

�D�

�H�

�D� cerrada

�L�

�R�

�X�

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 23

Universidadde Granada Espectro de las vocales

�D�

�H�

�D� cerrada

�L�

�R�

�X�

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 24

Universidadde Granada Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

freq.

2o

form

ante

(Hz)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 25

Universidadde Granada Espectro de consonantes sonoras

�O�

�5�

�\�

�P�

�Q�

�x�

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 26

Universidadde Granada Espectro de consonantes fricativas

�V�

�VV�

�VK�

�]�

�I�

�M�

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 27

Universidadde Granada Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 28

Universidadde Granada

Espectrograma(representación tiempo - frecuencia)

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 29

Universidadde Granada

Espectrograma(representación tiempo - frecuencia)

P��E�R�L��D NRP S�U�D���5�����������S�D��Q

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 30

Universidadde Granada

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 31

Universidadde Granada Estrategias de estimulación

• Separación de señal de audio en bandas de frecuencia

• Asignación de bandas a electrodos (tonotópica)• Estimulación de los electrodos de acuerdo con la

energía en cada banda de frecuencia en cada instante de tiempo (patrón temporal)

• Las limitaciones - compromisos y soluciones dan lugar a las estrategias de estimulación

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 32

Universidadde Granada Estrategias de codificación

• Analógicas:– Compressed Analog

• Pulsátiles:– Extracción de características

• F0/F1/F2• MPEAK

– Híbridas:• SMSP / SPEAK • N-of-M

– Forma de onda:• ACE / CIS / CIS+

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 33

Universidadde Granada Compressed Analog

compresion

compresion

compresion

compresion

compresion

Estim. elec 1

Estim. elec 2

Estim. elec 3

Estim. elec 4

Estim. elec 5

Banco defiltros

Ajuste deniveles

Adquisiciónde la señal

Estimulación

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 34

Universidadde Granada Compressed analog

• Estimulación analógica (no pulsátil)• Estimulación simultánea de todos los electrodos

(interacción entre canales)– Estimulación bipolar– Campo eléctrico de cercanía

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 35

Universidadde Granada

F0 / F1 / F2

• Estima parámetros:– F0: tono fundamental (frecuencia)– F1: primer formante (frecuencia y amplitud)– F2: segundo formante (frecuencia y amplitud)

• Estimula dos electrodos en cada ciclo:– los correspondientes a las frecuencias F1 y F2– con las amplitudes estimadas para F1 y F2– con la tasa de estimulación asociada a F0

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 36

Universidadde Granada F0 / F1 / F2

F21 k - 3 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2A2F1A1

Generador deestímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 37

Universidadde Granada F0 / F1 / F2

F21 k - 3 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2A2F1A1

Generador deestímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

Selecciona unoentre canales 6-20

Selecciona unoentre canales 1-5

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 38

Universidadde Granada

MPEAK (Multi Peak)

F2800 - 4 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2A2F1A1

Generador deestímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

4 k - 6 k

2.8 k - 4 k

2 k - 2.8 k

Electrodo 20

Electrodo 17

Electrodo 14

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 39

Universidadde Granada

Extracción de características

• Presentan la información esencial para percibir la voz:– Tono fundamental (F0)– Primer y segundo formante

• Representación pobre de la voz• Sensibilidad a estimación de F0, F1 y F2:

– Respuesta pobre en condiciones de ruido

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 40

Universidadde Granada

SMSP, SPEAK y N-of-M

Adquisiciónde la señal

Selección de los

N canalescon mayorintensidad

Ajustede

niveles

Selección deelectrodos EstimulaciónBanco de filtros y

detecc. envolvente

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 41

Universidadde Granada

• Implementaciones (alta tasa de estimulación):– SMSP: en cada ciclo, 6-de-16 canales– SPEAK: en cada ciclo, 6-de-20 canales– N-of-M: en cada ciclo, 2-de-12 a 11-de-12

• Ventajas:– Mejor representación que extracción de caract.– Menos sensible a ruido de fondo

• Inconvenientes:– Se pierde información (canales con menos energía)

• Compromiso:– Número de canales - tasa de estimulación

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 42

Universidadde Granada

CIS: Continuous Interlived Sampling

Adquisiciónde la señal

Ajusteniveles

Banco de filtros ydetecc. envolvente

Generaciónestímulos

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 43

Universidadde Granada

• Implementaciones (alta tasa de estimulación):– ACE (Nucleus24): hasta 22 canales– CIS (Clarion): hasta 8 canales– CIS+ (Medel): hasta 12 canales

• Ventajas:– Todos los electrodos estimulados en cada ciclo con

alta tasa de estimulación– Mejor representación de la señal de audio– Mejor resolución en intensidad– Mayor sensibilidad

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 44

Universidadde Granada Tendencias en las estrategias

• Estimulación monopolar• Estimulación pulsátil con pulsos bifásicos• Estrategias de forma de onda• Algoritmos de respuesta rápida en la detección de

envolvente• Pulsos no solapados• Alta tasa de estimulación• Objetivos:

– Resolución frecuencial– Resolución temporal– Resolución en intensidad– Sensibilidad

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 45

Universidadde Granada

Percepción con Implante CoclearLimitaciones

• Resolución espectral:– Pocos electrodos (muchos menos de 6.000)– ¿Por qué no más electrodos?– Intervalo de frecuencia 200 Hz – 10.000 Hz

• Resolución temporal:– 300 ... 3000 disparos/seg

• Respuesta a los distintos niveles de intensidad

• Limitaciones fisiológicas y ausencia de mecanismos de adaptación

• Limitaciones relacionadas con las habilidades

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 46

Universidadde Granada ¿Cómo oye un implantado?

• No se puede saber

• Sólo unos pocos pacientes están en condiciones de hacer comparaciones

• Observación indirecta (qué son capaces de hacer)

• Teniendo en cuenta todo el proceso de estimulación se puede sintetizar la señal “tal y como la oiría un implantado”

• Ejemplos en: http://www.ugr.es/~atv

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 47

Universidadde Granada Aportaciones del Implante Coclear

• Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido)

• Para ello, antes hay que desarrollar....– habilidades perceptuales– habilidades lingüísticas

• Comprensión de la voz en ruido: difícil• Percepción de los distintos sonidos, música

– proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral)

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 48

Universidadde Granada Conclusiones

• Tendencias en estrategias de codificación:– Reducir extracción de características– Alta tasa de estimulación

• Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios:– Envolvente espectral– Resolución temporal– Resolución en intensidad

Ángel de la Torre Vega – G.I. Procesamiento de Señales y Comunicaciones – DETC – UGR 49

Universidadde Granada

• Prestaciones:– Representación de la señal de audio suficiente para

comprender la voz

• Limitaciones:– Aprendizaje– Percepción de la música– Comprensión de la voz en condiciones de ruido

• Los implantes en el futuro