Sistemas Interativos Multimodales de Procesamiento …ceur-ws.org/Vol-697/11.pdf · secuci on satisfactoria de la tarea. Palabras clave: interacci on multimodal, transcripci on, traducci

Sistemas Interativos Multimodales de Procesamiento delLenguaje Natural ∗

Natural Language Processing Interactive Multimodal Systems

Elsa Cubel, Alejandro H. ToselliInstituto Tecnologico de InformaticaUniversidad Politecnica de Valencia

Camino de Vera s/n, 46022, Valencia{ecubel, ahector}@iti.upv.es

Resumen: En este trabajo se plantea una aproximacion novedosa en la que lossistemas de PLN cooperan conjuntamente con el usuario en el procesamiento y con-secucion satisfactoria de la tarea.Palabras clave: interaccion multimodal, transcripcion, traduccion automatica, re-cuperacion de imagenes

Abstract: In this work, a novel approach is introduced in which NLP systemscooperate together with users in the processing and satisfactory achievement of agiven task.Keywords: multimodal interaction, transcription task, machine translation, imageretrieval

Resumen: En los ultimos anos hatenido lugar un gran avance, tanto enel desarrollo de tecnologıas multimodalesinteractivas como en el de interfacesavanzadas persona-maquina en el cam-po del procesamiento de lenguaje natural(PLN). Especialmente, las areas del re-conocimiento de formas y vision por com-putador vienen jugando un papel prepon-derante en el desarrollo de este tipo detecnologıas e interfaces.Actualmente, se considera que la total au-tomatizacion que presentan los sistemastradicionales de PLN, no resulta lo masconveniente cuando se requieren resulta-dos completamente libres de errores. Porel contrario, en este trabajo se planteauna aproximacion novedosa en la quelos sistemas de PLN cooperan conjunta-mente con el usuario en el procesamientoy consecucion satisfactoria de la tarea.Como ejemplos de esta aproximacionnovedosa, se describen algunas aplica-ciones muy usuales en PLN, como sonla transcripcion de textos manuscritos ysenal de audio, traduccion automatica y

∗ Trabajo financiado parcialmente por la EC (FED-ER/FSE) y el MEC/MICINN espanol en el marco delproyecto MIPRCV (CSD2007-00018) bajo el progra-ma “Consolider Ingenio 2010”, los proyectos iTrans2(TIN2009-14511) y MITTRAL (TIN2009-14633-C03-01).

recuperacion de contenidos multimedia.

1. Introduccion

El Procesamiento del Lenguaje Natural(PLN) se ocupa de proveer metodos y tecni-cas que automaticamente faciliten la comu-nicacion entre personas o entre personas ymaquinas por medio de lenguajes naturales.Entre las lıneas de investigacion o aplica-ciones atribuidas al PLN, podemos citar elde la sıntesis del habla, reconocimiento devoz, traduccion automatica, reconocimientode texto manuscrito, etc.

Tradicionalmente, en estas lıneas de inves-tigacion, los metodos y tecnicas de PLN uti-lizados se centraban en el desarrollo de apli-caciones totalmente automatizadas. Sin em-bargo, dado que los resultados de la mayorıade las mismas distan mucho de ser perfectos,una intervencion humana experta (que de-nominaremos usuario de ahora en adelante)era finalmente requerida para la validacion delos mismos. En este caso, los usuarios suelenutilizar las aplicaciones de PLN de este tipo,dentro de un proceso de dos etapas: en primerlugar, la aplicacion procesa automaticamentetoda la tarea; y a continuacion, el usuario re-visa y corrige sus resultados para que la ca-lidad final sea aceptable. Este proceso es loque se conoce como post-edicion. Este pro-ceso, aunque permite obtener resultados de

calidad, resulta por lo general bastante inefi-ciente e incomodo para el usuario, quien po-drıa preferir prescindir de la salida de la apli-cacion y procesar la tarea directamente desdecero y por sı mismo.

Como alternativa, se propone un enfoquemas pragmatico, conocido como paradigmainteractivo-predictivo (IP), en el cual tantola aplicacion de PLN como el usuario cola-boran mutuamente para completar la tareade manera eficiente. De este modo, se con-sigue combinar en un mismo sistema, la efi-cacia (en terminos de rapidez) de las aplica-ciones de PLN tradicionales, con la precisionaportada por la experiencia del usuario. Eneste sentido, en la ultima decada la demandasocial e industrial de tecnologıas interactivasmultimodales para el desarrollo de interfacesavanzadas hombre-maquina ha crecido con-siderablemente. Especialmente, las areas delreconocimiento de formas y vision por com-putador han venido jugando un papel pre-ponderante en el desarrollo de este tipo detecnologıas e interfaces.

En este trabajo presentamos varias tec-nologıas IP-PLN, implementadas en diferen-tes prototipos completamente funcionales deaplicaciones, que muestran in situ los bene-ficios de cada una de ellas. El desarrollo eimplementacion de estos prototipos se ha fo-calizado tambien en el paradigma de la multi-modalidad, posibilitando que el usuario puedainteractuar de forma mas natural y ergonomi-ca con dichos prototipos.

2. ParadigmaInteractivo-PredictivoMultimodal

En el marco del proyecto nacional“Multimodal Interaction in Pattern Recog-nition and Computer Vision” (MIPRCVConsolider-Ingenio 2010), se vienen desarro-llando tecnologıas bajo el nuevo paradigmaIP multimodal del que hemos hablado. Todoslos prototipos desarrollados en este proyec-to estan basados en estas tecnologıas y parala mayorıa de ellos (principalmente los rela-cionados con PLN) se ha establecido una for-ma de interaccion comun del usuario con losmismos. El objetivo es poder emplear un mis-mo protocolo de interaccion con estos prototi-pos de aplicacion, disminuyendo ası la cargacognitiva del usuario y facilitando un rapi-do aprendizaje en la utilizacion del sistema.Basicamente, este protocolo establece el mo-

do en que se va a llevar a cabo la interaccionaplicacion-usuario conforme se va procesandouna determinada tarea. En otras palabras, amedida que la aplicacion va mostrando re-sultados parciales, el usuario podra (median-te acciones) proceder a su validacion, correc-cion, etc.; y, posteriormente, la aplicacion, enbase a estas acciones del usuario, podra ofre-cer nuevos resultados alternativos.

Las bases sobre las que se ha fundamen-tado la implementacion de los prototipos sonlas siguientes:

i- Realimentacion del usuario: Lasacciones correctivas propuestas progresiva-mente por el usuario con cada propuestade resultados, son realimentadas al sistemaintroduciendo restricciones de contexto queayudan a sugerir nuevas propuestas de resul-tados mas precisas.

ii- Aprendizaje adaptativo: Seaprovechan las acciones correctivas in-troducidas por el usuario para adaptarprogresivamente in situ los modelos de latarea, que seran utilizados por la aplicacionpara proponer mejores resultados.

iii- Multimodalidad: La multimodalidadaparece en estos sistemas de forma natural.Las acciones del usuario destinadas a corregirlos resultados que son presentados por la apli-cacion en cada momento, pueden provenir demultiples modos: desde las tradicionales pul-saciones de teclado o movimientos del ratona sistemas de reconocimiento del habla o degestos.

3. Demostradores

En esta seccion se describen algunos delos prototipos de aplicaciones basados entecnologıas IP-PLN multimodales desarrol-lados en el marco del proyecto nacionalMIPRCV Consolider-Ingenio 20101.Como seobservara, todos estos sistemas funcionan si-guiendo el paradigma interactivo-predictivomultimodal, el cual introduce totalmente alusuario como una parte mas del sistema.

Los prototipos comparten una arquitec-tura cliente-servidor sobre Internet (Alabauet al., 2009).

1http://miprcv.iti.upv.es

http://miprcv.iti.upv.es

Figura 1: Interfaces de prototipos MM-CATTI (izquierda) and CAST (derecha).

3.1. Prototipos de Transcripcion yTraduccion InteractivaMultimodal

En esta seccion presentamos dos prototi-pos de transcripcion, completamente fun-cionales, destinados a la transcripcion deimagenes de texto manuscrito (Toselli et al.,2009) y senal de audio (Rodrıguez, Casacu-berta, y Vidal, 2007) respectivamente. Tam-bien presentamos un prototipo destinado ala traduccion de textos (Casacuberta et al.,2009). Todos estos prototipos se han desarro-llado e implementado siguiendo el paradigmaIP multimodal que hemos presentado previ-amente. En estos prototipos, el usuario in-teractua con el sistema validando segmen-tos correctos de transcripcion/traduccion ycorrigiendo sus subsiguientes errores. A con-tinuacion, teniendo en cuenta estos segmen-tos validados y las correciones efectuadas,el prototipo genera mejores sugerencias detranscripcion/traduccion en la siguiente in-teraccion. El usuario puede realizar las men-cionadas validaciones y correcciones median-te el teclado y raton, o por medio de otrasmodalidades de interaccion mas sofisticadascomo lapiz electronico (escritura on-line) oreconocimiento del voz.

El prototipo de transcripcion de imagenesde texto manuscrito, denomindo “Mul-timodal Computer Assisted Transcriptionof Text Images” (MM-CATTI) (figura 1- izquierda), se encuentra accesible en:http://catti.iti.upv.es. A traves del mismo, sepodra experimentar con la transcripcion in-teractiva multimodal de documentos de difer-ente naturaleza: documentos manuscritos an-tiguos (Cristo Salvador del siglo XIX), textomanuscrito moderno (IAMDB en ingles), es-critura manuscrita realizada en formulariosde encuestas, etc.

Por su parte, el prototipo de transcripcion

de senal de audio, denominado “ComputerAssisted Speech Transcription” (CAST) (verfigura 1 - centro), resulta de gran interesen diversas aplicaciones como: subtitulado deprogramas de television, accesibilidad a per-sonas con discapacidad auditiva, busquedastextuales de contenidos de audio, transcrip-ciones de programas de radio, conferencias,sesiones judiciales, etc.

Para ambos prototipos, MM-CATTI yCAST, de acuerdo a los resultados experi-mentales, cuando se compara el sistema detranscripcion basada en el paradigma IP mul-timodal con una transcripcion manual com-pleta, la reduccion estimada de esfuerzo delusuario esta entre un 68 % y un 80 %.

Por otro lado, el prototipo web para la tra-duccion interactiva (ver figura 2 - izquierda),esta disponible en: http://cat.iti.upv.es/imt.Segun los experimentos llevados a cabo coneste prototipo, el usuario reducirıa hasta enun 30 % el esfuerzo necesario hasta alcanzarla traduccion correcta si lo comparamos ala utilizacion de un sistema totalmente au-tomatico. Las aplicaciones que puede tenereste prototipo son multiples: traduccion demanuales, traduccion de textos oficiales, tra-duccion de paginas web, etc.

3.2. Prototipo de RecuperacionInteractiva de ContenidosMultimedia

En las consultas de colecciones con con-tenidos multimedia, utilizando sistemas con-vencionales de recuperacion de informacion,se buscan aquellos contenidos que mas se ase-mejan a la consulta realizada. Muchas ve-ces la informacion recuperada con estos sis-temas no cubre las expectativas del usuario;en parte debido a la propia falta de infor-macion especıfica de la consulta realizada.Sin embargo, si se utiliza el paradigma IP

http://catti.iti.upv.es

http://cat.iti.upv.es/imt

Figura 2: Interfaces de prototipos CAT (izquierda) and RISE (derecha).

multimodal, el usuario puede proporcionaruna retroalimentacion relevante sobre la ade-cuacion de la informacion recuperada.

En http://rise.iti.upv.es puede experimen-tarse con el prototipo web de recuperacioninteractiva de contenidos multimedia (figu-ra 2 - derecha), denominado “Relevant ImageSearch Engine” (RISE) (Cevikalp y Paredes,2009). Este prototipo de aplicacion es un bus-cador de imagenes donde, en primer lugar, elusuario introduce el termino que desea bus-car. La aplicacion trabaja como un inter-faz con Google Images, que es quien proveelas imagenes a partir de los terminos de labusqueda que ha introducido el usuario. Elusuario selecciona aquellas imagenes que con-sidera que mas se ajustan a lo que deseaver y a partir de entonces, iterativamente,el sistema devolvera aquellas imagenes quesean mas relevantes a partir de la selecciondel usuario. A modo de ejemplo, en la figu-ra 2 - derecha sabemos que el usuario pre-tende encontrar imagenes de perros que lle-van collar. Cada vez que la aplicacion mues-tra una respuesta, el usuario solamente selec-cionara aquellas imagenes en las que aparez-can perros con collar (las tres imagenes queaparecen seleccionadas en la figura). De es-ta forma, en pocas interacciones se con-seguira que la aplicacion solamente muestreimagenes que cumplan los requisitos delusuario.

4. Conclusiones

En este trabajo se ha presentado elparadigma interactivo-predictivo multimodalbajo el cual, un sistema de PLN facilitay colabora conjuntamente con el usuarioen la produccion de resultados de alta ca-lidad. En este contexto, se han presenta-do diversos prototipos, completamente fun-cionales, que ejemplifican areas de aplicacionde gran interes e importancia: transcripcionde imagenes de texto manuscrito y senal de

audio, traduccion de textos y recuperacion decontenidos multimedia.

En todos los casos, se ha constatado quelos prototipos disenados bajo este nuevoparadigma, reducen significativemente el es-fuerzo que el usuario debe realizar para al-canzar un resultado correcto.

Bibliografıa

[Alabau et al.2009] Alabau, V., D. Ortiz,V. Romero, y J. Ocampo. 2009. A mul-timodal predictive-interactive applicationfor computer assisted transcription andtranslation. En ICMI-MLMI ’09: Proceed-ings of the 2009 international conferenceon Multimodal interfaces, paginas 227–228, New York, NY, USA. ACM.

[Casacuberta et al.2009] Casacuberta, F.,J. Civera, E. Cubel, A.L. Lagarda,G. Lapalme, E. Macklovitch, y E. Vidal.2009. Human interaction for high qualitymachine translation. Communications ofthe ACM, 52(10):135–138.

[Cevikalp y Paredes2009] Cevikalp, Hakan yRoberto Paredes. 2009. Semi-superviseddistance metric learning for visual objectclassification. En VISSAPP (1), paginas315–322.

[Rodrıguez, Casacuberta, y Vidal2007]Rodrıguez, L., F. Casacuberta, y E. Vidal.2007. Computer Assisted Transcription ofSpeech. En Proceedings of the 3rd IberianConference on Pattern Recognition andImage Analysis, volumen 4477 de LNCS,paginas 241–248, Girona (Spain), June.

[Toselli et al.2009] Toselli, Alejandro H.,Veronica Romero, Moises Pastor, yEnrique Vidal. 2009. Multimodal interac-tive transcription of text images. PatternRecognition, 43(5):1814–1825.

http://rise.iti.upv.es

Documents

Sistemas Interativos Multimodales de Procesamiento …ceur-ws.org/Vol-697/11.pdf · secuci on satisfactoria de la tarea. Palabras clave: interacci on multimodal, transcripci on, traducci