8
Anotaci´onAutom´ atica de Discapacidades en Documentos Cient´ ıficos de Medicina * Automatic Disabilities Labeling in Medical Scientific Documents Carlos Valmaseda NLP Group at UNED 28040 Madrid, Spain [email protected] Juan Martinez-Romo NLP Group at UNED 28040 Madrid, Spain [email protected] Lourdes Araujo NLP Group at UNED 28040 Madrid, Spain [email protected] Resumen: Este art´ ıculo presenta una herramienta para la anotaci´on de discapaci- dades en documentos cient´ ıficos. La identificaci´ on de conceptos m´ edicos presentes en documentos y, especialmente, la identificaci´ on de discapacidades, es una tarea com- pleja debido principalmente a la gran variedad de expresiones que pueden referirse a un mismo problema. Nuestra propuesta, implementa una herramienta de anota- ci´ on autom´atica similar a UMLS MetaMap Transfer (MMTx) para la extracci´on de conceptos biom´ edicos. Al igual que MetaMap, nuestro sistema genera diferen- tes variantes de una misma discapacidad con el objetivo de mejorar la cobertura, adaptadas al tipo de entidad considerado. As´ ı, en la generaci´on de variantes se han utilizado palabras de impedimento o limitaci´on (delay, impairment, etc.), que com- binadas con funciones corporales o cognitivas dan lugar a nuevas expresiones de discapacidad. Los primeros resultados del sistema sobre una peque˜ na colecci´on de documentos cient´ ıficos anotados manualmente indican el potencial del mismo. Palabras clave: Anotaci´on de conceptos biom´ edicos, dominio m´ edico,extracci´on deinformaci´on Abstract: This paper presents a tool for the annotation of disabilities in scienti- fic papers. The identification of medical concepts in documents and, especially, the identification of disabilities, is a complex task mainly due to the variety of expres- sions that can make reference to the same problem. Our proposal, implements an automatic annotation tool similar to UMLS MetaMap Transfer (MMTx) for extrac- ting biomedical concepts. As MetaMap, our system generates different variants of the same disability aiming to improve coverage, and adapting them to the kind of entity considered. Thus, in the generation of variants we use “impairment words” (delay, impairment, etc.), which combined with physical or cognitive functions provi- de new expressions of disability. The first results of the system on a small collection of scientific papers manually annotated indicate the potential of the proposal. Keywords: Biomedical concepts labeling, medical domain, information extraction 1 Introducci´on El estudio de las relaciones existentes entre distintos elementos del dominio biom´ edico es fundamental para proseguir los avances en el ´area. Se est´a dedicando grandes esfuerzos a identificar algunas de estas relaciones, ta- les como las interacciones entre prote´ ınas, las asociaciones genes-enfermedades o los efectos adversos a medicamentos. La forma de abor- dar estos problemas suele consistir en la iden- tificaci´ on por parte de expertos de algunas de estas relaciones. Como se trata de una tarea * Trabajo financiado parcialmente por los proyec- tos EXTRECM (TIN2013-46616-C2-2-R), y TwiSE (2013-025-UNED-PROY). muy lentay costosa, en la actualidad se est´an aplicando t´ ecnicas de aprendizaje autom´ati- co para identificar relaciones que puedan en- contrarse en textos relacionados con el domi- nio biom´ edico. Tanto para abordar este pro- blema, como para la b´ usqueda especializada de terminolog´ ıa relacionada con alg´ un aspec- to espec´ ıfico del dominio es fundamental la anotaci´ on de los conceptos correspondientes, ya sean estos enfermedades, genes, prote´ ınas, etc. Existen otros problemas en los que se re- quiere la anotaci´on, como por ejemplo la cla- sificaci´ on y agrupamiento de documentos, la usqueda de respuestas, etc. En este trabajo se aborda la anotaci´on de Actas del XXXI Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ISBN: 978-84-608-1989-9 Actas del XXXI Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ISBN: 978-84-608-1989-9

Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

Anotacion Automatica de Discapacidades en DocumentosCientıficos de Medicina∗

Automatic Disabilities Labeling in Medical Scientific Documents

Carlos ValmasedaNLP Group at UNED28040 Madrid, Spain

[email protected]

Juan Martinez-RomoNLP Group at UNED28040 Madrid, [email protected]

Lourdes AraujoNLP Group at UNED28040 Madrid, [email protected]

Resumen: Este artıculo presenta una herramienta para la anotacion de discapaci-dades en documentos cientıficos. La identificacion de conceptos medicos presentes endocumentos y, especialmente, la identificacion de discapacidades, es una tarea com-pleja debido principalmente a la gran variedad de expresiones que pueden referirsea un mismo problema. Nuestra propuesta, implementa una herramienta de anota-cion automatica similar a UMLS MetaMap Transfer (MMTx) para la extraccionde conceptos biomedicos. Al igual que MetaMap, nuestro sistema genera diferen-tes variantes de una misma discapacidad con el objetivo de mejorar la cobertura,adaptadas al tipo de entidad considerado. Ası, en la generacion de variantes se hanutilizado palabras de impedimento o limitacion (delay, impairment, etc.), que com-binadas con funciones corporales o cognitivas dan lugar a nuevas expresiones dediscapacidad. Los primeros resultados del sistema sobre una pequena coleccion dedocumentos cientıficos anotados manualmente indican el potencial del mismo.Palabras clave: Anotacion de conceptos biomedicos, dominio medico, extraccionde informacion

Abstract: This paper presents a tool for the annotation of disabilities in scienti-fic papers. The identification of medical concepts in documents and, especially, theidentification of disabilities, is a complex task mainly due to the variety of expres-sions that can make reference to the same problem. Our proposal, implements anautomatic annotation tool similar to UMLS MetaMap Transfer (MMTx) for extrac-ting biomedical concepts. As MetaMap, our system generates different variants ofthe same disability aiming to improve coverage, and adapting them to the kind ofentity considered. Thus, in the generation of variants we use “impairment words”(delay, impairment, etc.), which combined with physical or cognitive functions provi-de new expressions of disability. The first results of the system on a small collectionof scientific papers manually annotated indicate the potential of the proposal.Keywords: Biomedical concepts labeling, medical domain, information extraction

1 Introduccion

El estudio de las relaciones existentes entredistintos elementos del dominio biomedico esfundamental para proseguir los avances enel area. Se esta dedicando grandes esfuerzosa identificar algunas de estas relaciones, ta-les como las interacciones entre proteınas, lasasociaciones genes-enfermedades o los efectosadversos a medicamentos. La forma de abor-dar estos problemas suele consistir en la iden-tificacion por parte de expertos de algunas deestas relaciones. Como se trata de una tarea

∗ Trabajo financiado parcialmente por los proyec-tos EXTRECM (TIN2013-46616-C2-2-R), y TwiSE(2013-025-UNED-PROY).

muy lenta y costosa, en la actualidad se estanaplicando tecnicas de aprendizaje automati-co para identificar relaciones que puedan en-contrarse en textos relacionados con el domi-nio biomedico. Tanto para abordar este pro-blema, como para la busqueda especializadade terminologıa relacionada con algun aspec-to especıfico del dominio es fundamental laanotacion de los conceptos correspondientes,ya sean estos enfermedades, genes, proteınas,etc. Existen otros problemas en los que se re-quiere la anotacion, como por ejemplo la cla-sificacion y agrupamiento de documentos, labusqueda de respuestas, etc.

En este trabajo se aborda la anotacion de

Actas del XXXI Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ISBN: 978-84-608-1989-9

Actas del XXXI Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ISBN: 978-84-608-1989-9

Page 2: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

un tipo de concepto que no esta recogido entrabajos previos, al menos no de forma es-pecıfica. Se trata de la identificacion de ex-presiones relativas a discapacidades. Aunquealgunas discapacidades estan incluidas entrelos sıntomas de algunas ontologıas del domi-nio biomedico, solo se trata de unos pocoscasos y su identificacion necesita que estenmencionados de una forma especıfica. En es-te trabajo se aborda este problema, que aun-que comparte ciertas aspectos con la anota-cion de conceptos en el dominio biomedico,tambien presenta una problematica particu-lar, ya que las referencias a discapacidadespueden expresarse con mas libertad que lasreferencias a enfermedades, genes, proteınas,etc. Las referencias a discapacidades admitentodo tipo de variantes sintacticas, morfologi-cas, semanticas, etc. Por ejemplo, para unamisma discapacidad, podrıan encontrarse lassiguientes variantes:

No puedo mover la pierna izquierda

Limitaciones motrices en las extremida-des inferiores

No le responde la pierna, etc.

Por ello, en este marco se hace mas re-levante la aplicacion de tecnicas de procesa-miento del lenguaje natural (PLN). Nuestroobjetivo, por tanto, es utilizar estas tecnicaspara identificarlas y anotarlas en textos medi-cos con la mayor precision posible.

Para seleccionar las expresiones que se co-rresponden con discapacidades en los tex-tos de entrada, partimos de una adaptaciondel enfoque seguido por el sistema MetaMap(Aronson, 2001) para nuestro problema. Altratarse de expresiones en un lenguaje muchomas libre, necesitamos recurrir a otras tecni-cas. En particular, consideramos la polaridadde los terminos involucrados que combinadoscon expresiones de funciones corporales o cog-nitivas dan lugar a nuevas expresiones de dis-capacidad.

Como marco experimental nos hemos cen-trado en las discapacidades asociadas a enfer-medades raras (ERs), por varias razones. Poruna parte se trata de un problema de granimportancia dada la escasa informacion dis-ponible sobre las discapacidades asociadas aERs, dada la propia naturaleza de estas enfer-medades. Por otra parte, Orphanet1, la orga-

1http://www.orpha.net

nizacion internacional sobre las ERs y medi-camentos huerfanos ha creado una coleccionespecializada de textos dedicados a los profe-sionales y proveedores de servicios sociales; laOrphanet Discapacidad Enciclopedia. Se cen-tra en las discapacidades asociadas con unaER especıfica. Estas fichas de discapacidadesproporcionan una breve vision general de losaspectos medicos de la enfermedad, validadospor expertos medicos, e incluyen una descrip-cion de las discapacidades que experimentanlos pacientes. Esta informacion nos va a per-mitir evaluar los resultados de este trabajo.

Por ultimo, en Orphanet estan indizandolas consecuencias funcionales de cada ER conel Orphanet Funtioning Thesaurus, una adap-tacion de la Clasificacion Internacional delFuncionamiento, de la Discapacidad y de laSalud de Ninos y Jovenes version (ICF-CY(Organization., 2007)), que incluye terminosadicionales para describir trastornos cogniti-vos, del sueno, del temperamento y de la con-ducta.

El punto de partida, ademas de la co-leccion de documentos en los que aparezcanterminos de ese tipo, son las listas de expre-siones relacionadas con discapacidades. Parti-mos del tesauro de discapacidades de Orpha-net, y ampliamos su terminologıa con la listade discapacidades asociadas a las ERs consi-deradas en el corpus.

En el resto de este artıculo se presentanen primer lugar antecedentes de anotacion deconceptos en textos medicos en la Seccion 2.Despues, en la Seccion 3 se describe la for-ma en que se ha construido un corpus de ERscon discapacidades asociadas, que sera utili-zado para analizar y evaluar las propuestasque se hacen despues para la anotacion dediscapacidades. En la Seccion 4 se muestra elfuncionamiento del sistema de anotacion deconceptos medicos. Finalmente se presentanlos resultados de la evaluacion en la Seccion5 y las conclusiones en la Seccion 6.

2 Antecedentes

En la actualidad, existen muy pocos anali-zadores adaptados al dominio medico en es-panol. MetaMap Transfer (MMTx) (Aronson,2001) es una aplicacion que tiene dos funcio-nalidades destacadas, por un lado puede ma-pear textos medicos al metatesauro UMLS2,

2http://www.nlm.nih.gov/research/umls/

Page 3: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

y por otro lado permite descubrir conceptosdel metatesauro en documentos.

Este sistema aplica al texto de entrada unanalisis lexico/sintactico que conlleva los si-guientes pasos: Tokenizador, etiquetado lexi-co y analisis sintactico superficial e identifica-cion de los nucleos de los sintagmas. Por ca-da frase extraıda tras este analisis, se aplicancuatro pasos. El primero de ellos es la gene-racion de variantes, en la que se buscan lasvariantes de todas las palabras de las frases.Despues se identifican los candidatos en basea su correspondencia con el texto de entra-da. Mas tarde, se realiza una construccion dela correspondencia, en la que las candidatasencontradas en el paso anterior se combinany evaluan para producir como resultado fi-nal las mejores correspondencias de las frasesdel texto. La evaluacion que se realiza tan-to en las correspondencias de candidatas co-mo en las propuestas finales, es una combina-cion lineal de cuatro medidas de inspiracionlinguıstica: centralidad, variacion, coberturay cohesion.

Debido a esta escasez de recursos en es-panol, aparecieron trabajos como el de (Ca-rrero et al., 2008) en el que trataron de adap-tar MetaMap al espanol mediante la traduc-cion de los textos al ingles, para luego aplicarla extraccion de conceptos medicos median-te MetaMap. Posteriormente surgieron otrostrabajos (Iglesias et al., 2008) que implemen-taban un sistema completo como MOSTAS.Este sistema de etiquetado morfo-semanticotambien realiza funciones de anonimizacionde textos y corrector ortografico con el ob-jetivo de permitir la identificacion de termi-nos clınicos mediante el uso de SNOMED CT.Castro et al. (2010) presentaron una propues-ta para la anotacion semantica de informesclınicos en espanol. Implementaron una he-rramienta similar a UMLS MetaMap Trans-fer (MMTx) para la identificacion de con-ceptos medicos sobre la ontologıa en espanolSNOMED CT. En otro trabajo similar (Oro-noz, de Ilarraza, y Torices, 2010; Oronoz etal., 2013) se ha desarrollado una herramientade anotacion que detecta entidades en el do-minio biomedico. Sobre la base de Freeling,los autores enriquecen su lexico con terminosbiomedicos extraıdos de diccionarios y onto-logıas. La evaluacion fue realizada sobre me-dicamentos, sustancias y enfermedades. Vi-valdi y Rodriguez (2010) crearon un siste-ma de extraccion de terminos que usa infor-

macion semantica extraıda de Wikipedia. Elsistema fue probado sobre un corpus medi-co, y segun los resultados, podrıa considerar-se como un buen recurso para la extraccionde terminos medicos. Conrado et al. (2011)llevan a cabo una extraccion automatica determinos medicos, usando sintagmas nomina-les previamente reconocidos en textos medi-cos en espanol. Los autores, haciendo uso deSNOMED CT, demuestran que es posible ex-traer terminos medicos usando sintagmas no-minales especıficos.

3 Creacion de un corpus anotado

Inicialmente, para la construccion del corpusse han considerado las siguientes enfermeda-des raras: Sındrome de Angelman, Sındromede Cockayne, Epidermolisis bullosa distrofi-ca, Sındrome X Fragil, Enfermedad de No-rrie, Sındrome de Pendred. En la actualidadOrphanet tiene un conjunto de enfermedadespara las que una serie de expertos han asocia-do sus discapacidades. De esta forma, las en-fermedades que hemos seleccionado para estetrabajo han sido tomadas de dicho conjunto.

Como ejemplo, las discapacidades asocia-das (ingles) al Sındrome de Angelman son lassiguientes:

very low learning ability

difficulty to mimic

difficulty to memorize the gestures

almost non-existent language

slow execution of the instructions

high fatigue

attention disorders

concentration disorders

can not be completely autonomous

Este corpus de referencia fue anotado porun grupo de 3 voluntarios en el que cadauno etiqueto las discapacidades encontradasen varios artıculos cientıficos en espanol. Des-pues del proceso de etiquetado, tan solo seconsideraron las discapacidades que habıansido detectadas por al menos dos personas in-dependientemente y para las que habıa habi-do acuerdo sobre la anotacion. El acuerdo en-tre anotadores fue medido mediante el valorkappa de Fleiss obteniendo un 0.68. El cor-pus definitivo esta compuesto de 15 artıculoscientıficos completos.

Page 4: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

4 Sistema de Anotacion deDiscapacidades

El sistema, que utiliza recursos externos pararealizar algunas tareas de procesamiento dellenguaje, comienza con un procesamiento delmetatesauro en el que se generan las variantesde las discapacidades que contiene. Despues,dado un documento, identifica los sintagmasnominales y genera sus variantes. Es decir, segeneran variantes tanto de las discapacidadescomo de los candidatos en el documento. Portanto es posible configurar los niveles de ge-neracion de variantes tanto en el documentocomo en el metatesauro. El sistema de anota-cion de discapacidades, como se puede apre-ciar en la Figura 1, se divide en varias fases.

Tenemos una fase inicial que consiste en laobtencion del metatesauro con listas de disca-pacidades y con sus variantes para los termi-nos involucrados. Este listado nos proporcio-nara la terminologıa basica para identificarlas expresiones relativas a discapacidades enlos textos. Tambien se construye una colec-cion de prueba de documentos del dominiomedico. Partiendo de los nombres del conjun-to de ERs descritas en la seccion anterior, seha hecho una busqueda para recoger artıculoscientıficos relacionados con ellas en los que esde esperar que se den apariciones de discapa-cidades.

Despues para cada documento consideradose obtienen los sintagmas nominales (SN), lostokens de cada SN y las variantes de cadatoken. Se identifica tambien si los terminos secorresponden con palabras de impedimento,que puedan ser un indicativo de discapacidad.

A continuacion se establece la correspon-dencia entre los sintagmas nominales del do-cumento (SND) y los candidatos del metate-sauro. Esta relacion sera de 1 a N.

Despues para las relaciones (SND-Candidatos) obtenidas en la fase anterior, serealiza un calculo de afinidad, que permiteestablecer un ranking a partir del cual se se-lecciona el mejor candidato. La ultima fase esla evaluacion del documento anotado por elsistema comparandolo con el correspondienteanotado manualmente.

A continuacion, pasamos a analizar cadauna de las fases del sistema una vez que laprimera fase de adaptacion de recursos se hacompletado.

4.1 Tratamiento del documento ydel metatesauro

Esta fase tiene como objetivo la obtencion deuna estructura que contenga la informacionde todos los SN obtenidos del documento ydel metatesauro. Esta compuesto de las si-guientes fases:

Obtencion de cada una de las frases

Obtencion de los SN de cada frase

Obtencion de las variantes a partir de losSN

En esta fase utilizamos la herramienta deprocesamiento de lenguaje natural OpenNLP3. Esta herramienta, permite detectar frases,realizar chunking, y analisis superficial. Nosquedamos con los sintagmas nominales maspequenos de los anidamientos proporcionadospor el etiquetador.

El paso de la obtencion de variantes re-quiere un procesamiento que consiste en:

Filtro de palabras vacıas.

Tokenizador

Filtro de puntuacion

Obtencion de variantes de cada token.

Este proceso se realizara para cada SN quehayamos obtenido. Se inicia con un filtrado depalabras vacıas. En este punto debemos men-cionar que tambien se ha realizado un filtra-do de nombres propios para evitar ruido en elsistema. Tras este primer filtro utilizamos eltokenizador proporcionado por la herramien-ta OpenNLP.

Uno de los puntos crıticos del sistema esel de la obtencion de variantes. En el sistemaque estamos tratando, podemos seleccionar elnivel de obtencion de variantes. Las variantesse generan de manera recursiva, por lo queeste proceso, de obtencion de variantes, vaanidandose.

Las variantes que se generan podran sersinonimos o derivaciones. Tanto los sinonimoscomo las derivaciones son extraıdos con la he-rramienta WordNet4. En la Figura 2 podre-mos ver un ejemplo grafico de como se gene-ran las variantes configurado a 2 niveles. Enprimer nivel, por cada uno de los tokens que

3https://opennlp.apache.org/4https://wordnet.princeton.edu/

Page 5: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

Figura 1: Arquitectura del sistema con las distintas fases de su ciclo de vida.

forman el SN se generan las diferentes varian-tes. En un segundo nivel, se vuelven a obtenerlas variantes a partir de las variantes obteni-das en el nivel anterior. La figura muestra elcaso para el token severe.

La generacion de variantes por niveles nospermite poder ampliar de manera dinamicala semantica de los SN que estamos tratan-do. Esto nos lleva al aumento del numero depalabras y requiere un calculo de la distanciasemantica con respecto a la original. Con estefin, cada una de las variantes queda asociadaa un historial: una cadena de caracteres queindica que tipo de variante se ha generadoen cada nivel recursivo para llegar a esta. Laposibilidad de poder configurar los niveles degeneracion de variantes tanto en el documen-to como en el metatesauro nos permite reali-zar un acercamiento semantico desde ambosextremos.

4.2 Palabras de impedimento

Se ha generado manualmente un conjunto depalabras, que parecen en la Tabla 1, que com-binadas con funciones fısicas o cognitivas dalugar a expresiones de discapacidad.

problems lack retardationdeterioration impairment failureataxia worsening disabilitydisablement deficit disorderdifficulty deformity losspain abnormal delayedabsent

Tabla 1: Palabras de impedimento usadas enel sistema.

Las palabras de impedimento tambien sontratadas para generar variantes, pero en estecaso a un unico nivel. Posteriormente, en lafase de generacion de candidatos, se comprue-ba la presencia de estas palabras en los SNDque estemos tratando. De hecho no se consi-

derara ningun SND que no contenga al menosuna palabra relacionada con el impedimento.

4.3 Mapeo

Esta fase parte de dos fuentes de informa-cion: las variantes de cada SN del documento(SND) y las variantes del metatesauro de dis-capacidades.

El objetivo es la obtencion de la rela-cion entre SND-Candidatos. Dado un SND,se comprueba para cada una de sus palabras(no vacıas) de cada una de sus variantes sise corresponde con alguna palabra de algunavariante de las expresiones de discapacidaddel metatesauro (Candidatos). En el caso queexista al menos una correspondencia, la disca-pacidad que contiene la palabra estara entrelos candidatos al SND. Con ello obtendremosun conjunto de estructuras de mapeos que re-cogen los candidatos asociados a cada SND(relacion de 1 a N).

4.4 Seleccion de Candidatos

Este es el proceso principal del sistema. Enesta fase se estableceran las puntuaciones delas relaciones entre los SND y los candida-tos a evaluar. Las medidas principales quese establecen para realizar la evaluacion sonlas siguientes: distancia, centralidad, cobertu-ra y cohesion. El calculo de estas medidas seha inspirado en las utilizadas por Metamap(Aronson, 2001). Las medidas de distancia ycentralidad se aplican a nivel de variantes.Mientras que, la cohesion y cobertura se apli-can al nivel de SND y candidato. El procesocomienza con la evaluacion de cada uno delos candidatos que se ha obtenido para cadauna de las SND. Esto se calcula mediante lasiguiente ecuacion

generacioncandidato = distancia+centralizadvc×6 +

2×(cobertura+cohesion)6 + impedimento

Page 6: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

Figura 2: Generacion de variantes.

donde ve es el numero de variantes delSND mapeado para cada token del candidato.

Por ejemplo, si el candidato tiene 3 tokens,puede haberse mapeado a 1,2 o 3 variantes delSND como maximo. Para seleccionar la va-riante del SND que mejor se ajuste al token,se escoge aquella que maximice la relacion en-tre las variantes

selectorvariantes = max(distanciaxy +centralidadxy)

4.4.1 Calculo de la distancia entredos variantes

Consiste en obtener una valoracion sobre larelacion entre las variantes y los tokens ori-ginales. Para ello se realiza el calculo de lospesos a partir del historial obtenido en la ge-neracion de las variantes.

distanciaxy = basebase+relacionxy

donde

relacionxy =calculoHistorial(x)+calculoHistorial(y)

2

y

base = 4 + (nivelDocumento +nivelCandidatos)× 3

donde nivelDocumento y nivel-Candidatos son los niveles de generacionde variantes para el documento y para elmetatesauro respectivamente. El calculo delhistorial de una variante es la suma de lospesos establecidos dependiendo del tipo degeneracion de la variante. Para ello se recorreel historial de generacion de la variante y seobtiene un valor que significara el coste dela generacion de esta como el indicado en la

Tabla 2.

Tipo de Variante Sımbolo Peso

Sinonimo s 3Derivacion d 1

Tabla 2: Peso establecido a cada tipo de va-riante.

Veamos un ejemplo del calculo del histo-rial en la Tabla 3.

Palabra Historial Peso

Severe 0Severity d 1Badness ds 4dangerous ss 6

Tabla 3: Ejemplo de calculo de un historial.

4.4.2 Calculo de la centralidad de dosvariantes

El calculo de la centralidad entre dos varian-tes consiste en realizar la media entre la cen-tralidad de la variante del metatesauro y dela variante del SND. La centralidad de unavariante se basa en si el token original per-tenece a la cabecera del arbol sintactico. Sipertenece a la cabecera la centralidad para lavariante sera 1, en caso contrario 0.

centralidadxy =centralidadx+centralidady

2

4.4.3 Calculo de la cobertura

Definimos cobertura como la medida que nospermite valorar el numero de variantes coin-cidentes entre SND y candidato. Para ello loobtendremos mediante la siguiente ecuacion

cobertura = coberturaSND+2×coberturacandidato3

Page 7: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

donde

coberturaSND = ventokens SND

coberturacandidato =ve

ntokens candidato

donde ve es el numero de variantes ma-peadas entre candidato y SND, ntokensSND

el numero de tokens que tiene el SND,ntokenscandidato el numero de tokens que tie-ne el candidato. Tanto coberturaSND comocoberturacandidatos pueden valer como maxi-mo 1.

4.4.4 Calculo de la cohesion

Definimos cohesion como la medida que nospermite valorar la conectividad entre las va-riantes del SND mapeadas con respecto a lasconexiones posibles. Por ejemplo, si nos en-contramos ante un caso en el que el numerode variantes mapeadas como maximo fuese 7,podrıan existir 6 conexiones. Esta medida cal-cula la relacion entre el numero de conexionesque contiene el mapeo con respecto al maxi-mo de conexiones posibles que podrıa tener.

coherencia =conexiones2existentes

conexiones2maximas

En el caso que tengamos un mapeo en elque no se pueda realizar conexiones se esta-blecera este valor a 0.

4.5 Etiquetado

Una vez evaluadas todas las relaciones SND-Candidato, se procede a realizar el proceso deetiquetado del documento. Para realizar esteproceso, se recorre cada una de las frases deldocumento y se comprueba si los SND de lafrase contiene algun candidato asociado. Encaso afirmativo, se comprueba que esa rela-cion SND-Candidato tenga un valor mayor oigual a un umbral que establecemos. El um-bral que tenemos establecido actualmente enel sistema es de ‘0.6’. Por tanto, toda rela-cion SND-Candidato que supere o iguale eseumbral, quedara reflejada en el documento desalida.

5 Resultados

Hemos calculado los resultados de precision,cobertura y medida-F obtenidos con dife-rentes configuraciones. La Tabla 4 muestralos resultados para distintos niveles decalculo de variantes cuando no se utilizan laspalabras de impedimento. Hemos generadoun baseline en el que no se utilizan variantesy en el que se detecta una discapacidad tan

solo si se encuentran terminos en el sintagmanominal analizado que se correspondan conalguna entrada del metatesauro. La Tabla5 muestra los resultados para distintosniveles de calculo de variantes utilizandolas palabras de impedimento. Comparandoambas tablas observamos que la introduccionde las palabras de impedimento supone unamejora notable de los resultados. Logica-mente aumenta la cobertura, pero tambienaumenta la precision. Esto se debe a que laintroduccion del peso correspondiente a lapresencia de las palabras de impedimentoen la valoracion de un candidato cambia elranking y produce distintas asociaciones.

Nivel Medida-F P C

Baseline 0.41 0.68 0.33Nivel 1-1 0.42 0.57 0.37Nivel 2-1 0.30 0.25 0.42Nivel 3-1 0.19 0.12 0.48Nivel 2-2 0.23 0.16 0.47

Tabla 4: Resultados en funcion de la Medida-F, Precision (P) y Cobertura (C) para dife-rentes niveles de variacion sin utilizar pala-bras de impedimento.

Centrandonos ya la Tabla 5, vemos quelos mejores resultados se obtienen para elcaso (3-1) y (2-2), al considerar dos y tresniveles de generacion de variantes desde lossintagmas nominales y un nivel o dos desdeel tesauro. La perdida de precision que seproduce para mas niveles no compensa laganancia en cobertura.

Nivel Medida-F P C

Baseline 0.40 0.82 0.29Nivel 1-1 0.45 0.88 0.33Nivel 2-1 0.49 0.86 0.36Nivel 3-1 0.51 0.76 0.41Nivel 2-2 0.51 0.78 0.41

Tabla 5: Resultados en funcion de la Medida-F, Precision (P) y Cobertura (C) para dife-rentes niveles de variacion.

Aunque estos resultados son preliminares,consideramos que son un buen comienzo paraabordar la tarea. Ası, algunos estudios (Gon-zalez y Iglesias, 2011) indican resultados deprecision de Metamap de entre 40 y 45% yde medida-F de 20% para conceptos medicosrecogidos en UMLS. De esta forma y a pe-

Page 8: Anotaci on Autom atica de Discapacidades en Documentos ... · (2013-025-UNED-PROY). muy lenta y costosa, en la actualidad se est´an aplicando t´ecnicas de aprendizaje autom´ati-co

sar de que los resultados no son comparables,muestra una idea general de como son los re-sultados obtenidos.

6 Conclusiones y TrabajosFuturos

Nuestra propuesta para anotar discapacida-des en documentos medicos se basa en la ge-neracion de variantes de la lista de discapa-cidades consideradas. Para ello, se ha elabo-rado un metatesauro especıfico de discapaci-dades sobre el cual se ha aplicado la genera-cion de variantes. Hasta el momento las va-riantes consideradas han sido derivacionales ysinonimos. Con respecto a MetaMap, que esla herramienta de referencia en este tipo detareas, hemos incluido varias mejoras tratan-do de adaptar la identificacion de conceptosmedicos al problema especıfico de las disca-pacidades. No obstante, estas mejoras puedenser aplicadas a otros tipos de conceptos medi-cos. El sistema propuesto, permite tambienconfigurar el nivel de generacion de variantes,tanto en los documentos analizados como enel metatesauro. Otra mejora, ha sido el uso depalabras de impedimento, que nos ha permi-tido expandir el conjunto de discapacidadesconsideradas, y convertir el listado de funcio-nes corporales y cognitivas de Orphanet enuna metatesauro de discapacidades. Los pri-meros resultados obtenidos indican que el sis-tema es capaz de obtener niveles competitivosde precision y cobertura.

Sin embargo, se presentan muchas posibili-dades de mejorar los resultados. En primer lu-gar queremos ampliar el corpus de prueba uti-lizado. Tambien ampliaremos la lista de pa-labras de impedimento, analizando el efectoque pueda tener la inclusion de cada una deellas. Ası mismo nos proponemos ampliar lastecnicas de PLN utilizadas, incluyendo trata-miento de la negacion y desambiguacion.

Bibliografıa

Aronson, Alan R. 2001. Effective mapping ofbiomedical text to the UMLS metathesau-rus: the MetaMap program. En Procee-dings of AMIA, Annual Symposium, pagi-nas 17–21.

Carrero, F. M., J. C. Cortizo, J. M. Gomez, yM. de Buenaga. 2008. In the developmentof a spanish metamap. En Proceedings ofthe 17th ACM Conference on Informationand Knowledge Management, CIKM ’08,

paginas 1465–1466, New York, NY, USA.ACM.

Castro, E., A. Iglesias, P. Martınez, y L. Cas-tano. 2010. Automatic identification ofbiomedical concepts in spanish-languageunstructured clinical texts. En Procee-dings of the 1st ACM International HealthInformatics Symposium, IHI ’10, paginas751–757, New York, NY, USA. ACM.

Conrado, M. S, W. Koza, J. Dıaz-Labrador,J. Abaitua, Solange O Rezende, T. ASPardo, y Z. Solana. 2011. Experimentson term extraction using noun phrase sub-classifications. paginas 746–751.

Gonzalez, R.Paula F. y E. L. Iglesias.2011. Study and evaluation of an in-dexing tool: Metamap. Informe TecnicoTFM SSIA 2010-11, Universidad de Vigo.

Iglesias, A., E. Castro, R. Perez-Lainez,L. Castano, P. Martınez, J. M. Gomez-Perez, S. Kohler, y R. Melero. 2008.MOSTAS: un etiquetador morfo-semanti-co, anonimizador y corrector de historialesclınicos. Procesamiento del Lenguaje Na-tural, 41.

Organization., World Health. 2007. nterna-tional classification of functioning, disabi-lity and health : children and youth. WorldHealth Organization Geneva.

Oronoz, M., A. Casillas, K. Gojenola, y A. Pe-rez. 2013. Automatic annotation of me-dical records in spanish with disease, drugand substance names. En Progress in Pat-tern Recognition, Image Analysis, Com-puter Vision, and Applications, volumen8259 de Lecture Notes in Computer Scien-ce. Springer Berlin Heidelberg, paginas536–543.

Oronoz, M., A. Dıaz de Ilarraza, y O. Tori-ces. 2010. First steps in the manual andautomatic annotation of clinical notes inspanish. Procesamiento del Lenguaje Na-tural, 45:259–262.

Vivaldi, J. y H. Rodrıguez. 2010. Using wiki-pedia for term extraction in the biomedicaldomain: first experiences. Procesamientodel Lenguaje Natural, 45:251–254.