Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Evaluación de Relaciones Semánticas: Sinonimia y Antonimia Presentes en una Ontología
presentada por
Adrián Cruz Hernández Ing. en Sistemas Computacionales por el I. T. de Cerro Azul
como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias de la Computación
Director de tesis: Dra. Azucena Montes Rendón
Co-Director de tesis: Dr. David Eduardo Pinto Avendaño
Cuernavaca, Morelos, México. 14 de Diciembre de 2012
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Evaluación de Relaciones Semánticas: Sinonimia y Antonimia Presentes en una Ontología
presentada por
Adrián Cruz Hernández Ing. en Sistemas Computacionales por el I. T. de Cerro Azul
como requisito para la obtención del grado de:
Maestría en Ciencias en Ciencias de la Computación
Director de tesis: Dra. Azucena Montes Rendón
Co-Director de tesis:
Dr. David Eduardo Pinto Avendaño
Jurado: Dr. Juan Gabriel González Serna – Presidente
M.C. Javier Ortiz Hernández – Secretario M.C. Humberto Hernández García – Vocal
Dr. David Eduardo Pinto Avendaño – Vocal Suplente
Cuernavaca, Morelos, México. 14 de Diciembre de 2012
Dedicatoria
A mis padres…
Y a la mujer que ha caminado a mi lado desde el 30 de marzo de este año.
Agradecimientos
A Dios, por acompañarme en todo momento y hacerse evidente en las situaciones difíciles.
Al Dr. David Eduardo Pinto Avendaño, por haberme aceptado en la estancia de investigación en
verano de 2010, que en mi opinión, dicha estancia representa: el inicio de un circulo interminable (por
que continuaré) en el maravilloso mundo de investigación, y el primer “paper” que a menudo reviso
para tomar nota de todo aquello que mejoraré en los siguientes a publicar.
A la Dra. Azucena Montes Rendón, de la que admiro su postura filosófica, además de muchas otras
cosas…
Gracias, Dra., por acompañarme en el desarrollo de esta tesis. Estoy seguro que si Dios nos lo permite
seguiré, y en el camino contaré con su apoyo.
Al Dr. Juan Gabriel González Serna, por hacer divertida las diferentes materias, a través de los retos
que representaban sus proyectos. Creo que sin ello, no hubiese alcanzado la madures, esa misma que
me ayudó a concluir la tesis sin encontrar obstáculos técnicos.
A mis compañeros y amigos. Los “conejillos”, los “cartOOn” y todos aquellos que se unieron al
movimiento “MAMAlon!”.
A la teacher Paty por su apoyo en el segundo idioma, nunca olvidaré “llevar tortas”.
A Mónica y Anita; aprecio su disponibilidad, paciencia y atención brindada. A la Lic. Guadalupe
Garrido, siempre estaré agradecido por haber gestionado nuestros trámites para la obtención de la
beca CONACYT y en general por estar al tanto de nuestro expediente escolar.
Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico que me brindó
durante mis estudios de posgrado.
Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por la preparación que los
profesores-investigadores de esta institución me brindaron en la maestría, ya que su aportación se ve
reflejada en esta tesis.
Al Dr. Juan Gabriel González Serna, Dr. Javier Ortiz Hernández y M.C. Humberto Hernández García por
sus aportaciones finales en este documento.
Lista de acrónimos
CNR confirmar o negar la relación
EVO evaluación de ontologías
GFR grado de fortaleza de la relación
GRS grado de relación semántica
REL bandera para indicar sinonimia y antonimia, a través de la letra s y a en minúsculas o mayúsculas
RSA relaciones de sinonimia y antonimia
UL unidad léxica
ULS unidades léxicas
Abstract
Ontology development has taken height for being the base instrument for today´s semantic web
development. During an ontology´s lifecycle, evaluation is very important mainly because ontologies
are an instrument in representing semantic knowledge, and they offer a solution to semantic
interoperability in modern information systems. Thus the ontology has to be correct.
Considering this important aspect and observing that semantic relations (non hierarchical) have
been postponed during evaluation; it is proposed to evaluate the relation of synonymy and antonymy
as a first step in evaluating semantic relationships within ontologies.
To evaluate these relationships, we propose to validate the relations, that is, to verify if the relation
between two lexical units is correct or incorrect, and additionally to provide a value that represents the
relation level. The steps followed were: a) collect patterns to identify synonyms and antonyms, b)
identify lexical resources that manage these relations, and c) create metrics that exploit these resources
and create metrics that use patterns to identify relations. Measurement results are used in a heuristic
capable of validating synonyms and antonyms. Some results are used to quantify the semantic relation
level.
During validation, this approach reaches a harmonic measurement of precision and recall above 96%
for synonymy and 86% for antonymy. Regarding task of calculating the semantic relation level we
obtain a 0.73 Spearman correlation with respect to a Gold standard. With this, we can say that this
investigation represents a significant breakthrough in semantic relationship evaluation in ontologies
offering a tool that is 96% reliable in synonymy and 86% on antonymy, while offering a 73% reliability
on semantic relation level.
Resumen
El desarrollo de ontologías ha tomado auge por ser un instrumento de base para el desarrollo actual
de la web semántica. En el marco del ciclo de vida de una ontología, la evaluación es de vital
importancia principalmente porque las ontologías son el instrumento para la representación del
conocimiento semántico, y están dando solución a la interoperabilidad semántica en modernos
sistemas de información por lo que se requiere que la ontología sea correcta.
Considerando esta importancia y observando que las relaciones semánticas (no jerárquicas) han sido
postergadas a la hora de la evaluación, se propone evaluar las relaciones de sinonimia y antonimia
como primer avance en la evaluación de las relaciones semánticas en ontologías.
Para llevar a cabo la evaluación de estas relaciones, el presente trabajo propone validar las
relaciones, es decir, verificar si la relación entre dos unidades léxicas es correcta o incorrecta;
adicionalmente proporcionar un valor que represente el grado de la relación. Los pasos que se
siguieron fueron: a) recopilar patrones para la identificación de sinónimos y antónimos, b) identificar
recursos léxicos que gestionan estas relaciones, c) crear métricas que explotan estos recursos y crear
métricas que hacen uso de los patrones para la identificación de relaciones. Los resultados de las
métricas son utilizados en una heurística capaz de validar sinónimos y antónimos. Algunos resultados
son utilizados para cuantificar el grado de relación semántica.
En la validación, este enfoque alcanza una medida armónica de precisión y recuerdo por arriba del
96% para las relaciones de sinonimia y del 86% para antonimia; y en la tarea calcular el grado de
relación semántica se obtiene una correlación de Spearman de 0.73 respecto a un Gold standar. Con lo
que podemos decir que este trabajo de investigación representa un avance significativo en la
evaluación de relaciones semánticas presentes en ontologías ofreciendo una herramienta que en la
tarea de confirmar y negar la relación de sinonimia es 96% confiable y en la antonimia 86%, mientras
que ofrece un grado de relación semántica entre pares con una confiabilidad del 73%.
Contenido
Lista de figuras ……………………………………………………………………………………………….iv
Lista de tablas ………………………………………………………………………………………………...v
Lista de ecuaciones .………………………………………………………………………………………….vi
Capítulo 1. Introducción ............................................................................................................................. 1
1.1 Motivación ........................................................................................................................................ 2
1.2 Planteamiento del problema .............................................................................................................. 3
1.3 Objetivos ........................................................................................................................................... 4
1.3.1 Objetivo general ........................................................................................................................... 4
1.3.2 Objetivos particulares ................................................................................................................... 4
1.4 Alcances y limitaciones .................................................................................................................... 4
1.4.1 Alcances ....................................................................................................................................... 4
1.4.2 Limitaciones ................................................................................................................................. 5
1.5 Organización de la tesis .................................................................................................................... 5
Capítulo 2. Marco teórico ........................................................................................................................... 6
2.1 Introducción ...................................................................................................................................... 7
2.2 Ingeniería ontológica ........................................................................................................................ 7
2.2.1 Ontología ...................................................................................................................................... 7
2.2.2 Métodos para la construcción de ontologías ............................................................................... 10
2.2.3 Evaluación de ontologías ............................................................................................................ 11
2.3 Lingüística computacional .............................................................................................................. 12
2.3.1 Relaciones semánticas ................................................................................................................ 13
2.3.2 Recursos lingüísticos .................................................................................................................. 19
2.4 Recuperación de información ......................................................................................................... 20
2.4.1 Custom Search API .................................................................................................................... 21
2.4.2 Watson ........................................................................................................................................ 21
2.5 Minería de textos............................................................................................................................. 22
2.5.1 Medidas de distancia y similitud semántica entre términos ........................................................ 23
Capítulo 3. Estado del arte ........................................................................................................................ 25
3.1 Evaluación de ontologías ................................................................................................................ 26
3.1.1 Hecha por expertos siguiendo criterios ....................................................................................... 29
i
3.1.2 Basada en tareas.......................................................................................................................... 33
3.1.3 Basada en Gold Standard ............................................................................................................ 35
3.1.4 Basada en corpus de datos .......................................................................................................... 36
3.1.5 Otros enfoques de evaluación ..................................................................................................... 39
3.1.6 Resumen de las características de los diferentes métodos de evaluación de ontologías ............. 40
3.2 Sinonimia ........................................................................................................................................ 42
3.2.1 Determinación del grado de sinonimia basado en diccionarios .................................................. 43
3.2.2 Adquisición automática de sinónimos basada en la hipótesis de la distribución ........................ 44
3.2.3 Utilizando la web como un corpus ............................................................................................. 45
3.3 Antonimia ....................................................................................................................................... 47
Capítulo 4. Desarrollo de métricas ............................................................................................................ 49
4.1 Métricas para la validación de la relación ....................................................................................... 50
4.2 Métricas para medir el grado de la relación .................................................................................... 60
Capítulo 5. Propuesta de solución ............................................................................................................. 63
5.1 Procedimiento de solución .............................................................................................................. 64
5.1.1 Obtención de los pares de unidades léxicas a evaluar ................................................................ 64
5.1.2 Uso de métricas .......................................................................................................................... 65
5.1.3 Heurística para confirmar o negar la relación ............................................................................. 66
5.1.4 Cálculo del grado de fortaleza de la relación. ............................................................................. 68
5.2 Desarrollo de SyAnMetric .............................................................................................................. 69
5.2.1 Arquitectura general ................................................................................................................... 69
5.2.2 Aplicación SyAnMetric .............................................................................................................. 72
Capítulo 6. Pruebas y resultados ............................................................................................................... 75
6.1 Métricas de evaluación ................................................................................................................... 76
6.1.1 Precisión y Recuerdo .................................................................................................................. 76
6.1.2 Medida F ..................................................................................................................................... 77
6.2 Caracterización de pruebas ............................................................................................................. 77
6.2.1 Criterios de evaluación ............................................................................................................... 78
6.2.2 Casos de estudio ......................................................................................................................... 79
6.3 Resultados ....................................................................................................................................... 86
6.3.1 Sinónimos ................................................................................................................................... 86
6.3.2 Antónimos .................................................................................................................................. 94
6.4 Análisis de resultados ..................................................................................................................... 99
Capítulo 7. Conclusiones y trabajos futuros ........................................................................................... 103
7.1 Conclusiones ................................................................................................................................. 104
ii
7.2 Aportaciones ................................................................................................................................. 105
7.3 Trabajos futuros ............................................................................................................................ 106
Bibliografía ..................................................................................................................................................... 108
Anexos ........................................................................................................................................................... 118
Anexo 1. Algoritmos desarrollados ............................................................................................................ 119
Anexo 2. Heurística.................................................................................................................................... 129
iii
Figuras FIGURA 2-1 VISIÓN GENERAL FUNCIONAL DE LOS PRINCIPALES COMPONENTES DE LA ARQUITECTURA WATSON ....................... 22
FIGURA 4-1 MODIFICACIÓN DE NGD ....................................................................................................................... 61
FIGURA 5-1 EJEMPLO DE USO DE LA HEURÍSTICA ......................................................................................................... 66
FIGURA 5-2 EJEMPLO 2 DE USO DE LA HEURÍSTICA ...................................................................................................... 67
FIGURA 5-3 ARQUITECTURA GENERAL DE SYANMETRIC ............................................................................................... 69
FIGURA 5-4 FASE I EN LA ARQUITECTURA .................................................................................................................. 70
FIGURA 5-5 FASE II EN LA ARQUITECTURA ................................................................................................................. 71
FIGURA 5-6 FASE III EN LA ARQUITECTURA ................................................................................................................ 71
FIGURA 5-7 CONJUNTOS O, DE LA FASE 4 EN LA ARQUITECTURA .................................................................................... 72
FIGURA 5-8 INTERFAZ SYANMETRIC ........................................................................................................................ 72
FIGURA 5-9 RESULTADO DE LA APLICACIÓN SYANMETRIC ............................................................................................ 73
iv
Tablas TABLA 2-1 EJEMPLO DE PARES SINÓNIMOS ................................................................................................................. 14
TABLA 2-2 MAN Y WOMAN COMO ANTÓNIMOS .......................................................................................................... 16
TABLA 2-3 CONTENIDO DE WORDNET ...................................................................................................................... 20
TABLA 3-1 PANORAMA DE LOS ENFOQUES DE EVALUACIÓN ........................................................................................... 28
TABLA 3-2 ERRORES EN 3 RESPECTIVOS NIVELES .......................................................................................................... 34
TABLA 3-3 CUADRO COMPARATIVO DE TRABAJOS DEL ESTADO DEL ARTE .......................................................................... 40
TABLA 4-1 RECONOCIMIENTO DE HIPÓNIMOS ............................................................................................................. 51
TABLA 4-2 PATRONES PARA LA IDENTIFICACIÓN DE ANTÓNIMOS ..................................................................................... 52
TABLA 4-3 PATRONES PARA LA IDENTIFICACIÓN DE SINÓNIMOS ...................................................................................... 53
TABLA 4-4 AFIJOS PARA EL RECONOCIMIENTO DE ANTÓNIMOS ....................................................................................... 57
TABLA 5-1 FORMATO DEL PAR DE UNIDADES LÉXICAS ................................................................................................... 64
TABLA 5-2 MÉTRICAS QUE INDICAN UNA RELACIÓN DIFERENTE A LA SINONIMIA ................................................................. 65
TABLA 5-3 MÉTRICAS QUE INDICAN UNA RELACIÓN DIFERENTE A LA ANTONIMIA ................................................................ 65
TABLA 5-4 PARES DE UNIDADES LÉXICAS Y SU GRADO DE FORTALEZA EN LA RELACIÓN (GFR) ................................................ 68
TABLA 5-5 EJEMPLO DEL CÁLCULO DE GFR ................................................................................................................ 68
TABLA 6-1 PRECISIÓN Y RECUERDO .......................................................................................................................... 76
TABLA 6-2 FORMATO DE LOS CASOS DE ESTUDIO ......................................................................................................... 79
TABLA 6-3 VOCABULARIO EN EL TÓPICO EDUCATION .................................................................................................... 80
TABLA 6-4 VOCABULARIO EN EL TÓPICO HEALTH.......................................................................................................... 81
TABLA 6-5 VOCABULARIO EN EL TÓPICO SPORT AND LEISURE .......................................................................................... 81
TABLA 6-6 VOCABULARIO EN EL TÓPICO THE INDIVIDUAL AND SOCIETY ............................................................................. 82
TABLA 6-7 VOCABULARIO EN EL TÓPICO CONFLICT ....................................................................................................... 83
TABLA 6-8 ANTÓNIMOS GRADUALES ......................................................................................................................... 84
TABLA 6-9 ANTÓNIMOS COMPLEMENTARIOS .............................................................................................................. 84
TABLA 6-10 ANTÓNIMOS RELACIONALES ................................................................................................................... 85
TABLA 6-11 CONJUNTO DE PARES DE PRUEBA EN CUPERTINO ........................................................................................ 85
TABLA 6-12 RESULTADOS EN SINONIMIA ................................................................................................................... 86
TABLA 6-13 RESULTADOS EN EL TÓPICO EDUCATION .................................................................................................... 88
TABLA 6-14 RESULTADOS EN EL TÓPICO HEALTH.......................................................................................................... 89
TABLA 6-15 RESULTADOS EN EL TÓPICO SPORT AND LEISURE .......................................................................................... 90
TABLA 6-16 RESULTADOS EN EL TÓPICO THE INDIVIDUAL AND SOCIETY ............................................................................. 91
TABLA 6-17 RESULTADOS EN EL TÓPICO CONFLICT ....................................................................................................... 92
TABLA 6-18 RESULTADOS EN ANTÓNIMOS GRADUALES ................................................................................................. 94
TABLA 6-19 RESULTADOS EN ANTÓNIMOS COMPLEMENTARIOS ...................................................................................... 95
TABLA 6-20 RESULTADOS EN ANTÓNIMOS RELACIONALES ............................................................................................. 96
TABLA 6-21 CONJUNTO DE PRUEBA: LOS PRIMEROS 8 PARES SON ANTÓNIMOS ................................................................. 97
TABLA 6-22 RESULTADOS EN EL EXPERIMENTO DE CUPERTINO ....................................................................................... 98
TABLA 6-23 RESULTADOS DE SYANMETRIC, UTILIZANDO LOS 18 PARES DE CUPERTINO ...................................................... 98
TABLA 6-24 RESULTADOS DE SYANMETRIC EN PARES REALMENTE ANTÓNIMOS DE CUPERTINO ............................................ 98
TABLA 6-25 RESULTADOS A DETALLE EN EL MARCO DE SINONIMIA .................................................................................. 99
TABLA 6-26 RESULTADOS POR CATEGORÍA GRAMATICAL ............................................................................................. 100
TABLA 6-27 RESULTADOS GENERALES EN EL MARCO DE ANTONIMIA .............................................................................. 101
v
Ecuaciones
ECUACIÓN 2-1 NGD ............................................................................................................................................. 24
ECUACIÓN 4-1 VARIANTE DE COOCURRENCIA ............................................................................................................. 60
vi
Adrián Cruz Hernández P á g i n a | 1
Capítulo 1. Introducción
En este capítulo se describe la motivación que dio origen a esta investigación, la problemática que se
aborda en esta tesis. Se presenta también el objetivo general y los objetivos específicos, los alcances y
las limitaciones de la presente investigación.
Capítulo 1.- Introducción
Adrián Cruz Hernández P á g i n a | 2
1.1 Motivación
Las ontologías han tomado el papel de representación de conocimiento semántico y están dando
solución a la interoperabilidad semántica en los modernos sistemas de información, y se ha impulsado
la investigación sobre aprendizaje (semi)automático de ontologías, siendo la explotación de la
información textual en la web y corpus, y la madures alcanzada en áreas como el procesamiento del
lenguaje natural dos de los factores que han contribuido en este impulso. Sin embargo, se ha visto que
al aplicar los métodos de evaluación de ontologías (EVO), se encuentran errores en modelados
ontológicos. Consideramos que el desarrollo semiautomático de ontologías aumenta la probabilidad de
errores en el modelo ontológico [1]. Por lo anterior y tomando en cuenta que las ontologías son la
piedra angular de la web semántica [2], [3] se propone una investigación en el marco de EVO, para ello
primero realizamos un estado del arte sobre esta tarea, encontrando dos inconvenientes: a) la
evaluación que considera al dominio representado por la ontología utiliza un enfoque basado en corpus
de datos para la evaluación, el inconveniente de estos enfoques es la condición de contar con un corpus
de datos del mismo dominio de la ontología para poder llevar a cabo la evaluación, condición que pocas
veces es cubierta, y que es más factible en la etapa de desarrollo de la ontología y poco probable cubrir
por parte del usuario que desea llevar a cabo la evaluación de una ontología para su reutilización o
adaptación al modelo que desea representar. b) también se ha deducido al revisar la literatura, que la
sinonimia y antonimia –como relaciones semánticas- han sido postergadas a la hora de la evaluación.
Los usuarios que necesitan de una EVO generalmente se enfrentan a los inconvenientes mencionados.
Por otro lado, los supervisores de ontologías, creadas semiautomáticamente, tienen que lidiar con
complicados métodos de EVO para poder garantizar la calidad de la misma, y poder utilizar la ontología
y hacerla pública.
Lo anterior motivó a llevar a cabo una investigación en la que se propone evaluar las relaciones
semánticas de sinonimia y antonimia presentes en una ontología, sin el prerrequisito hacia el usuario
de contar con un corpus del mismo domino de la ontología, esperando cubrir parcialmente las
relaciones semánticas que se pueden dar en una ontología.
Capítulo 1.- Introducción
Adrián Cruz Hernández P á g i n a | 3
1.2 Planteamiento del problema
Las relaciones semánticas se han venido estudiando desde hace varios años, la mayoría de los
resultados se observa en diferentes estrategias para la identificación automática de relaciones y en la
creación de recursos léxicos que contienen relaciones semánticas entre palabras como WordNet.
La sinonimia y antonimia son dos de las relaciones de las que se han propuesto estrategias para la
identificación automática, sin embargo, estos procedimientos a menudos tienen baja precisión y
recuerdo cuando se procesa vocabulario de dominios semi-específicos.
En aprendizaje automático (machine learning), se han desarrollado técnicas para la generación
automática de ontologías, en las que se especifican relaciones, sin embargo, dado que el vocabulario en
ontologías generalmente es de dominio semi-específico, algunos conceptos del dominio dejan de
considerarse en la ontología y se especifican relaciones incorrectas entre conceptos. En el proceso de
refinamiento de ontologías, un experto propone incorporar conceptos a la ontología (que no se
consideraron de manera automática) logrando mejorar la representación del dominio por la ontología.
A partir de esta situación, se origina la necesidad de una herramienta que permita validar, es decir,
confirmar o negar relaciones de sinonimia o antonimia entre conceptos, para respaldar la definición de
las relaciones entre conceptos en una ontología, es decir, entre conceptos de dominios semi-específicos.
En el marco de evaluación de ontologías, se ha dicho que para garantizar una alta calidad, las
ontologías pueden ser evaluadas de acuerdo a diferentes criterios [4]. Esto es uno de los factores de que
exista una variedad de enfoques sobre EVO que cubren ciertos elementos ontológicos, dejando
postergada la evaluación de relaciones semánticas (no jerárquicas). La sinonimia y antonimia son dos
de las relaciones no jerárquicas más importantes. Si se desea evaluarlas, ¿cómo validarlas de manera
semiautomática?, en otras palabras, ¿Cómo distinguir, computacionalmente, si una relación entre dos
conceptos es correcta o incorrecta?, algunas estrategias, emergentes, proponen utilizar WordNet para
la validación de relaciones entre conceptos, sin embargo esto es insuficiente, la mayoría de las veces,
cuando se procesa vocabulario de dominio semi-específico. Ante este problema surgen la siguiente
pregunta: ¿Cómo lograr validar relaciones, de manera semiautomática, entre conceptos de dominio
semi-específico?
El cuestionamiento hecho hasta el momento, representan un problema al que se le dará solución, es
decir, daremos respuesta a tales preguntas en la presente investigación. El resultado, representará un
primer avance en un proyecto de investigación que involucra una tesis doctoral donde se pretende
evaluar todo tipo de relaciones ontológicas, para subsanar el problema al que se enfrentan aquellos que
necesitan de una evaluación que cubra las relaciones semánticas presentes en ontologías.
Capítulo 1.- Introducción
Adrián Cruz Hernández P á g i n a | 4
1.3 Objetivos
1.3.1 Objetivo general
Desarrollar métricas que permitan llevar a cabo una evaluación de las relaciones semánticas de
sinonimia y antonimia presentes en una ontología.
1.3.2 Objetivos particulares
De acuerdo al objetivo general se desglosan los objetivos particulares que son abordados en esta tesis
como:
Aplicar patrones para la identificación de sinónimos y antónimos.
Desarrollar e implementar métricas para la identificación de sinónimos y antónimos.
Calcular el grado de distancia semántica entre los términos involucrados en la relación.
Proponer una estrategia para llevar a cabo la evaluación de relaciones de sinonimia y
antonimia presentes en una ontología, sin la necesidad de contar con un corpus que
represente al dominio de la ontología.
1.4 Alcances y limitaciones
1.4.1 Alcances
Se creó una herramienta web que implementa la propuesta de solución al problema principal
de esta investigación.
Se presentan 5 casos de uso (294 pares de conceptos) para evaluar relaciones de sinonimia y 3
casos de uso para antonimia (80 pares de conceptos).
Capítulo 1.- Introducción
Adrián Cruz Hernández P á g i n a | 5
1.4.2 Limitaciones
Dado que la mayoría de las ontologías se desarrollan utilizando vocabulario del idioma Inglés,
la investigación se realizó atacando sólo este idioma.
La herramienta tiene una limitante de consultas por día, proporcional a los costos económicos
que implica el uso de la API de Google para hacer consultas a la web, y el número de
consultas máximas que esta permite al día.
El tiempo de procesamiento no es calculado.
Se ha dejado como trabajo futuro, averiguar cuál es la granularidad máxima, en términos de
vocabulario de dominios específicos, en donde nuestra propuesta sigue evaluando relaciones
con un grado aceptable de eficacia.
1.5 Organización de la tesis
El presente documento se encuentra organizado de la siguiente manera:
En el capítulo dos se aborda el marco teórico donde se muestran los fundamentos teóricos como
ontología, WordNet, Watson, medidas de distancia y similitud semántica entre términos, sinonimia y
antonimia.
En el capítulo tres muestra un estado del arte sobre evaluación de ontologías, sinonimia y antonimia.
En el capítulo cuatro se presenta el desarrollo de métricas para validar relaciones de sinonimia y
antonimia, y métricas para el grado de estas relaciones.
El capítulo cinco aborda el trabajo central, donde se describe la propuesta de solución, y una
herramienta denominada SyAnMetric que implementa la propuesta de solución.
Posteriormente se encuentra el capítulo seis donde se muestra la caracterización de las pruebas a
realizar, los resultados obtenidos en los casos de estudio propuestos y un análisis de resultados.
El capítulo siete, presenta las conclusiones particulares y una conclusión general, las aportaciones y
los trabajos futuros del presente trabajo de investigación.
Posteriormente se presentan las referencias que determinan la relevancia de este trabajo y los anexos
que complementan la información presentada.
Adrián Cruz Hernández P á g i n a | 6
Capítulo 2. Marco teórico
En esta sección se describen los conceptos más relevantes en el presente trabajo de investigación.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 7
2.1 Introducción
La presente investigación abarca diferentes disciplinas tal como puede observarse en la siguiente
figura.
Figura 2-1 Áreas involucradas en la presente investigación
En seguida se presentan cada una de las áreas que se observan en la figura anterior.
2.2 Ingeniería ontológica
En esencia se trata de una rama de la ingeniería dedicada al conjunto de actividades concernientes al
proceso de desarrollo de las ontologías, a su ciclo de vida, los métodos y metodologías para construirlas
y las herramientas y lenguajes que soportan a las ontologías [5], [6].
2.2.1 Ontología
Los filósofos griegos Sócrates y Aristóteles fueron los primeros en desarrollar los fundamentos de la
Áreas involucradas
Ingeniería ontológica
Lingüística computacional
Recuperación de información
Minería de textos
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 8
ontología [7]. Sócrates introdujo la noción de las ideas abstractas, una jerarquía entre ellos y las
relaciones de instancia de clase. Aristóteles añadió las asociaciones lógicas. Dando como resultado un
modelo bien estructurado, que es capaz de describir el mundo real. Sin embargo, no es trivial para
incluir todas las relaciones amplias y complejas de nuestro entorno. Actualmente, el término ontología
se define como “Una especificación de una conceptualización” [8], donde una conceptualización es una
visión abstracta y simplificada del mundo que queremos representar con algún propósito. Una
conceptualización se refiere a un modelo abstracto de algún fenómeno en el mundo, identificando el
concepto relevante de este fenómeno [9]. La anterior definición, se convirtió en la más aceptada por la
comunidad científica hasta que fue completada por Studer [10] como:
“[…] especificación explícita y formal de una conceptualización compartida.”
Donde:
Conceptualización se refiere a una representación abstracta o modelo, de algún fenómeno en el
mundo, perteneciente al Universo del Discurso. En dicho modelo estarán representados los conceptos y
relaciones relevantes de dicho fenómeno.
Explícita se refiere a definición explicita que, para su uso, es necesario hacer de los conceptos,
relaciones y restricciones.
Formal se refiere al hecho de emplear un formalismo de representación, que permita a la ontología
ser legible o interpretable por una computadora.
Compartida expresa la noción de conocimiento consensuado, es decir, el conocimiento compartido no
es privado de un individuo, sino que ha sido consensuado por un grupo o comunidad.
Nicola Guarino [11] complementó la propuesta de Studer, definiendo ontología como:
“[…] teoría lógica que da cuenta del significado intencional de un vocabulario formal, es decir, de su
compromiso ontológico hacia una conceptualización particular del mundo”.
En la actualidad existen distintas acepciones aplicadas al término ontología, lo cual se debe
principalmente porque son distintas las comunidades científicas las que han propuesto una definición
[12]. La propuesta de Jasper y Uschold intenta resolver este problema, mediante la definición de los
requisitos mínimos que un modelo debe cumplir para ser considerado una ontología [13]. Según estos
autores:
“Una ontología puede tomar diversas formas, pero necesariamente incluirá un vocabulario de
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 9
términos y alguna especificación de sus significados. Esto incluye definiciones y una indicación de cómo
los conceptos están interrelacionados, que colectivamente imponen una estructura al dominio y
restringen las posibles interpretaciones de los términos”.
Por otro lado en [14] una ontología O se define por medio de la siguiente tupla:
, , ,
Que consiste en
La ontología núcleo S,
El sistema de axiomas A,
La base de conocimiento KB, y
El léxico Lex
Todos estos componentes se describen a detalle en [14]. A saber, S como ontología núcleo es una
estructura
, , , ,
Que consiste en
Dos conjuntos disjuntos C y R cuyos elementos se denominan identificadores de
conceptos e identificadores de relación (o conceptos y relaciones, comúnmente),
Un orden parcial , llamada jerarquía de conceptos o taxonomía,
Una función llamada signatura la cual indica que se da una relación
binaria, donde ( , ) con , y representa el dominio y
el rango.
Como se ve en la descripción anterior una ontología debe contar con relaciones entre dos conceptos.
El conjunto R está compuesto por diferentes identificadores de relación h, s, a, … , x , tal que ,
, ,…, ; donde h es la relación de hiponimia, s la de sinonimia, a la de antonimia, etc. Es
importante aclarar que cada ontología incluye un conjunto particular de elementos para C y R, con lo
que conceptos incluidos en una ontología A no necesariamente estarán presentes en una ontología B, y
lo mismo pasa con sus relaciones. Por lo que no todas las ontologías incluyen sinónimos y antónimos.
Algunas relaciones, del total posible para R, se presentan en el apartado 2.3.1.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 10
2.2.2 Métodos para la construcción de ontologías
En el marco de la ingeniería ontológica, existen varias propuestas metodológicas para el diseño y
construcción de ontologías. A saber, dos de las metodologías más importantes son: Methontology, de la
Universidad Politécnica de Madrid [6] y NeOn [15], un proyecto europeo.
Figura 2-2 Ciclo de vida de Methontology [6].
Se puede apreciar que en la propuesta de Methontology se considera el proceso de evaluación
(evaluación se define en la siguiente sección) en el marco de actividades de soporte.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 11
Figura 2-3 Escenarios de la Metodología [15]
Al igual que en Methontology, en NeOn también se considera la actividad de Evaluación.
En la sección 3.1 se presenta un estado del arte sobre evaluación de ontologías, el objetivo es verificar
si es novedoso evaluar las relaciones semánticas de sinonimia y antonimia, las relaciones semánticas
son discutidas en la sección 2.3.1.
2.2.3 Evaluación de ontologías
En el trabajo de Gómez Pérez se define como “Un juicio técnico del contenido de la ontología con
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 12
respecto a un marco de referencia durante cada fase y entre fases de su ciclo de vida” [6], donde marco
de referencia se refiere a: especificación de requerimientos, preguntas de competencia, el mundo real,
etc.
Otros la definen simplemente como “la tarea de medir la calidad de una ontología” [16].
Desde otro punto de vista se dice que son herramientas y métodos para comparar, validar y clasificar
(ranking) ontologías similares [17], se utiliza generalmente para verificar la calidad durante el proceso
de ingeniería de la ontología, verificar si la ontología cumple con los requerimientos y seleccionar una
la ontología más adecuada para aplicaciones específicas.
Verificación y validación son dos vertientes de la evaluación [4] y [16].
Verificación.- Se refiere a construir la ontología correctamente, es decir, asegurar que sus definiciones
(escritos en un lenguaje formal o informal) implementan correctamente los requerimientos de la
ontología y preguntas de competencia, o funciona correctamente en el mundo real.
Validación.- Se refiere a si las definiciones de la ontología realmente modelan el mundo real para la
cual la ontología fue creada. La meta es probar que el mundo modelo (si existe y se conoce) es
compatible con el mundo modelado formalmente.
En la presente investigación se llevará a cabo la validación de RSA y además se calculará el grado de
relación semántica entre un par de ULS, con esto se pretende ofrecer una evaluación de RSA que servirá
de base para una evaluación de ontologías robusta en trabajos futuros.
2.3 Lingüística computacional
La lingüística computacional es la disciplina cuyo objetivo persigue la simulación de la competencia
comunicativa del hombre a nivel escrito y/o a nivel oral o, al menos, la simulación de alguna
subcompetencia de esta [18]. Existen diferentes acepciones sobre lingüística computacional pero en
general es una disciplina intersectiva de la Informática y modelos lingüísticos.
Figura 2-4 Lingüística Computacional
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 13
La figura anterior muestra como la lingüística computacional se apoya en la informática y en los
modelos lingüísticos.
En este trabajo de investigación se trabajará con las relaciones semánticas de sinonimia y antonimia
procesando información para validar tales relaciones, haciendo uso de las bondades de la lingüística
computacional.
2.3.1 Relaciones semánticas
Hay algunos lingüistas que consideran que el signo lingüístico es un triángulo semiótico que consta
de significante, significado y referente [19], [20]. Por ejemplo, la palabra car tiene como significante la
sucesión de los sonidos o letras (c-a-r) y su significado es la idea que tenemos nosotros de un car -carro
en español- (un artefacto con cuatro llantas y motor que lo mueve, para lo cual se necesita un conductor
y adicionalmente en el mismo artefacto pueden ir otras personas, todas ellas junto con el conductor son
transportadas de un punto a otro gracias al movimiento del artefacto que le da el motor y que lo dirige
el conductor). El referente de car ya no hace referencia al concepto sino a la realidad misma (the car, el
carro).
Figura 2-5 Significante, significado y referente
Las relaciones semánticas relacionan las palabras de acuerdo a su significado. Así por ejemplo,
entre carro y auto (car and auto), Figura 2-5 b y c, se puede establecer una relación dado su significado,
en este caso la sinonimia, ya que esta es la que se da entre significados semejantes.
En el marco de la lingüística computacional, se han creado métodos computacionales para identificar
diversas relaciones semánticas. Las más comunes para cuya extracción automática se han propuesto
una gran variedad de métodos se presentan en las siguientes subsecciones, poniendo mayor interés en
la sinonimia y antonimia por tener mayor relevancia en la presente investigación.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 14
2.3.1.1 Sinonimia
Sinonimia es la relación semántica que existe entre dos (o más) palabras que tienen el mismo (o casi
el mismo) significado y pertenecen a la misma parte del discurso, pero se escriben de manera diferente.
En otras palabras, podemos decir que la sinonimia es la equivalencia semántica entre elementos
léxicos. Los pares de palabras que tienen este tipo de relación semántica se llaman sinónimos, o se dice
que son sinónimos. Por ejemplo:
Tabla 2-1 Ejemplo de pares sinónimos
Unidad léxica 1 Unidad léxica 2
big large
hide conceal
small little
couch sofa
to begin to start
kind Courteous
beginning start
to cease to stop
fast Quickly, rapidly
Los pares de palabras que son sinónimos se cree que comparten todos (o casi todos) sus rasgos
semánticos o propiedades. Sin embargo, algunos lingüistas afirman que no existen sinónimos absolutos,
es decir, pares de palabras que tienen el mismo significado (o comparten exactamente los mismos
rasgos semánticos) en todos los contextos situacionales y sintácticos en el que pueden aparecer [21].
Figura 2-6 Entidades sinónimas
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 15
La imagen anterior refleja como dos entidades que son sinónimas se traslapan casi en su totalidad
por el hecho de compartir la mayoría de sus rasgos semánticos.
2.3.1.2 Antonimia
Antonimia es la relación semántica que existe entre dos (o más) palabras que tienen significados
opuestos. Pares de palabras antónimas por lo general pertenecen a la misma categoría gramatical (es
decir, ambos elementos son sustantivos, o ambos son adjetivos, o ambos son verbos, y así
sucesivamente). Comparten casi todos sus rasgos semánticos, excepto uno. El rasgo semántico que no
comparten es el presente en uno de los miembros de la pareja y ausente en el otro [21].
Figura 2-7 Interpretación de la antonimia
La figura anterior refleja la interpretación de la antonimia, de cómo comparten características
semánticas y no comparten por lo menos una característica, es decir contienen características
particulares que no comparten.
En la siguiente tabla se observa las características en común y la característica que no comparten
entre los conceptos man y woman por lo que se puede llegar a considerárseles como antónimos.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 16
Tabla 2-2 Man y woman como antónimos
man woman hombre mujer animate animate tiene vida tiene vida
human human humano humano
--- female --- femenino
male --- masculino ---
adult adult adulto adulto
Un ejemplo gráfico para las entidades hombre y mujer se presenta en la siguiente figura.
Figura 2-8 Ejemplo de antónimos
Hay tres tipos principales de antónimos:
a) Antónimos complementarios o contradictorios. Son pares de palabras en las que un
miembro tiene una cierta propiedad semántica que el otro miembro no tiene [22]. Por lo
tanto, en el contexto en que un miembro es cierto, el otro miembro no puede ser verdad.
Ejemplo, male/female, married/unmarried, complete/incomplete, alive/dead,
present/absent/ awake/asleep. Se dice que estos pares de antónimos exhiben contraste
en el que no hay término medio.
b) Antónimos relacionales. Son pares de palabras en las que la presencia de una cierta
propiedad semántica en un miembro implica la presencia de otra propiedad semántica en
el otro miembro. En otras palabras, la existencia de uno de los términos implica la
existencia del otro término. Ejemplo, over/under, buy/sell, doctor/patient, teacher/pupil,
stop/go, employer/employee, taller/shorter, cheaper/more expensive.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 17
c) Antónimos graduales o escalares. Son pares de palabras que contrastan con respecto a su
grado de posesión de una propiedad semántica determinada. Cada término representa o
significa un punto final (o extremos) en una escala (por ejemplo, temperatura, tamaño,
altura, belleza, etc); entre esos puntos finales hay otros puntos intermedios [21]. Ejemplo,
hot/cold, big/small, tall/short, good/bad, strong/weak, beautiful/ugly, happy/sad,
fast/slow.
Los antónimos pueden estar (a) morfológicamente no relacionados (es decir, uno de los elementos
del par no se deriva del otro), por ejemplo, bueno/malo, alto/bajo, o (b) morfológicamente relacionada
(es decir, uno de los miembros de un par de antónimos se deriva del otro miembro de la adición de una
palabra negativa o un afijo), por ejemplo: good/not good, friendly/unfriendly, likely/unlikely [21].
Los antónimos relacionados morfológicamente se pueden formar de las siguientes maneras:
b.1. Mediante el uso de la palabra not; e.g., alive/not alive, happy/not happy, beautiful/not
beautiful.
b.2. Mediante la adición de prefijos negativos, tales como un-, im-, in- il-, ir-, non-, mis-, dis-, a-.
e.g., happy/unhappy, do/undo, lock/unlock, entity/nonentity, conformist /nonconformist,
tolerant/intolerant, decent/indecent, please/displease, like/dislike, behave/mishave,
hear/mishear, moral/amoral, political/apolitical, legal/illegal, logical/illogical,
probable/improbable, relevant/irrelevant.
b.3. Mediante la adición de sufijos negativos, tales como -less. e.g., careful/careless, joyful/
joyless.
2.3.1.3 Meronimia
Se trata de la relación que se da entre las partes y los todos, como en “rueda” y “coche”. Esta relación
generalmente sigue el siguiente patrón: “X es una parte de Y”.
Figura 2-9 Entidades merónimos
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 18
2.3.1.4 Hiponimia e hiperonimia
Se llama hiponimia a la relación de inclusión semántica de un término en otro. Por ejemplo, roble es
un hipónimo de árbol. Así mismo, entre las palabras “gato” y “felino” se presenta una relación de
hiponimia. Consecuentemente, la hiperonimia es la relación inversa a la hiponimia. Entonces, la
hiperonimia es la relación de un término que abarca a otros semánticamente [23]. Las siguientes
figuras muestran una interpretación grafica de estas dos relaciones.
Figura 2-10 Entidades hiperónimos
Figura 2-11 Entidades hipónimos
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 19
2.3.2 Recursos lingüísticos
Los recursos lingüísticos han ganado importancia en el campo de la investigación de lingüística
computacional y tratamiento automático de textos, pues estos recursos han enriquecido tareas
relacionadas con esas disciplinas.
El término recursos lingüísticos se refiere a conjuntos de datos del lenguaje en formato legible por
una computadora. Estos recursos son usados en la construcción, mejoramiento o evaluación de
sistemas del lenguaje natural.
Los recursos lingüísticos pueden ser clasificados en tres categorías: corpus, herramientas y recursos
léxicos [24]. Corpus y recursos léxicos, serán descritos brevemente a continuación, por tener mayor
relevancia en la presente investigación.
2.3.2.1 Corpus
Un corpus es una colección de textos en lenguaje natural, elegida para caracterizar un estado o
variedad de un lenguaje [25]. En la actualidad existen diversos tipos de corpus, entre los que destacan:
corpus del lenguaje escrito y corpus del lenguaje hablado. En cualquier caso, un corpus actúa como
repositorio de información la cual puede ser manipulada para extraer conocimiento.
2.3.2.2 Recursos léxicos
Estos recursos contienen un conjunto de palabras válidas en un lenguaje. Así mismo, pueden
contener propiedades lingüísticas, el significado de las palabras y/o relaciones entre las palabras o
grupos de palabras. A la fecha se pueden encontrar diversos recursos léxicos, por ejemplo listas de
palabras, tesauros, ontologías, banco de términos, glosarios, patrones léxicos para el reconocimiento de
relaciones, etc. Entre los recursos más relevantes actualmente se encuentra WordNet.
En concreto en esta investigación hacemos uso de la web considerándola como un corpus, WordNet,
WordReference y Synonym.net; además de patrones léxico-sintácticos para la identificación de ciertas
relaciones entre pares de palabras.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 20
2.3.2.2.1 WordNet
WordNet es una enorme base de datos léxica del idioma inglés. Agrupa las palabras en conjuntos de
sinónimos llamados synsets, proporcionando definiciones cortas y generales, y almacenando las
relaciones semánticas entre estos conjuntos de sinónimos [26]. El propósito del proyecto es doble: por
un lado producir una combinación de diccionario y tesauro cuyo uso es más intuitivo, y ayudar al
análisis automático de textos y a las aplicaciones de inteligencia artificial. La base de datos y las
herramientas se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente.
Además la base de datos puede consultarse online.
WordNet fue creado y es mantenido por el Cognitive Science Laboratory de la Universidad de
Princeton bajo la dirección del profesor de psicología George A. Miller. El desarrollo comenzó en 1985.
Durante los años el proyecto ha recibido alrededor de 3 millones de dólares, principalmente a través de
agencias gubernamentales interesadas en traducción automática.
El resumen de su contenido, en su versión 3.0, se presenta en la Tabla 2-3.
Tabla 2-3 Contenido de WordNet
Categoría gramatical
Únicos Synsets Sentidos de la palabra
Sustantivo 117798 82115 146312
Verbo 11529 13767 25047
Adjetivo 21479 18156 30002
Adverbio 4481 3621 5580
Total 155287 117659 206941
Datos recuperados de del sitio oficial de WordNet [27].
WordNet se explota por ciertas métricas que después son interpretadas como indicadores en la
validación de sinonimia y antonimia.
2.4 Recuperación de información
Es la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental
digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan
documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet,
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 21
y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características, de
manera pertinente y relevante. En esta investigación se utiliza una API de Google para hacer peticiones
a la web a través del motor de búsqueda de Google, por otro lado se solicitan documentos semánticos,
específicamente, ontologías a un motor de búsqueda que indexa documentos semánticos, para ello se
hace uso de Watson (sección 2.4.2).
2.4.1 Custom Search API
Custom Search API permite desarrollar programas para recuperar los resultados de búsqueda de
Google Custom Serach. Con esta API, es posible realizar peticiones REST para realizar una búsqueda
web cuyo resultado se embebe en una estructura bajo el formato JSON, el cual contiene todos los datos
que se presentan en una búsqueda a través de la interfaz web tradicional que Google ofrece para hacer
uso de su motor de búsqueda. Sin embargo, el uso de la API ofrece solo 100 consultas gratuitas por día y
si se desean más consultas es necesario cubrir una cuota que en la actualidad es de cinco dólares por
cada 1000 consultas extras, y solo permite realizar 10000 consultas por día [28].
2.4.2 Watson
Una herramienta y una infraestructura que automáticamente recopila, analiza e indexa ontologías y
documentos semánticos disponibles en línea, a fin de proporcionar un acceso eficaz a esta enorme
cantidad de contenido de conocimiento para los usuarios de la Web Semántica y aplicaciones.
El papel de un Gateway a la Web Semántica es proporcionar un punto de acceso eficiente a las
ontologías en línea y a los datos semánticos. Por lo tanto, como una puerta de enlace desempeña tres
funciones principales: 1- que recoge el contenido semántico disponible en la Web, 2-analiza para
extraer metadatos útiles e índices, y 3- implementa técnicas eficientes de consulta para acceder a los
datos1. Si bien estas tres tareas son generalmente la base de cualquier motor de búsqueda Web clásica,
su implementación es muy diferente cuando se trata de contenido semántico en lugar de las páginas
Web.
En esta investigación se considera a Watson como un recurso que nos permite acceder a ontologías.
1 Watson es clasificado por la W3C como un motor de búsqueda de la web semántica, otros motores se encuentran en:
http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/SemanticWebSearchEngines.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 22
Figura 2-1 Visión general funcional de los principales componentes de la arquitectura Watson
En la figura anterior se observa la arquitectura de Watson.
Rastreo y descubrimiento de ontologías: Recoge el contenido semántico disponible en línea, en
particular mediante la exploración de vínculos basados en ontologías.
Validación y análisis: Es el núcleo de la arquitectura y asegura que los datos sean almacenados e
indexados de una manera correcta.
La capa de consulta y navegación: Permite el acceso a los datos indexados a través de una variedad de
mecanismos que permitan la exploración de sus diferentes rasgos semánticos.
2.5 Minería de textos
La minería de textos es un área multidisciplinaria basada en la recuperación de información, minería
de datos, aprendizaje automático, estadísticas y la lingüística computacional [29]. Como la mayor parte
de la información (más de un 80%) se encuentra actualmente almacenado como texto, se cree que la
minería de textos tiene un gran valor comercial. El objetivo es lograr descubrimiento de información
mediante la consulta automática de diferentes fuentes [30]. Uno de los elementos clave es la
vinculación de la información extraída para formar nuevos hechos o nuevas hipótesis, por lo tanto la
minería de textos no es como una búsqueda en la Web, sino el descubrimiento de información
desconocida y relevante.
La minería de texto es una variación de la minería de datos. La minería de texto maneja patrones
dentro del lenguaje natural en tanto que la minería de datos hace uso de bases de datos estructuradas
de los hechos [30]. En esta investigación se recurre a una parte de minería de textos, por el hecho de
utilizar medidas de distancia y similitud semántica entre unidades léxicas, en el intento de responder a
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 23
preguntas como: ¿Es la relación de sinonimia la que comparten este par de ULS?, ¿Es la relación de
antonimia la que comparten este par de ULS? y ¿En qué grado se da la relación entre el par de ULS?
(dicha información no está explicita).
2.5.1 Medidas de distancia y similitud semántica entre términos
La necesidad de determinar la relación semántica entre dos conceptos léxicos es un problema que
prevalece en muchas de las tareas de procesamiento del lenguaje. Se han usado medidas de similitud en
aplicaciones tales como la desambiguación del sentido de las palabras (Word Sense Disambiguation
[31]), la determinación de la estructura de los textos, resúmenes y anotación, extracción y recuperación
de información, corrección automática de errores, entre otras [32].
Existen diferentes medidas de similitud que tratan de cuantificar el grado en que dos palabras están
relacionadas semánticamente. Muchas de estas medidas se basan en redes semánticas.
Existen en la literatura diversas medidas de similitud entre conceptos de una red de asociación,
concretamente en WordNet [33]. Entre las medidas más populares se encuentran las denominadas
Hirst-St-Onge [34], Leacock-Chodorow [35], Resnik [36], Jiang-Conrath [37] y Lin [38]. Todas ellas
están basadas en el tamaño del camino mínimo que conecta en la red a los dos conceptos comparados.
Además, todas hacen uso de la estructura jerárquica y de las relaciones específicas de la
representación WordNet, aunque cada una de ellas introduce algún aspecto diferenciado. Por ejemplo,
la medida Hirst-St-Onge utiliza el concepto de dirección. Así, dos conceptos están más asociados cuanto
más corto sea el camino que los une y menos cambie de dirección (las relaciones en WordNet tienen
dirección). La medida Leacock-Chodorow utiliza la noción de profundidad de una red como distancia
media entre dos nodos cualesquiera de la red, normalizando el tamaño del camino mínimo con
respecto a la misma. La medida de Resnik se basa en la idea de que dos conceptos similares comparten
información similar. Así, mide la distancia al primer nodo más general común a ambos (recorriendo en
orden inverso las relaciones ES-UN). En el caso de Jiang-Conrath se emplea la misma noción que en la
medida anterior de Resnik ponderada por las probabilidades de encontrar nodos más generales
comunes en la red.
Otros métodos utilizan grados de subsunción y coocurrencia como indicadores de similitud entre
conceptos, basándose en la hipótesis de distribución [39]. A continuación se presenta a NGD y
coocurrencia que se utilizan en métricas que más tarde son interpretados como indicadores que se
utilizarán en la presente investigación.
Capítulo 2.- Marco teórico
Adrián Cruz Hernández P á g i n a | 24
2.5.1.1 NGD
Normalized Google Distance (NGD) o Distancia Normalizada de Google. Esta métrica tiene por
finalidad medir cuan cerca están dos términos en el espacio de documentos que indexa Google, el cual
es una muestra robusta que puede ser tomada como corpus representativo de la lengua actual [40].
El algoritmo de cálculo indica que si se desea medir el NGD de dos términos, ejemplo profesor y
alumno, se deberá consultar a Google sobre la cantidad de documentos que contienen el primer
término, el segundo y ambos. Luego, utilizando una fórmula se calcula la distancia entre los términos a
evaluar.
, min ,
max ,
max , ,
min ,
Ecuación 2-1 NGD
Donde f(x) es el número de páginas que contienen el término x, f(y) el número de páginas que
contienen el término y, f(x,y) número de páginas que contienen ambos términos y N una constante de
normalización. Teóricamente la fórmula nos deberá entregar valores en el rango del cero a infinito, en
dónde los números cercanos a cero son indicadores de una distancia menor.
2.5.1.2 Coocurrencia
Coocurrencia indica en la lingüística general la utilización conjunta de dos unidades léxicas (por
ejemplo palabras) en una unidad superior, como una palabra o documento.
Sean P y Q dos términos distintos, que pueden ser tanto palabras o frases (n-gramas). La cantidad de
resultados que arroja la búsqueda P^Q se puede considerar como una aproximación a la coocurrencia
de estos términos en la web [36]. Sin embargo, la búsqueda de P^Q por sí sola no expresa con precisión
la semejanza semántica [41]. No solo hay que considerar los resultados de buscar P^Q, sino que
también se deben considerar los resultados de las búsquedas para los términos individuales P y Q.
Desde un punto de vista lingüístico la coocurrencia puede ser interpretada como un indicador de
proximidad semántica [42]. En esta investigación será considerada como un indicador en la tarea de
validar sinónimos y antónimos y será un factor en el cálculo de GRS.
Adrián Cruz Hernández P á g i n a | 25
Capítulo 3. Estado del arte
El estado del arte presentado en este trabajo se divide en dos categorías. La primera está identificada
por los trabajos relacionados con la evaluación de ontologías. El segundo grupo está integrado por el
estudio de la sinonimia y antonimia.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 26
3.1 Evaluación de ontologías
A continuación se presenta un resumen del estado del arte de los métodos de evaluación de
ontologías y posteriormente se mencionan con más detalle en las secciones 3.1.1 a la 3.1.5, para
finalmente presentar la Tabla 3-3 que resume las características de los diferentes métodos de
evaluación de ontologías.
En la literatura, se encuentran por lo menos cuatro enfoques principales de evaluación de ontologías
[43]:
1) Método basado en la comparación (Gold Standard Evaluation), que consiste en comparar una
ontología con otra denominada “Punto de referencia”. No se utiliza para evaluar una
ontología, se utilizada por lo general para evaluar un procedimiento de generación de
ontologías: algoritmos de aprendizaje, deducción, inferencia, abstracción automática o
semiautomática por procesamiento de textos, entre otros [44].
2) Método basado en el uso de la ontología (Task-based approach), consiste en utilizar la
ontología en una aplicación para completar tareas y evaluar el resultado [45].
3) Método que involucra una comparación con una fuente de datos sobre el dominio que está
cubierto por la ontología [46].
4) Método basado en el criterio, consiste en tomar una ontología y tratar de evaluar su eficacia
recorriendo un conjunto de criterios predefinidos (consistencia, concisión, expansibilidad),
estándares, requerimientos. Estos enfoques dependen ampliamente de análisis semánticos
que en la actualidad solo los expertos pueden hacer [47].
Además de las mencionadas categorías de evaluación, también se pueden clasificar en diferentes
niveles [48] y [49] tales como:
Léxico, vocabulario.
Jerarquía, taxonomía.
Otras relaciones semánticas.
Nivel de contexto.
Nivel sintáctico.
Diseño, arquitectura, estructura.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 27
Léxico, vocabulario
Trata sobre los conceptos e instancias que se han incluido en la ontología y el vocabulario utilizado
para identificar estos conceptos. La evaluación sobre este nivel tiende a implicar la comparación con
otras fuentes de datos relativos al problema, además de otras técnicas como medida de similitud de
cadenas.
Jerarquía, Taxonomía
Aquí tenemos un ejemplo que engloba de forma clara y precisa este concepto.
Relación de jerarquía: es una relación hiperónimo- hipónimo.
Azul (hipónimo)
Color (hiperónimo)
Típicamente una ontología incluye una relación (Is-a), aunque otras relaciones entre conceptos
deben ser definidas.
Otras relaciones semánticas
La ontología puede contener otro tipo de relaciones además de Is-a, y estas relaciones pueden ser
evaluadas de forma separada. Esto incluye medidas como las relaciones de precisión y recuerdo.
Nivel de contexto
Existen dos formas de contexto. La primera se refiere cuando una ontología es parte de una larga
colección de ontologías y puede referenciar y ser referenciada por varias definiciones en otras
ontologías [48]. Otra forma de contexto es la ontología usada dentro de una aplicación, en lugar de
evaluarse de forma aislada, es mucho más práctico evaluarla dentro de una aplicación y ver como el
resultado de la aplicación queda afectado por el uso de la ontología [50]. Y por último en lugar de
centrarse en una aplicación individual puede centrarse en la evaluación desde el punto de vista de los
usuarios o la organización (empresa) que utiliza la ontología.
Nivel sintáctico
La evaluación sobre este nivel, es de interés particular para las ontologías construidas manualmente.
La ontología generalmente está descrita en lenguaje formal, y tiene que coincidir con los
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 28
requerimientos sintácticos del lenguaje (uso correcto de las palabras clave). Hay que tener en cuenta
otras consideraciones sintácticas, como la presencia de documentación del Lenguaje Natural, y evitar la
circularidad entre definiciones, hay que destacar que de todos los métodos de evaluación de ontologías
éste es el más fácil de implementar automáticamente.
Estructura, arquitectura, diseño
A diferencia de los niveles que se han citado anteriormente, que se basan en el conjunto actual de
instancias, relaciones, y clases, el presente se enfoca en el diseño de nivel superior que se utiliza en el
desarrollo de la ontología. Esto tiene especial interés en las ontologías construidas manualmente,
suponiendo que algunos principios de diseño o criterios se habían definido anteriormente a la
construcción de ontologías, la evaluación en este nivel debe coincidir con estos criterios [49]. Para
algunas aplicaciones, es importante que la definición formal y el enunciado de la ontología estén
acompañados con una documentación apropiada para el Lenguaje Natural, que debería ser significativa,
coherente, actualizada, y consistente con la definición formal. Las cualidades de este nivel normalmente
deberían ser evaluadas manualmente en gran parte o en su totalidad por expertos de dominio o
ingenieros de ontologías.
Hasta el momento se ha mostrado un panorama de los niveles abordados para la evaluación de
ontologías. A continuación se presentan los trabajos que de alguna manera han estudiado la evaluación
de ontologías. Los trabajos relacionados se clasifican según el enfoque de evaluación, estos son:
Evaluación hecha por expertos siguiendo criterios, basadas en tareas(utilizado por una aplicación),
basadas en Gold Standard, basada en un corpus de cobertura (fuente de datos) y otros enfoques de
evaluación.
Tabla 3-1 Panorama de los enfoques de evaluación
En la tabla anterior se muestra la relación de los niveles con los enfoques de evaluación, que son los
que se detallarán a continuación.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 29
3.1.1 Hecha por expertos siguiendo criterios
Este enfoque se basa en definir distintos criterios de decisión o atributos; para cada criterio, la
ontología es evaluada y se le asigna una puntuación numérica.
Adicionalmente un peso es asignado a cada criterio, la puntuación global de la ontología se calcula
como la suma ponderada de sus resultados por criterio. Sin embargo, este tipo de enfoque tiene algunas
dificultades como la alta dependencia manual de expertos.
Una propuesta de este enfoque, es la consideración de diez criterios [51]:
1) Legalidad: Frecuencia de errores sintácticos.
2) Riqueza: Cuantas características sintácticas están disponibles en un lenguaje formal
actualmente usado por la ontología.
3) Interoperabilidad: Cuantos conceptos de la ontología aparecen en WordNet.
4) Consistencia: Cuantos conceptos son inconsistentes.
5) Claridad de vocabulario: Si los términos usados en la ontología tienen sentido en WordNet.
6) Exhaustividad: Número de conceptos de la ontología en relación con la media de toda la
biblioteca de ontologías.
7) Precisión: Porcentaje de los enunciados falsos en una ontología.
8) Conexión: Número de enunciados marcados como aceptables para el usuario o el agente.
9) Autoridad: Cuantas ontologías utilizan los conceptos de la ontología evaluada.
10) Historia: Cuantos accesos para esta ontología se han hecho, relacionados con otras ontologías
ubicadas en el mismo repositorio.
Por otro lado, en el trabajo de Gómez Pérez [4] se plantean los siguientes criterios:
Completitud. Una ontología es completa si y sólo si:
1) Todo lo que es supuesto que está en la ontología es explícitamente probado en ella, o puede
ser inferido.
2) Cada definición es completa. Eso está determinado al averiguar: (a) que conocimiento se
define; y (b) todo el conocimiento que es requerido, pero no explícito, debe ser posible
inferirlo desde otras definiciones y axiomas; si es así, la definición es completa. De otra forma
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 30
es incompleta.
Concisión. Una ontología es concisa: (a) si no almacena innecesarias o inútiles definiciones, (b) si no
existen redundancias explicitas entre las definiciones de los términos, y (c) si las redundancias no son
inferidas desde otras definiciones y axiomas.
Expansibilidad. Considerando que una ontología contiene definiciones e información que
complementa a las definiciones, expansibilidad es inversamente proporcional al esfuerzo requerido
para añadir nuevas definiciones a una ontología y más conocimiento a sus definiciones sin alterar el
conjunto de propiedades bien definidas que se encuentran en la ontología, antes de expandirla con
nuevas definiciones.
Sensibilidad. Se refiere a como los pequeños cambios en una definición alteran el conjunto de
propiedades bien definidas ya garantizadas.
Una propuesta más en sobre este enfoque, es la de valorar un conjunto preliminar de criterios de
diseño de ontologías, cuya finalidad es el intercambio de conocimiento y la interoperabilidad entre los
programas sobre la base de una conceptualización compartida [8], los criterios son los siguientes:
1) Claridad: La ontología debe comunicar el significado del término definido. Las definiciones
deben ser objetivas e independientes del contexto social o de cómputo. La formalización es
un medio para este fin. Cuando una definición se puede expresar en axiomas lógicos, eso
debería ser. Una definición completa (un predicado) es preferible a una definición parcial.
Las definiciones se deben documentar en lenguaje natural.
2) Coherencia: Las declaraciones inferidas deberían ser correctas. Por lo menos, los axiomas
definidos deberían ser lógicamente consistentes. También, la documentación en lenguaje
natural debería ser coherente con las declaraciones formales.
3) Extensibilidad: Una ontología debe ofrecer una base conceptual para una serie de tareas
previstas, y la representación debe ser diseñada de manera que se puede ampliar y
especializar la ontología, de tal manera que los nuevos términos se pueden introducir sin la
necesidad de revisar los axiomas existentes.
4) Sesgo mínimo de codificación: La conceptualización se debe especificar en el nivel de
conocimiento sin depender de un particular nivel de codificación. Un sesgo de codificación
resulta cuando una representación elegida es puramente para la conveniencia de la notación
o implementación. Los sesgos de codificación deben minimizarse, porque los agentes que
comparten conocimiento pueden ser implementados en diferentes sistemas de
representación y estilos de representación.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 31
5) Mínimo compromiso ontológico: La ontología debe especificar lo más débil de la teoría (es
decir, permitiendo la mayoría de los modelos) y definir sólo esos términos que son
esenciales para la comunicación del conocimiento consistente con esa teoría.
CORE, una herramienta para la evaluación de ontologías y reúso [52], también puede clasificarse
sobre este enfoque. Las principales características novedosas de CORE son: un nuevo modelo Gold
Standar, nuevos criterios de evaluación léxica, la aplicación de técnicas de fusión de rango para
combinar diferentes medidas de evaluación de ontologías de contenido, y el uso de una novedosa
estrategia de filtrado colaborativo que toma ventajas de las opiniones de los usuarios para
automáticamente evaluar características que únicamente pueden ser valoradas por expertos.
Los criterios que consideran son:
1) Corrección: específica si la información almacenada en la ontología es cierta,
independientemente del dominio de interés.
2) Legibilidad: indica la interpretación no ambigua del significado de los nombres de los
conceptos.
3) Flexibilidad: señala la adaptabilidad o capacidad de la ontología para cambiar.
4) Nivel de formalidad: altamente informal, semi-informal, formal, rigurosamente formal.
5) Tipo de modelo: nivel superior (para describir en general ontologías, conceptos
independientes del dominio), ontologías núcleo (ontologías describiendo los conceptos más
importantes en un dominio específico), ontologías de dominio (ontologías describiendo
algún dominio del mundo), ontologías de tareas (para ontologías describiendo tipos
genéricos de tareas o actividades), y aplicación de ontologías (para ontologías describiendo
algún dominio en una aplicación de manera dependiente).
Los criterios se dividen en dos grupos independientes:
1) Los criterios numéricos (corrección, legibilidad y flexibilidad) que son representados por
valores enteros discretos del cero al cinco, donde cero, indica que la ontología no cumple con
el criterio; y cinco, indica que la ontología satisface completamente el criterio.
2) El criterio booleano (nivel de formalidad y tipo de modelo) que son representados por un
valor específico, que indica si se satisface o no el criterio.
Además de medidas de similitud aplicadas a cada criterio. El ranking de una ontología específica se
mide como el promedio de sus M evaluaciones de similitud. Donde la similitud es el promedio de los N
criterios de similitud. Los intereses del usuario se definen como un subconjunto de los criterios, y sus
respectivos valores representando el conjunto de umbrales que deben ser alcanzados por las
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 32
ontologías. Dado ese conjunto de intereses, el sistema evaluará todas las evaluaciones almacenadas, y
calculará sus medidas de similitud. El ranking de una ontología específica se mide como el promedio de
sus M evaluaciones de similitud. El Módulo colaborativo recomienda las ontologías que mejor
corresponden a un cierto dominio de problema.
En Sabou [53] consideran que la evaluación de ontologías es lo esencial para la selección de las
mismas y que, como esto se desempeña en un ambiente Web abierto, eso trae nuevos cambios para la
evaluación de ontología. El incremento en el número de ontologías ha llevado al desarrollo de
repositorios de gran escala y motiva la necesidad de mecanismos que permitan seleccionar la ontología
correcta para una tarea dada y contexto. La selección de ontologías se define como el proceso que
permite identificar una o más ontologías o módulos de la ontología que satisfacen cierto criterio. A esto
se le considera una tarea de evaluación. Su investigación se enfoca en extender Magpie, un navegador
web semántico que permite elegir la apropiada ontología, para que sea capaz de traer al usuario la
apropiada información semántica relevante para sus necesidades de información desde cualquier
ontología de la Web. Para el problema de selección, ellos identifican tres criterios:
1) Popularidad. Esta categoría selecciona la ontología “más popular” de una colección.
2) Riqueza de conocimiento. Otra forma para clasificar ontologías es estimar la riqueza de
conocimiento que ellas expresan.
3) Tópico de cobertura. Las ontologías son clasificadas de acuerdo al nivel al cual cubren un cierto
tópico.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 33
3.1.2 Basada en tareas
Normalmente la ontología se utilizará en algún tipo de aplicación o tarea. Las salidas de la aplicación,
o la ejecución de la tarea propuesta, podrían ser mejor o peor dependiendo en parte de la ontología
usada en ella. Por lo tanto una buena ontología, es la que ayuda a la aplicación a conseguir la tarea
solicitada con buenos resultados. Por lo anterior, las ontologías pueden ser evaluadas fácilmente al
conectarlas con la aplicación y evaluando el resultado obtenido.
De acuerdo a pozel y Malaka [45] este método resulta elegante en el sentido de que la salida de la
aplicación podría ser evaluada de forma relativamente sencilla, sin embargo, este método tiene varias
desventajas:
Solo permite sostener que la ontología está bien o mal cuando se utiliza en una tarea particular
y no es posible generalizar. Es decir, si la ontología se utiliza para una tarea diferente, o de
forma diferente para la misma tarea el escenario cambia y puede que el resultado también.
La evaluación puede ser sensible en el sentido de que la ontología podría ser solo una pequeña
componente de la aplicación y su efecto en el resultado puede ser relativamente pequeño (o
depende considerablemente del comportamiento de los otros componentes).
La evaluación de un gran número de ontologías, deben de ser lo suficientemente compatibles
para que la aplicación pueda utilizarlas todas, además la aplicación debería de ser lo
suficientemente flexible para permitir esto. Si es necesario adaptar la aplicación para cada
ontología que se quiere evaluar, este método de evaluación puede resultar muy costoso.
Con respecto a la evaluación de múltiples ontologías, de acuerdo a Malaka [45], se proponen un
esquema de evaluación para éstas y medir su desempeño en tareas específicas. Presentan el enfoque
basado en tareas como resultado de la evaluación cuantitativa de ontologías, que también permite
activar el enfoque de poblado de ontologías. La meta de la propuesta es evaluar ontologías con respecto
a tres niveles básicos: vocabulario, taxonomía y relaciones semánticas no taxonómicas. Estos niveles
también están sujetos a diferentes enfoques de aprendizaje, ellos proponen que la noción común de los
índices de error, tales como errores encontrados en la palabra o en conceptos, son suficientes para cada
nivel de evaluación. En una evaluación basada en tareas los resultados deben mostrar los siguientes
defectos:
Errores de inserción. Indicando conceptos sobrantes, y relaciones semánticas is-a.
Errores de borrado. Indicando conceptos perdidos, y relaciones semánticas is-a.
Errores de sustitución. Indicando conceptos ambiguos, y relaciones semánticas is-a.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 34
Teniendo en cuenta tareas apropiadas y algoritmos independientes operando sobre la ontología en la
solución de estas tareas y teniendo en cuenta la tarea de evaluación, por Gold Standar se calcula el
índice de error correspondiente a determinadas deficiencias ontológicas, como se muestra en el
resumen de la traducción del índice de error para los tres niveles ontológicos básicos que se presentan
en la Tabla 3-2.
Tabla 3-2 Errores en 3 respectivos niveles
Nivel Inserción Borrado Sustitución
1 Conceptos irrelevantes Conceptos omitidos Conceptos ambiguos 2 Isa demasiado gruesa Isa demasiado fina Isa demasiado polígamo 3 Relaciones irrelevantes Relaciones perdidas Relaciones indirectas
Con lo que ellos proporcionan medidas de rendimiento que pueden: evaluar una o más ontologías en
términos de su eficiencia en una tarea dada, cuantificar las ganancias y las pérdidas respectivas de los
errores de la inserción, eliminación y sustitución. Mejorar el poblado de la ontología derivada del error
de algún resultado específico, y reevaluar el rendimiento incrementa el resultado de las mejoras.
Dado uno o más dominios específicos y un correspondiente Gold Standar (corpus de respuestas)
desempeñan una evaluación basada en tareas que da resultados cuantificables acerca de la calidad
respectiva de cada uno de los niveles individuales (inserción, sustitución, borrado) de la ontología
modelo.
Otra propuesta de evaluación que se puede clasificar como basada en tareas es la de Gangemi Aldo
que presentan una metaontología (llamada ) que caracteriza ontologías como objetos semióticos,
esto significa probar fundamentos de una meta ontología teórica para evaluación y anotación [54].
Modelan la evaluación de ontologías como una tarea de diagnóstico que incluye descripciones de la
ontología, también incluyen los roles y funciones de los elementos de una ontología, los parámetros
asumidos en las descripciones que denotan la “calidad” de una ontología, y algunas funciones que
componen los parámetros de acuerdo a un orden preferencial. Además, identifican y discuten tres
distinciones sobre los tipos de medidas para la evaluación de la ontología que están basados en la
metaontología que propone Gangemi [54], es decir, medidas estructurales, funcionales y
relacionadas con el uso, y proporcionan algunos ejemplos del orden de preferencia frente a las
medidas. Proporcionan una formalización pequeña de lógica de primer orden como un objeto
semiótico. Dada una ontología, una semántica formal, un contexto de la producción de la ontología, y un
contexto de la ontología en uso, proponen axiomas para la evaluación de la ontología y anotación.
Basados en la identifican tres distinciones sobre los tipos de medidas para la evaluación de
ontologías, es decir: medidas estructurales, medidas funcionales y medidas relacionadas con el uso.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 35
3.1.3 Basada en Gold Standard
En una evaluación basada en Gold Standard la calidad de la ontología se expresa por la similitud con
respecto a otra construida manualmente, es decir, una Ontología Gold Standard [53]. Una de las
dificultades de este método es que la comparación de dos ontologías ya es difícil.
Se pueden comparar ontologías en dos niveles diferentes: léxico y conceptual [44].
Nivel léxico: evalúa la similitud entre los léxicos (un conjunto de etiquetas denotando
conceptos) de dos ontologías.
Nivel conceptual: se comparan las relaciones con la estructura taxonómica en la ontología.
En Staab [44] se proponen medidas de similitud a nivel léxico (cadenas) como el String Matching, que
compara dos entradas léxicas, y a nivel conceptual (taxonomías, relaciones), como el promedio de
similitud entre dos taxonomías y el promedio de traslape entre relaciones. Se propone un caso de
estudio cuyo dominio de interés es turismo, es decir, información sobre: hoteles, atracciones y eventos
culturales. Las medidas de similitud describen el alcance de la especificación de la ontología que es
cubierta por las otras y viceversa. Los autores hicieron una construcción de 13 ontologías, 12
propuestas por cuatro personas y un Gold Standar construido por un ingeniero ontológico. Se
realizaron pruebas con las medidas de similitud propuestas aplicadas a las ontologías diseñadas por las
4 personas contra el Gold estándar.
Las medidas de similitud han mostrado ser muy útiles para apoyar el descubrimiento de mapeos
entre dos ontologías.
Otros diseñaron técnicas basadas en modos de aprendizaje no supervisados utilizando minería de
textos [55]. Evalúan a nivel de léxico los resultados de extracción en una forma no supervisada, y el
material de textos corpora para construir ontologías. El minero produce un conjunto de triples, usados
para construir ontologías. Las métricas que utiliza son: cobertura, exactitud, precisión y recuerdo o
evocación.
Otro enfoque basado en Gold Standar es el propuesto por Brank [56] que desarrollaron un modelo de
evaluación automática de una ontología que incluye las instancias de los conceptos de la ontología. El
objetivo es comparar qué tan bien la ontología propuesta se asemeja al Gold Standar en el acomodo de
las instancias en los conceptos y en el acomodo jerárquico de los mismos conceptos.
No se basa en las descripciones de los conceptos e instancias en lenguaje natural. Utiliza un modo
automático no supervisado como agrupamiento, en este caso usan un algoritmo parecido a k-means.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 36
Proponen una medida de distancia: índice rand para comparar particiones en conjuntos, que se
modificó para utilizarse en ontologías: índice OntoRand. Utilizan medidas de similitud a nivel de
ancestros, y la distancia en el árbol que se genera.
El corpus que usan es la ontología dmoz.org con 687333 conceptos y 4381225 documentos
(instancias), pero sólo se enfocan en el subárbol de ciencia con 11624 conceptos y 104853 documentos
(instancias). Utilizan las medidas de similitud como es TF-IDF, generando centroides para cada
concepto, usan además la medida del coseno. Cada documento es asignado a conceptos. Asumen que
ambas ontologías tienen el mismo conjunto de instancias.
Los experimentos muestran que la medida basada en traslape de conjuntos de ancestros es muy
adecuada.
3.1.4 Basada en corpus de datos
Una ontología se puede evaluar comparándola con una fuente de datos (colección de documentos de
texto o corpus) sobre el dominio del problema en el que se enmarca la ontología. Uno de estos trabajos
propone un enfoque que consiste en determinar si la ontología se refiere a un tópico particular y
después clasificarla en un directorio de tópicos [57]: uno puede extraer sus datos textuales (como
nombres de conceptos y relaciones, y otras cadenas del Lenguaje Natural) y usar esto como una
entrada para un modelo de clasificación de texto. El modelo en sí mismo se puede entrenar por alguno
de los algoritmos de aprendizaje estándar desde el área de clasificación de texto; un corpus de
documentos sobre un determinado tópico se puede utilizar como una entrada en un algoritmo de
aprendizaje. Otro enfoque para los datos ha sido propuesto por Brewster [46], primero un conjunto de
términos relevantes del dominio específico son extraídos desde el corpus del documento por ejemplo
utilizando análisis semántico latente. La superposición entre los términos específicos de dominio y los
términos que aparecen en la ontología (por ejemplo, como nombres de conceptos) se puede utilizar
para medir el ajuste entre la ontología y el corpus. Las mediciones como precisión y recuerdo también
podrían utilizarse en este contexto. En el caso de las ontologías más amplias y sofisticadas que
incorporan una gran cantidad de información de hechos determinados (por ejemplo www.cyc.com), el
corpus del documento también puede utilizarse como fuente de hechos sobre el mundo externo.
En este tipo de escenarios la calidad de la ontología está representada por su oportunidad para cubrir
el tópico de un corpus. El enfoque léxico se usa en Peter [58], para solucionar esta tarea, donde se
utilizan métricas de precisión y evocación para evaluar como los triples de la ontología son extraídos
del corpus.
A un nivel conceptual se propone determinar un conjunto de términos importantes en el corpus, este
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 37
conjunto de términos es extendido al añadir dos niveles de hiperónimos desde WordNet [46]. Se utiliza
un enfoque probabilístico para comparar las etiquetas de la ontología con el (conjunto extendido) de
términos de la consulta.
Tanto en Brewster como en Staab tratan a un nivel de evaluación conceptual [46] y [44]. El primero
propone que un enfoque para evaluar ontologías debería ser el corpus o el manejo de los datos. Un
corpus es la forma más accesible de conocimiento y uso, permite a una medida derivarse del ajuste
entre una ontología y un dominio de conocimiento. Considera métodos para medir ese “ajuste” y
propone una medida para evaluar el ajuste estructural, y un enfoque probabilístico para identificar la
mejor ontología. El dominio que utilizan es el arte y artistas para el cual desarrollaron la aplicación
ARTEQUAKT. Coleccionaron 41 textos arbitrarios de artistas de Internet. Proponen comparar una o
más ontologías (Artequakt, CRM, AKT, Science, SUMO) con el corpus. Para lograrlo, se podría ejecutar
extracción automática de términos en el corpus y simplemente contar el número de términos que
sobreponen entre la ontología y el corpus, es decir, utilizando medidas de similitud. La ontología es
penalizada para términos presentes en el corpus y ausentes en la ontología, y para términos presentes
en la ontología pero ausentes en el corpus.
Otra propuesta basada en corpus la presenta Netzer, se trata de un método para evaluar una
ontología de búsqueda, que se basa en el mapeo de instancias de la ontología a documentos de textos.
Evalúan lo adecuado de las relaciones de la ontología al medir su potencial de clasificación sobre los
documentos textuales.
Su método maneja datos que proporciona una concreta retroalimentación a las personas que hacen
mantenimiento ontológico y una estimación cuantitativa de la funcionalidad adecuada de las relaciones
ontológicas hacia las mejoras en búsqueda. Evalúan si una relación de la ontología puede ayudar a un
motor de búsqueda semántico a sostener búsqueda exploratoria.
Evalúan una ontología obtenida semi-automáticamente sobre el dominio de películas desde la
integración de múltiples fuentes de datos textuales (semi-estructurados). El método de evaluación de
ontologías propuesto es general y respalda la posibilidad para alinear automáticamente documentos
textuales a instancias de la ontología. Presentan un método para evaluar la búsqueda de ontologías. La
ontología apoya al motor de búsqueda semántica, que permite a los usuarios buscar recomendaciones
de películas y canciones en el dominio de entretenimiento. La búsqueda semántica corresponde a un
cambio en Recuperación de Información desde centrarse en consultas de navegación y clasificación en
documentos a metas de alto nivel de extracción de contenido, metas de usuario, reconocimiento y
agregación de contenido. El método presenta evaluación funcional, es decir, investigan como pueden
medir lo adecuado de una ontología para sostener un motor de búsqueda semántico. La metodología de
evaluación que introducen depende del hecho que dada una instancia ontológica (una película) pueden
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 38
automáticamente recuperar gran cantidad de documentos textuales asociados a la instancia. Ellos
pueden desempeñar análisis de lingüística automática que determina si la ontología refleja la
información que minaron de los textos. Miden el nivel de ambigüedad de las entidades nombradas y el
nivel de variación terminológica para cada instancia de la ontología. Para identificar variaciones en el
texto, usan métricas de similitud entre cadenas. Los métodos de selección de características que usaron
son: TF/IDF e información mutua. Para la tarea de clasificación, usaron dos métodos: máquinas de
soporte vectorial (SVM) (lineal y cuadrática) y Naïve Bayes multinomial. Para los experimentos
utilizaron 5-fold cross-validation2 en el corpus. De los resultados obtenidos concluyen que la
clasificación es adecuada como método para evaluar.
Y hay quienes proponen dos métricas de evaluación de ontologías dinámicas [59]:
1) Violación: mide el ajuste entre la estructura taxonómica de la ontología y la distribución de
los términos en un corpus de textos subyacentes.
2) Volatilidad: mide la estabilidad estructural en el transcurso de la extensión de la ontología y
la evolución.
El corpus de prueba es la enciclopedia de filosofía de Stanford (SEP - Stanford Encyclopedia of
Philosophy) con 1200 artículos y 13 millones de palabras. Evalúan la estructura taxonómica generada
por máquinas de razonamiento. Estas métricas son diseñadas para proyectos que tienen acceso a
corpora textual muy grande, y que se espera que la estructura de la ontología corresponda con la
distribución de los términos en el corpus.
Volatilidad es una evaluación estructural de consistencia semántica. Violación es una evaluación
funcional basada en corpus de semántica ontológica. Además, utilizan las medidas estadísticas como
entropía, entropía condicional y la medida-J que estima la similitud semántica entre dos términos.
Construyen un grafo de coocurrencia, donde los nodos contienen palabras clave y los ejes indican que
los términos coocurren por lo menos una vez. El poblado de la ontología es por medio de la
programación de answer set. Comparan múltiples ontologías pobladas con el mismo conjunto de reglas
o métodos. La propuesta se centra en la evaluación semántica de relaciones taxonómicas, más que
evaluación léxica.
2 Es un método estadístico de evaluación y comparación de algoritmos de aprendizaje mediante la división de datos en dos
segmentos: uno utilizado para aprender o entrenar un modelo y otro para validar el modelo.
(http://www.public.asu.edu/~ltang9/papers/ency-cross-validation.pdf)
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 39
3.1.5 Otros enfoques de evaluación
Pueden existir enfoques incompatibles con alguno de los cuatro enfoques mencionados hasta el
momento, como el caso Supekar, que propone la revisión por pares para evaluación ontológica [60]. El
cual permite al usuario proporcionar valoraciones cualitativas sobre el contenido ontológico. A saber,
se considera que el enfoque permitirá el descubrimiento y selección de la ontología más relevante para
cierto propósito y facilitará el reúso ontológico.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 40
3.1.6 Resumen de las características de los diferentes métodos de evaluación de ontologías
La siguiente tabla resume las características comunes de cada uno de los trabajos presentados anteriormente para cada uno de los enfoques de
evaluación de ontologías.
Tabla 3-3 Cuadro comparativo de trabajos del estado del arte
Año Trabajo Datos de entrada Dominio Elemento ontológico
Nivel Dimensión Enfoque Propósito
2002 Maedche 13 ontologías Turismo Taxonomías, relaciones
Léxico, semántico Estructural Gold estándar Mapeo
2004 Gómez Pérez
Ontología - Taxonomías, instancias
Gramatical, Semántico Estructural Criterios Valorar contenido taxonómico
2004 Porzel Múltiples ontologías, Gold Standar (benchmark)
Turismo Taxonomías, relaciones no taxonómicas
Léxico, semántico Estructural Gold estándar Mapeo
2004 Brewster Ontologías, corpus
Arte, artistas Conceptos Léxico Estructural, funcional
Basado en datos, probabilístico, agrupamiento
Mejor ontología
2005 Gangemi Metodología - Axiomas, relaciones taxonómicas
Semántica, sintáctica, pragmático
Estructural, funcional, usabilidad
Basado en tareas, estadístico
Validación, usabilidad
2005 Spyns Textos, triples semánticos
- Conceptos, relaciones
Léxico Funcional Minería de textos, Gold estándar
Construcción de ontologías, evaluación de triples
2005 Supekar Ontología de metadatos
Particular Conceptos, instancias, relaciones,
Sintáctico (correctitud), semántico(consistencia)
Usabilidad (anotaciones)
Evaluación por pares
Selección, reúso
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 41
En lo que respecta a la evaluación de ontologías, se puede concluir que los trabajos se realizan sobre cierto dominio específico, atacan ciertos
elementos ontológicos, la dimensión de la evaluación es estructural en su mayoría, los enfoques principales de evaluación son cuatro, y los motivos por
el que se lleva a cabo la evaluación son variados, siendo más ocurrente la selección de la ontología. Además, no se encontró evidencia de trabajos que
evalúen las RSA.
axiomas
2006 Cantador Ontología, criterios evaluados
- Ontología Léxico Funcional Criterios Selección, Reúso colaborativo
2006 Sabou Metodología Web Conceptos, ontologías
Léxico, semántico Estructural Criterios Selección
2006 Brank Ontología de aprendizaje, Gold estándar
Ciencia Conceptos, instancias
Léxico Estructural Estadístico, agrupamiento, Gold estándar
Traslape
2009 Netzer semiestructurada Entretenimiento, películas
Instancias Semántica, Ambigüedad lingüística
Funcional Basado en el manejo de datos, métricas, clasificación, agrupamiento
Búsqueda, selección
2010 Murdock Ontología Filosofía (enciclopedia de Stanford)
Taxonomías Sintáctico, semántico Estructural, funcional
Basado en el manejo de datos, métricas
Selección
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 42
3.2 Sinonimia
Evaluación semántica (SemEval), consiste en una serie de talleres cuyo tema principal es la
evaluación de los sistemas de análisis semántico. En la edición 2012 (SemEval-2012) se propusieron
diferentes tareas relacionadas al análisis semántico. La tarea 2: Measuring Degrees of Relational
Similarity, se centró en la calificación de los grados de prototipicidad de pares de palabras
compartiendo la misma relación. En la tarea se presentan un número de relaciones específicas que
pertenecen a una de las 10 diferentes familias o clases de relaciones generales. Entre ellas se
encuentran la de SIMILAR y CONTRAST que son semejantes a las de sinonimia y antonimia. Grupos de
investigación se inscribieron para participar en la tarea dos. Solo tres lograron proponer un sistema
completo y reportaron un artículo científico de su propuesta [61].
En general, los participantes utilizan una combinación de características basada en corpus, sintáctico
y WordNet, con diversos grados de éxito. La tarea también incluyó una línea de base competitiva, PMI,
que superó a todos, es decir, no obtuvieron resultados alentadores. Lo cual indica que la tarea es
compleja y que se presenta la oportunidad de profundizar en este tipo de trabajos para mejorar los
resultados. Los participantes fueron tres: la Universidad de Texas (UTD), la Benemérita Universidad
Autónoma de Puebla (BUAP) y la Universidad de Minnesota.
1) Los participantes de la BUAP representan cada par, como un vector sobre múltiples
características: léxico, palabras que intervienen, la relación que indica WordNet, y
características sintácticas. Teniendo poblado los vectores, utilizan la medida de similitud del
coseno para cada par, y de esta manera miden la similitud relacional de un conjunto de pares
de palabras que pertenecen a la misma relación. Y se apoyaron en la hipótesis de que las
palabras que coocurren en el mismo contexto contienen un determinado tipo de relación
semántica.
2) UTD (University of Texas at Dallas) participó con dos enfoques.
(1) El primero de los dos enfoques, UTD-NB, se trata de un aprendizaje no supervisado
que identifica los patrones de intervención entre todos los pares de palabras. Cada
patrón se clasifica en función de su especificidad de subcategoría por el aprendizaje de
un modelo generativo de los patrones de pares de palabras. Clasificaciones de
prototipicidad se basan en la confianza de que el patrón de puntuación más alto
encontrado de un par pertenece a la subcategoría. Asignan pesos a los patrones que
luego se utilizan para determinar la puntuación de similitud de pares de palabras. El
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 43
método comienza por la obtención de todos los pares de palabras asociadas con una
relación. Cada relación está asociada con un conjunto de destino (T) de pares de
palabras de dos fuentes: (i) los tres o cuatro pares de palabra ejemplo previstas para
cada relación, y (ii) los pares de palabras proporcionada por Turkers Fase 1 (Turkers
proporciona pares de palabras como experto: experiencia, centro comercial: tienda,
letras: palabras, y doctor: grado. Un total de 3.218 pares de palabras).
(2) El segundo enfoque UTD-SVM utiliza un modelo SVM-rank [62], para clasificar los
pares de palabras. En general los patrones son los mismos que en el método UTD-NB.
Los pares de palabra son representados como vectores de características de patrones.
Un clasificador SVM es entrenado utilizando pares de una subcategoría de los datos
positivos de formación y todos los otros pares como negativos. La clasificación de
prototipicidad se basa en la confianza de SVM de inclusión de clases.
3) University of Minnesota, Duluth (Duluth), presentan tres enfoques v0, v1 y v2.
(1) En el v0, utilizan WordNet para construir el conjunto de conceptos conectados por
relaciones del mismo WordNet a las palabras de los pares. La prototipicidad se calcula
utilizando la similitud de vectores de los gloses concatenados.
(2) En el v1, se utiliza el mismo procedimiento que v0, con una mayor expansión de los
conceptos relacionados.
(3) Y en v2, aplican el mismo procedimiento que v0, con dos nuevas expansiones a
conceptos relacionados.
3.2.1 Determinación del grado de sinonimia basado en diccionarios
Por otro lado hasta 2011, sólo el trabajo “análisis del grado de sinonimia en un diccionario de
sinónimos” [63], se encargó de medir el grado de sinonimia entre pares, ellos utilizaron un diccionario
de sinónimos y antónimos de la lengua española de Samuel Gili Gaya. En el cual, la información relativa
a la sinonimia, se estructura de la siguiente forma: palabra, lista de palabras sinónimas, acepción. Por
ejemplo, la palabra “concesión” posee la lista de sinónimos “permiso”, “licencia”, “gracia”, “privilegio”
en la primera acepción y “epítrope” en la segunda.
El objetivo usual del diccionario era para buscar los sinónimos de una palabra para sustituirla por
otra en una oración.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 44
Desde esta perspectiva, si concebimos la sinonimia como una cuestión de grado, la sustitución
conlleva el riesgo de que la nueva palabra no signifique exactamente lo mismo, y esto puede afectar al
contenido de la información completa. Una característica importante de los diccionarios de sinónimos
es que para definir un término se utiliza una simple lista de palabras. Por tanto, para ver si dos
términos están relacionados, se comparan dos listas de palabras. Si la sinonimia es una cuestión de
grado y se representa como una lista el conjunto de sinónimos de una palabra, la cuestión que ellos se
plantearon es cómo medir el grado de sinonimia entre dos palabras. Para ello se apoyaron en Mandani
[64], reutilizando un coeficiente que se interpreta como la asociación entre dos listas de sinónimos.
Entonces utilizaron ese coeficiente para medir el grado de sinonimia GRS(a,b) entre dos palabras a y b:
G S a, b A
A
Donde A y B son, respectivamente, las listas de sinónimos a y b.
Una vez que obtienen el grado de sinonimia en el rango [0,1], llevan a cabo una verbalización del
grado de sinonimia entre palabras, estableciendo el siguiente criterio de distribución de los intervalos
de cada verbalización.
a. Todo grado mayor que 0 y menor o igual a 0.25 se verbaliza con la etiqueta “muy poco
sinónimos”.
b. Todo grado mayor que 0.25 y menor o igual a 0.5 con la etiqueta “poco sinónimos”.
c. Todo grado mayor que 0.5 y menor o igual a 0.75 se verbaliza con la etiqueta “bastante
sinónimos”.
d. Todo grado mayor que 0.75 y menor o igual a 1 con la etiqueta “muy sinónimos”.
3.2.2 Adquisición automática de sinónimos basada en la hipótesis de la
distribución
La mayoría de los métodos de extracción automática de sinónimos se basan en la hipótesis de la
distribución, que las palabras relacionadas semánticamente aparecen en contextos próximos [39]. Esta
hipótesis constituye un punto clave para muchos otros algoritmos de recuperación de sinónimos: la
recuperación de contextos y de comparación. Los algoritmos, basados en la hipótesis de distribución, se
proponen por Lin [65] y Curran [66]. En estos documentos, los contextos se definen sobre la base de las
relaciones gramaticales predefinidas que se recuperan de un corpus del lenguaje. También se tienen en
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 45
cuenta la similitud entre los contextos recuperados. El principal problema de todos los métodos
anteriores, es la dificultad para distinguir sinónimos de otros pares semánticamente similares de
palabras tales como hipónimos, hiperónimos, antónimos, etc.
Actualmente se ha observado que los sinónimos, tienen una relación más fuerte, y que tiene un mayor
grado de similitud que, por ejemplo hipónimos o hiperónimos, pero esto no es siempre el caso. Por lo
que el problema persiste en la actualidad [67].
Cabe señalar que el problema está parcialmente resuelto [68], utilizando dos cuerpos paralelos
alineados a nivel de palabra con GIZA++ [69], de la cual las sentencias correspondientes y todas las
traducciones posibles entre pares de palabras en ambos idiomas se recuperan. En un contexto de una
palabra dada en el primer idioma, el conjunto de todas las traducciones posibles de la otra lengua se
utilizan. Entonces la similitud semántica entre las dos palabras se mide como una similitud entre sus
contextos. Este enfoque permite una distinción más precisa entre sinónimos y otras palabras
relacionadas semánticamente, porque los antónimos y los hiperónimos rara vez se alinean. La
desventaja de este método es que requiere un gran corpus paralelo, lo que puede no estar disponible.
Asimismo, no funciona para palabras poco comunes, que casi no se reunieron en el corpus.
3.2.3 Utilizando la web como un corpus
La idea de utilizar la Web como un corpus ha sido utilizada por muchos investigadores para resolver
problemas diferentes [70]. Algunos de ellos utilizan los motores de búsqueda en la web para encontrar
cuántas veces una palabra o frase se cumple y el cálculo de la información mutua puntual [71] mientras
que otros directamente recuperan el contexto de fragmentos de texto devueltos por los motores de
búsqueda en la Web [72]. La idea de recuperar información de fragmentos de texto devueltos por un
motor de búsqueda en la Web se utiliza en Chen [73]. El modelo que se basa en introducir la idea de que
si dos palabras X e Y están relacionados semánticamente, la búsqueda de X debería incluir a Y en los
resultados, y viceversa: la búsqueda de Y debería provocar X a aparecer con frecuencia en los
resultados. En este enfoque, las palabras de contexto son completamente ignorados (excepto para X e
Y) y su semántica no se utiliza. Como más adelante se descubrió, esto produce incorrecta similitud
semántica cero para la mayoría de los pares transformados [74].
Otros utilizan la web como corpus para medir la similitud semántica entre pares de fragmentos
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 46
cortos de texto (las solicitudes de búsqueda), recuperan los contextos de los pares de textos breves de
los contenidos de los documentos devueltos después de la búsqueda, y luego comparan las palabras
más frecuentes de estos documentos [75]. No se puede comparar el contenido de los documentos, pero
sólo los fragmentos devueltos por un motor de búsqueda en la Web, que requiere mucho menos
recursos y permite obtener mejores resultados, ya que no todas las palabras del documento se tienen
en cuenta, si no sólo las que están en el contexto.
Y hay quienes combina la recuperación de la información sobre el número de ocurrencias de dos
palabras (tanto juntos como por separado) de un motor de búsqueda en la Web, con la recuperación de
la información de fragmentos de texto devueltos por el motor de búsqueda [41]. Automáticamente
descubren las plantillas léxico-sintácticas para las palabras semánticamente relacionadas y no
relacionadas con WordNet, y entrenan un clasificador apoyándose en una máquina de soporte vectorial
(SVM). Las plantillas aprendidas se utilizan para extraer información de los fragmentos de texto
devueltos por el motor de búsqueda. Finalmente, los resultados se combinan. Sin embargo el método es
más complicado que el propuesto y requiere de recursos adicionales para la formación de la SVM.
Un enfoque interesante para la búsqueda de sinónimos y lexicalizaciones de la web, comienza con
una taxonomía de los términos relevantes a un dominio específico generado automáticamente para una
determinada palabra clave, basada en una serie de búsquedas en Google. A continuación, buscan en la
web los términos más largos de varias palabras extraídas de la taxonomía después de retirar la palabra
clave objetivo y asumir que los sinónimos se encuentran en la misma posición que la palabra clave
original [76]. El planteamiento es bastante original, abordando un problema distinto: encontrar
sinónimos posibles de una palabra dada. Una ventaja importante de este método es que no requiere
grandes corpus u otros recursos como WordNet, que no están disponibles para algunos idiomas o
dominios específicos.
Otros proponen para medir la similitud semántica usar los contextos locales extendidos con la
recuperación indirecta de otras palabras del contexto [77]. En particular, después de que el contexto
local C para una palabra dada se ha recuperado, las palabras de los contextos locales de todas las
palabras en C también se añaden al contexto local de la palabra destino. De esta manera, la información
semántica se enriquece y por lo tanto la precisión de la medición de similitud semántica se mejora. La
única desventaja es que este enfoque, al recuperar el contexto de la Web es demasiado caro (en
términos de tiempo y dinero, dado que las consultas a un motor de búsqueda, confiable, implican un
costo económico de acuerdo al número de consultas, actualmente) debido al alto número de consultas
de búsqueda necesarios para recuperar los contexto de las palabras indirectas.
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 47
En “Automatic Acquisition of Synonyms Using the Web as a Corpus” utilizan un método para la
extracción de sinónimos midiendo la similitud semántica –mediante la consulta de un motor de
búsqueda en la Web (por ejemplo, Google) y el análisis de los resultados devueltos- [67], se basa en la
hipótesis de que los pares de sinónimos deben tener una mayor similitud semántica en comparación
con los no sinónimos. La similitud semántica es un número entre cero y uno, que indica el grado de
similitud. Ellos plantean que dado un conjunto de palabras, se mide la similitud semántica entre cada
par de ellos, después colocan los pares de palabras en una lista en orden decreciente por su similitud
semántica, esperan que los sinónimos se encuentren al principio de la lista, seguida por otras palabras
semánticamente similares, seguido por las palabras que no están relacionadas. Con este trabajo
mostraron que es posible (con un mínimo de intervención humana) extraer automáticamente todos los
pares de sinónimos de una lista de términos construidos a partir de un texto terminológico.
3.3 Antonimia
Los antónimos tienden a aparecer juntos en una frase más a menudo que el azar [78]. Lo cual se
conoce como la hipótesis de coocurrencia.
Se demostró la hipótesis de coocurrencia a partir de 35 pares de antónimos prototípicos (tomados
de un original conjunto de pares de antónimos compilado por Deese [79]) a los que le adicionaron 22
pares de antónimos frecuentes, según Justeson [80]. Sin embargo todos estos pares fueron adjetivos.
Otros llevaron a cabo experimentos similares con 47 sustantivos, verbos, adjetivos, adverbios y los
pares (sustantivo-sustantivo, verbo-sustantivo, adjetivo-sustantivo, verbo-adverbio, y así
sucesivamente) que pertenecen a 18 conceptos (por ejemplo, perder (v) - ganancia (n) y pérdida (n)).
Sin embargo, palabras no antónimas, más bien relacionadas semánticamente como hiperónimos,
merónimos y casi-sinónimas también tienden a ocurrir conjuntamente con mayor frecuencia que el
azar [81]. Así, distinguir los antónimos de las anteriores ha demostrado ser una tarea difícil.
Otro método ha usado patrones como "from X to Y" y "X or Y" para separar los pares de antónimos de
palabras a partir de pares distributivos similares [82]. Y evaluaron su método en 80 pares de
antónimos y 80 pares de sinónimos tomados del Webster’s Collegiate Thesaurus [83].
Hay quienes proponen un método uniforme para resolver problemas que requieren una analogía
Capítulo 3.- Estado del arte
Adrián Cruz Hernández P á g i n a | 48
entre sinónimos, antónimos, hiperónimos y otras relaciones léxico-semánticas entre pares de palabras
[84].
También se han detectado antónimos con el fin de identificar las contradicciones mediante el uso de
cadenas de synsets de WordNet conectadas por los enlaces de hiperonimia-hiponimia y exactamente un
enlace de antonimia [85]. En cupertino [86] propusieron un nuevo método para identificar pares de
palabras en relación de oposición provenientes de un corpus sin formato. El método fue aplicado a
pares de palabras relacionadas obtenidas de un Thesaurus creado por el método de Grefenstette.
También se usan algunos rasgos extraídos de los contextos de las palabras. Estos rasgos fueron
evaluados por la distancia entre las palabras que aparecen en el mismo contexto, patrones léxico-
sintácticos usados para empatar expresiones regulares en los contextos de las palabras, y por una red
de coocurrencia léxica construida para cada palabra relacionada [86]. El método fue probado en un
conjunto de pares de palabras tomadas de un corpus de economía, y se obtuvo un 80 por ciento de
precisión, lo cual fue alentador. Por desgracia, solo está reportada al público una evaluación de su
método de tan sólo 18 pares de palabras.
En otra investigación se crearon "vectores de antónimos" para una palabra de destino. Cuanto más
similares sean los vectores con un vector objetivo, más probabilidad de que sean antónimos [87]. Sin
embargo, los vectores son características de antónimos creados manualmente. Además, el método no se
evalúa más allá de unos cuantos pares de palabras.
En el trabajo “sentiment classification using machine learning techniques” determinan la polaridad de
las palabras [88], detectan los adjetivos tales como brillante deslumbrante, y apasionante, que emiten
sustantivos de calificación positiva, mientras que adjetivos como malo, estereotipado y aburrido
representan sustantivos clasificados negativamente. Muchos de estos adjetivos graduables tienen
antónimos. A pesar de que el método no tiene como objetivo determinar la polaridad de los pares de
palabras positivas y negativas que sean antónimos.
De los trabajos revisados, no se encontró alguno que determine el grado de antonimia entre las
palabras y no han demostrado tener una cobertura sustancial.
De los trabajos revisados, han sido de gran inspiración, para atacar la sinonimia y antonimia, las
técnicas de Lin y Turney [82] y [84].
Adrián Cruz Hernández P á g i n a | 49
Capítulo 4. Desarrollo de métricas
En esta sección se describe el desarrollo de métricas para validar la relación de sinonimia y
antonimia. También se presenta el desarrollo de métricas para medir el grado de estas relaciones.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 50
Se desarrollan métricas que juegan un papel importante en la validación de la relación y otras para
medir el grado de la relación entre un dos unidades léxicas (ULS).
4.1 Métricas para la validación de la relación
Las métricas que conforman la validación de la relación, se presentan a continuación.
HyponymLexicalPattern
Un hipónimo posee todos los rasgos semánticos de su hiperónimo, pero contando en su definición
con por lo menos un rasgo semántico de especialización –lo que lo hace hipónimo-;
Los hipónimos tienden a coocurrir con sus hiperónimos en un valor considerable además de que
entre el hipónimo y el hiperónimo se comparten un considerable conjunto de características
semánticas. Por lo tanto, en muchas ocasiones pares de hipónimos son incorrectamente identificados
como sinónimos. De igual manera, si solo se toma la coocurrencia en la identificación de antónimos, es
alta la probabilidad de que los hipónimos se clasifiquen como antónimos. Por lo que resulta necesario
identificar hipónimos para descartarlos como sinónimos o antónimos, con lo que se disminuye el
porcentaje de falsos positivos en las tareas de reconocimiento de sinónimos o antónimos por medidas
estadísticas.
Con HyponymLexicalPattern se busca proporcionar un valor en el rango del cero al uno que indique
en que porcentaje se encuentra evidencia de la relación de hiponimia entre un par de ULS, utilizando
los patrones para el reconocimiento de hipónimos según [89] y [90], presentados en la Tabla 4-1.
La métrica se muestra a continuación.
Métrica 1 HyponymLexicalPattern
Donde h es el total de documentos que contienen frases cuya composición sintáctica sirve para el
reconocimiento de hipónimos, tal como las que se muestran a continuación.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 51
Tabla 4-1 Reconocimiento de hipónimos
the ul1 and other ul2
the ul1 is a ul2 of the ul1 is a ul2 that the ul1 is the single ul2 the ul1 is one of the ul2 more the ul1 are a ul2 the use of ul1 as ul2
El cálculo de HyponymLexicalPattern se describe a través del algoritmo 1 HLP que se encuentra en el
anexo 1.
AntonymWeb
Antonimia es la relación semántica que existe entre dos (o más) palabras que tienen significados
opuestos. Comparten casi todos sus rasgos semánticos, excepto uno, el rasgo semántico que no
comparten es el presente en uno de los miembros de la pareja y ausente en el otro [21]. Esta
característica hace complicada la clasificación automática de sinonimia, si se utilizara un método que
considere solo las propiedades semánticas de los pares. Sin embargo, varias propuestas solucionan ese
inconveniente utilizan patrones para la identificación de relaciones léxicas [82], [83] , [91] y [92].
AntonymWeb busca proporcionar un valor en el rango del cero al uno que indique en qué porcentaje
se encuentra evidencia de la relación de antonimia entre el par de unidades léxicas, utilizando los
patrones para la identificación de antónimos según [91] y [92], presentados en la Tabla 4-2.
La métrica AntonymWeb se muestra a continuación.
Métrica 2 AntonymWeb
Donde A es el total de documentos que contienen frases cuya composición sintáctica sirve para el
reconocimiento de antónimos, tal como las que se muestran a continuación.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 52
Tabla 4-2 Patrones para la identificación de antónimos
No. Patrón Ejemplo
1 X and Y alike … I would gladly hear your musings, dull and dreary alike …
2 between X and Y … “The Three Sisters” precariously walks the line between dull and compelling …
3 both X and Y …Both dull and bright colors are used in impressionistic paintings…
4 either X or Y The outer surface of the shell may be either dull or shiny
5 from X to Y …The 5,000sq.km salt lake ranges from dull to technicolour depending on the weather……
6 X versus Y …It’s dull versus bright, what with bland hues thrown in…
7 whether X or Y …Intensity refers to a color’s strength whether dull or bright…
8 X as well as Y …Among his pupils were commoners, merchants, nobles, and dull as well as intelligent people. Confucius laid great emphasis on learning…
9 X but not Y ...And I know it's not legal but not illegal in Nevada, but in California we aren't allowed to wear knee pads ...
10 Y and X alike …Most young women, intelligent and dull alike, feel the same way…
11 between Y and X …For me the difference between interesting and dull is the sincerity of the preacher…
12 both Y and X …Senses become both acute and dull at the same time…
13 either Y or X …You’ll probably find this either amusing or dull, depending on your politics…
14 from Y to X …The amethyst surface luster varies from glassy to dull…
15 Y versus X …Choose between types of pain: new versus old, sharp versus dull, local versus radiating…
16 whether Y or X …Other art meetings, whether fun or dull, were strained…
17 Y as well as X …not care if you are rich or perhaps bad, educated or illiterate, intelligent as well as dull. Give them your current heart and will also give you ....
18 Y but not X ... scholarly work should be: serious but not slow, intelligent but not dull, and esoteric but not obscure....
A continuación se presentan frases que contienen a la unidad léxica “dull” y empatan con algún
patrón de los expuestos en la tabla anterior.
El cálculo de AntonymWeb se describe a través del Algoritmo 3 AWeb del anexo 1.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 53
SynonymyWeb
Sinonimia es la relación semántica que existe entre dos (o más) palabras que tienen el mismo (o casi
el mismo) significado, pero se escriben de manera diferente. En otras palabras, podemos decir que la
sinonimia es la equivalencia semántica entre elementos léxicos. Recolectar todas propiedades
semánticas de elementos léxicos para luego ver que conjuntos se traslapan idealmente, a fin de
encontrar equivalencia semántica entre elementos léxicos resulta complicado.
Por otro lado, hay quienes asumen que no existen sinónimos absolutos, es decir, pares de palabras
que tienen el mismo significado (o comparten exactamente los mismos rasgos semánticos) en todos los
contextos situacionales y sintácticos en el que pueden aparecer [21].
SynonymWeb busca proporcionar un valor en el rango del cero al uno que indique en que porcentaje
se encuentra evidencia de la relación de sinonimia entre el par de unidades léxicas, utilizando los
patrones de la Tabla 4-3 de acuerdo con [93] y [94].
La métrica SynonymWeb se muestra a continuación.
Métrica 3 SynonymyWeb
Donde SW es el total de documentos que contienen frases cuya composición sintáctica sirve para el
reconocimiento de sinónimos, tal como los que se muestran a continuación.
Tabla 4-3 Patrones para la identificación de sinónimos
Patrón Ejemplo
X known as Y ... invented Ferdinand verbiest first car known as automobile for young people ...
X also known as Y ...Snoring with prolonged pauses in breathing while at sleep also known as rest apnea may also lead to sleeplessness...
X also called Y … couch also called sofá …
El cálculo de SynonymWeb se describe en el Algoritmo 5 SWeb del anexo 1.
SynonymWordNet
Esta métrica revisa, en la base de datos léxica de WordNet, en qué grado los conjuntos de sinónimos
del par de unidades léxicas se intersectan. El valor de intersección se interpreta como proporcional a la
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 54
probabilidad de sinonimia. La métrica se muestra a continuación.
Métrica 4 SynonymWordNet
M y N son conjuntos de sinónimos tomados de WordNet a partir del par de unidades léxicas.
El cálculo de SynonymWordNet se describe en el Algoritmo 7 SWNT.
SynonymWordReference
Esta métrica es semejante a SynonymWordNet, con la diferencia de consultar al tesauro
WordReference en lugar de la base de datos léxica de WordNet. La métrica se muestra a continuación.
Métrica 5 SynonymWordReference
W y F son conjuntos de sinónimos tomados de WordReference a partir del par de unidades.
El cálculo de SynonymWordReference se describe en el Algoritmo 9 SWRF del anexo 1.
AntonymWordNet
Esta métrica revisa en la base de datos léxica de WordNet en qué grado se intersectan los conjuntos
de antónimos del par de unidades léxicas, el valor de traslape mayor a cero se interpreta como un
indicador de antonimia. La métrica se muestra a continuación.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 55
Métrica 6 AntonymWordNet
AW y AN son conjuntos de antónimos tomados de WordNet a partir del par de unidades léxicas.
El cálculo de AntonymWordNet se describe en el Algoritmo 11 AWNT del anexo 1.
otherRelationWordNet
WordNet además de ofrecer conjuntos de sinónimos y antónimos también ofrece conjuntos de otras
relaciones como holónimos, hiperónimos, hipónimos y merónimos.
Esta métrica revisa si el par comparte alguna de estas relaciones que son diferentes a la de sinonimia
o antonimia.
{ ,
,
Métrica 7 otherRelationWordNet
Donde:
y corresponden a un par de ULS.
I es un conjunto de términos correspondientes a un tipo de relación de las soportadas por WordNet.
quiere decir que se encuentra un conjunto de holónimos, hipónimos, hiperónimos o merónimos de .
CW representa la unión de los conjuntos de elementos que son holónimos, hiperónimos, hipónimos o
merónimos de .
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 56
AntonymSyntactically
Es posible encontrar antónimos utilizando afijos [95]. Con AntonymSyntatically se analiza
sintácticamente el par de unidades léxicas, utilizando los afijos especificados en la Tabla 4-4. Dado que
en el conjunto de afijos existen prefijos y sufijos para las ULS, se propone las métricas isASST_array,
isASST_matrix e isASST_sffx que otorgan el valor de AntonymSyntatically tal como se muestra a
continuación.
AntonymSyntatically = if (isASST_array=True| isASST_matrix=True| isASST_sffx=True)? True:False;
Métrica 8 isASST_array
donde U es considerado como un conjunto compuesto por los caracteres de una unidad léxica y L de
la misma manera pero de otra unidad léxica para formar el par, mientras que P representa los prefijos
que solo se dan para una unidad léxica del par – desde abX hasta unX-, de la Tabla 4-4.
Métrica 9 isASST_ matrix
U y L se describieron con anterioridad, P es un prefijo al igual que Q para cada ULS del par. De
acuerdo a la Tabla 4-4 corresponde a los pares (lX,illX) hasta (overX, underX).
Métrica 10 isASST_sffx
R y S son dos conjuntos compuestos por los caracteres del par de ULS, X e Y representan los sufijos
“less” y “ful” que forman los conjuntos l,e,s,s y f,u,l respectivamente.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 57
Tabla 4-4 Afijos para el reconocimiento de antónimos
w1 w2 Par de ejemplo
X abX normal–abnormal
X antiX clockwise–anticlockwise
X disX interest–disinterest
X imX possible–imposible
X inX consistent–inconsistent
X malX adroit–maladroit
X misX fortune–misfortune
X nonX aligned–nonaligned
X unX biased–unbiased
lX illX legal–illegal
rX irX regular–irregular
imX exX implicit–explicit
inX exX introvert–extrovert
upX downX uphill–downhill
overX underX overdone–underdone
Xless Xful harmless–harmful
DisJointWith
Existen ontologías publicadas en internet, que pueden ser reutilizadas o adaptadas a tareas
específicas, la mayoría de ellas ha sido publicada después de considerarse correcta por el grupo de
expertos que la desarrolló. Resulta interesante considerar a esas ontologías como conocimiento de
base y averiguar si en algunas de ellas se encuentra el par de ULS especificadas bajo la misma relación
en la que se está evaluando o incluso verificar si el par está especificado bajo otro tipo de relación.
Con DisJointWith se averiguar si dado un par de ULS, estos se encuentran con la relación disjointWith
en por lo menos una ontología de las disponibles en internet, tomando el valor de True en tal caso y
False en otro caso. En general un valor True de esta métrica se interpreta como un indicador que
beneficia a la relación de antonimia e indica que la relación no es de sinonimia.
La métrica se muestra a continuación.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 58
Métrica 11 DisJointWith
Donde U2 es una UL (unidad léxica), DJW el conjunto de todos los conceptos que tienen una relación
DisjointWith de U1, U1 es el complemento de U2 para formar un par de ULS.
Con el Algoritmo 17 DJWatson el cual se encuentra en el anexo 1, se puede calcular esta métrica.
EquivalentClass
Es semejante a la métrica anterior, con la diferencia de que se revisa si existe una relación
EquivalentClass entre un par de ULS. Si se encuentra, indica que el par puede ser sinónimo y que no es
antónimo. La métrica es la siguiente.
Métrica 12 EquivalentClass
Donde U2 es una unidad léxica, DJW el conjunto de todos los conceptos que tienen una relación
EquivalentClass de U1, U1 es el complemento de U2 para formar un par de ULS.
Con el Algoritmo 18 EQCWatson, que se encuentra en la sección de anexo 1, es posible calcular esta
métrica.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 59
Paraphrase
En el fenómeno lingüístico de la paráfrasis se presenta una oportunidad para la identificación de
sinónimos [96], con la métrica Paraphrase se pretende calcular en qué grado existe paráfrasis entre un
par de unidades léxicas (ULS), es decir en qué grado existen frases semejantes en donde en donde se
utiliza a UL1 y UL2 arbitrariamente en la misma posición dentro de la frase. La fórmula de esta métrica
se muestra a continuación.
*(log 1
10 ) (log 1
10 )+ 2
Métrica 13 WebPPH
Donde tL indica la cantidad de documentos en donde existen frases con UL1, cuyas frases se generan
a partir de la sustitución de UL2 por UL1 en frases arbitrarias donde ocurre U2; mientras que tR la
cantidad de documentos con frases que contienen UL2, frases que se plantearon a partir de la
sustitución en otras donde ocurre UL1, intercambiando UL1 por UL2. Por ejemplo considerando a UL1
“paper” y UL2 “research article”, a partir de la frase “the rest of this research article is organized as
follows” que contiene a UL2 se puede crear la frase “the rest of this paper is organized as follows”;
siendo posible calcular tL encontrando todos los documentos en donde ocurra esta última frase.
Cabe se señalar que no se cubren todas las variedades de paráfrasis, solo aquella en donde es
dinámica una UL en la misma posición. Por ejemplo, de la Figura 4-1 a) solo se cubre la paráfrasis
donde se intercambia por
, de la Figura 4-1 b) solo se cubre la que intercambia por
, de
la Figura 4-1 c) solo se cubre la paráfrasis donde se sustituye por
.
Figura 4-1 Variedad de paráfrasis
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 60
4.2 Métricas para medir el grado de la relación
En esta sección se presentan las métricas desarrolladas para medir el grado de relación de sinonimia
y antonimia. Las métricas son las siguientes:
Coocurrencia
La descripción de la coocurrencia se encuentra en la sección 2.5.1.2 de este documento.
Para el indicador denominado coocurrencia, se ha realizado una variante al concepto como tal, la
modificación a la coocurrencia se muestra en la siguiente Ecuación.
Ecuación 4-1 Variante de coocurrencia
Aquí el valor absoluto de la diferencia de f(l) con f(r) juega un papel importante y el valor de tal
diferencia es inversamente proporcional al valor de coocurrencia final. De tal manera que a menor
sesgo mayor coocurrencia y a mayor sesgo menor coocurrencia. Con ello tenemos una noción de la
coocurrencia de x dado y. Por ejemplo, México coocurre significativamente cuando se habla de
Cuernavaca, por otro lado existe un sesgo de tal coocurrencia con la que sucede con el término
Cuernavaca cuando el tema central es México. Este fenómeno lo observamos en relaciones como la
hiponimia, como entre gato y felino (cat and feline). Un ligero sesgo se da entre pares sinónimos, por lo
que valores altos en esta métrica indica que se comparte una relación de sinonimia y valores cercanos a
Donde α es una unidad léxica, por ejemplo fragrance; β es una unidad
léxica, por ejemplo perfume; |X| devuelve el número de elementos del
conjunto X, si se tratara de un numero devuelve el valor absoluto.
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 61
cero, que en realidad se trata de otra relación.
A pesar de que pares sinónimos comparten una coocurrencia, generalmente, más alta que los
antónimos, estos tienen una coocurrencia significativa por encima del azar.
Finalmente esta métrica es una de las utilizadas para cuantificar el grado de la relación ya sea entre
pares sinónimos o antónimos.
Métrica 14 Coocurrencia
, , tomará valores en el rango [0.075, 0.9957] ~ (0,1).
El término Cooc será considerado como equivalente a la métrica denominada coocurrencia o a , ,
de aquí en adelante.
NSS
El valor posible de NGD (ver apartado 2.5.1.1) devuelve valores en el rango de cero a infinito, se ha
realizado una adaptación para obtener valores en el rango del cero al uno y que el valor sea
proporcional al grado de relación entre dos términos, a esta adaptación se le ha asignado el nombre de
NSS.
Figura 4-1 Modificación de NGD
En la figura anterior se observa como la interpretación de NSS es contraria a NGD, en NSS el valor es
Capítulo 4.- Desarrollo de métricas
Adrián Cruz Hernández P á g i n a | 62
proporcional al grado de relación. A esta última interpretación se le ha asignado el nombre de NSS
(Normalized Similarity Score) [97] y es igual a 1-NGD. La métrica NSS se muestra a continuación.
{1 , 1
0,
Métrica 15 NSS
Adrián Cruz Hernández P á g i n a | 63
Capítulo 5. Propuesta de solución
En este capítulo se describe el procedimiento a seguir para dar solución al problema de la presente
investigación y se presenta la arquitectura y aplicación SyAnMetric que implementa la propuesta de
solución.
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 64
5.1 Procedimiento de solución
EL procedimiento a seguir para dar solución al problema (descrito en la sección 1.2), es el siguiente:
1) Obtener los pares de unidades léxicas a evaluar.
2) Utilizar las métricas descritas en el Capítulo 4 en cada par.
3) Aplicar una heurística, considerando los valores que nos proporcionan las métricas, a fin de
confirmar o negar la relación.
4) Calcular el grado de fortaleza de la relación.
En seguida se describen cada uno de los pasos a seguir, en donde se utiliza la frase penalizar a la
relación que indica que se encuentra, médiate el resultado de una métrica, evidencia de que el par de
ULS pertenece a otra relación.
5.1.1 Obtención de los pares de unidades léxicas a evaluar
Las metodologías no inducen incluir sinónimos y antónimos en ontologías, los editores para creación
de ontologías no ofrecen un servicio para gestionar relaciones de sinonimia y antonimia (RSA), y no
existe un estándar para incluir RSA en ontologías [98], por lo que es necesario realizar el proceso de
identificación de sinónimos y antónimos presentes en ontologías de manera manual. Para que el
responsable de tal tarea lidie con el hecho de rescatar los pares bajo esta relación, especificados de
diferente forma según cada ontología. El usuario que necesite evaluar las RSA debe de crear la colección
de pares de RSA bajo el formato x@y@Rel tal como se muestra en la siguiente tabla.
Tabla 5-1 Formato del par de unidades léxicas
Input: X@Y@ REL Ejemplo Descripción
REL: tomará valores de
S|A|s|a en dónde S|s
representa a la sinonimia
y A|a antonimia.
car@auto@s Con esta cadena se indica que el par de unidades
léxicas car y auto se desea evaluar bajo el marco
de S (sinonimia).
to inspect@to examine@s Con esta cadena se indica que el par de unidades
léxicas to inspect y to examine se desea evaluar
bajo el marco de S (sinonimia)
hot@cold@a Con esta cadena se indica que el par de unidades
léxicas hot y cold se desea evaluar bajo el marco
de A (antonimia)
El formato X@Y@REL ha sido necesario para separar las unidades léxicas X e Y dado que desde un
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 65
punto de vista semántico las unidades léxicas (ULS) pueden estar formadas por más de una sola
palabra –sin importar su categoría gramatical-.
5.1.2 Uso de métricas
Para disminuir falsos positivos en la tarea de confirmar la relación de sinonimia, se descarta que el
par en realidad comparta una relación semántica distinta a la sinonimia, como la antónima o hiponimia.
Con la antonimia se hace algo semejante, es decir, se revisa que no pertenezca a otra relación. Las
siguientes 2 tablas muestran las métricas que se considerarán como indicadores de que la relación es
diferente.
Tabla 5-2 Métricas que indican una relación diferente a la sinonimia
HyponymLexicalPattern
AntonymWordNet
AntonymWeb
OtherRelationWordNet
DisjointWith
AntonymSyntactically
Tabla 5-3 Métricas que indican una relación diferente a la antonimia
HyponymLexicalPattern
SynonymWordNet
SynonymWordReference
SynonymWeb
OtherRelationWordNet
EquivalentClass
En el capítulo anterior se describieron las métricas, dado que nuestra fuente de datos será la web, se
desarrollaron algoritmos para hacer uso de las métricas aplicándolas a la web, los cuales se pueden observar
en el Anexo 1. Algoritmos desarrollados.
Todas las métricas del Capítulo 4 son utilizadas para una heurística que nos lleva a confirmar o negar
la relación, tal como se muestra en la siguiente sección.
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 66
5.1.3 Heurística para confirmar o negar la relación
Se plantea una heurística para confirmar o negar la relación.
En algunos casos las métricas no son válidas para todos los pares. Por ejemplo, si los pares son de
dominios muy específicos es probable que no se encuentren dentro del vocabulario de WordNet, por lo
que todas las métricas que hacen uso de WordNet no serán válidas, en ese caso se tendrá que confirmar
o negar la relación con solo el conjunto de métricas válidas. Puesto que son muchas las posibles
combinaciones de métricas válidas y algunas indican que la relación es correcta y otras que es
incorrecta, ha sido conveniente crear una heurística con un conjunto considerable de reglas, las cuales
se representan en un árbol de decisión.
En el árbol, las hojas representan la decisión (o resultado) y el camino que se recorre desde la raíz
hasta la hoja es el conjunto de reglas a cumplir para tomar una decisión. La heurística completa se
encuentra en el anexo 2, a continuación se presentan algunos ejemplos para ilustrar la heurística y el
uso de la misma.
Ejemplo 1
Dado el par a procesar compuesto por legal e ilegal (legal e illegal en Inglés), se obtienen los siguiente
valores, después de calcular las métricas.
Figura 5-1 Ejemplo de uso de la heurística
ULS WordNet NSS Cooc Paraphrase WordRFsyn SynABB FinalMetric
(legal,illegal) ? ? 0,99562 ? 0 ? 0,49781
ULS HypLexPat SynWNt SynWRf AntWNt AntWeb SynWeb SynABB otherRelation isDJWith isEq isAntSynt EnElMarcoDe Resultado GFR
(legal,illegal) 0.0 0.0 0.0 0.0 0.0 0.0 0.0 F F F T A A 0.1850
Se evalúa en el marco
de antonimia
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 67
Si se revisa con el árbol que contiene la heurística para la antonimia, dado que el par de ULS se evalúa
en el marco de antonimia, se observa que rápidamente se llega a una solución (hoja del árbol) puesto
que la regla isAntonymSyntatically, calculada con la métrica AntonymSyntatically es igual a True (T o
Verdadero . En este caso el valor de la hoja es igual a “A”, la cual se interpreta como: “Se confirma la
relación de antonimia” entre el par “legal” e “illegal”.
Ejemplo 2
Por otro lado, dado el mismo par del ejemplo anterior pero ahora evaluándolo en el marco de
sinonimia, se obtienen los siguiente valores, después de calcular las métricas.
Figura 5-2 Ejemplo 2 de uso de la heurística
En este caso se revisa con el árbol que contiene la heurística para la sinonimia.
A pesar de tratarse de un árbol que contiene reglas para la sinonimia, se revisa que no sea verdadera
(=True o =T) isAntonymSyntatically.
Como es verdadera se llega a una hoja, lo que indica que se toma una decisión, en este caso la hoja
tienen el valor O, dado que se evalúa en el marco de sinonimia, este valor se interpreta como: “el par
pertenece a otra relación”, lo que es equivalente a negar la relación de sinonimia entre el par legal e
illegal.
ULS WordNet NSS Cooc Paraphrase WordRFsyn SynABB FinalMetric
(legal,illegal) ? ? 0,99562 ? 0 ? 0,49781
ULS HypLexPat SynWNt SynWRf AntWNt AntWeb SynWeb SynABB otherRelation isDJWith isEq isAntSynt EnElMarcoDe Resultado GFR
(legal,illegal) 0.0 0.0 0.0 0.0 0.0 0.0 0.0 F F F T A A 0.1850
Se evalúa en el
marco de sinonimia
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 68
5.1.4 Cálculo del grado de fortaleza de la relación.
Una vez que se confirma la relación se ofrecerá un valor en el rango del cero al uno proporcional al
grado de fortaleza de la relación (GFR). Para ello se hace uso de las métricas de la sección 4.2.
La fórmula en concreto para GFR se muestra a continuación.
∑
6
Utilizando la fórmula anterior se obtienen los valores de GFR, en la siguiente tabla se muestra un
ejemplo para el conjunto de sinónimos de disgusting.
Tabla 5-4 Pares de unidades léxicas y su grado de fortaleza en la relación (GFR)
Unidad léxica 1 Unidad léxica 2 Par de ULS GFR
disgusting distasteful disgusting@distasteful@s 0,67314833
disgusting sickening disgusting@sickening@s 0,42100667
disgusting hateful disgusting@hateful@s 0,32854833
disgusting repugnant disgusting@repugnant@s 0,21986
disgusting abominable disgusting@abominable@s 0,30967
Estos valores han sido posibles gracias los resultados de las 6 Métricas de la sección 4.2, como se
muestran a continuación.
Tabla 5-5 Ejemplo del cálculo de GFR
Par de ULS Métrica1
(WordNet)
Métrica2
(NSS)
Métrica3
(Cooc)
Métrica4
(Paraphrase)
Métrica5
(WordRF)
Métrica6
(ABB) GFR=
∑
disgusting@distasteful@s 1 0,551 0,98789 ? 0,5 1 0,673148333
disgusting@sickening@s 0,125 0,37203 0,99492 ? 0,375 0,65909 0,421006667
disgusting@hateful@s 0 0,30897 0,99565 ? 0,66667 0 0,328548333
disgusting@repugnant@s 0 0,32391 0,99525 ? ? 0 0,21986
disgusting@abominable@s 0 0,27417 0,99556 ? 0,51282 0,07547 0,30967
En la tabla anterior, el signo de interrogación “?” significa que la métrica no es válida ver inicio de
sección 5.1.3). Para el cálculo de GFR, “?” se considera como un valor igual a cero.
De acuerdo a los resultados se puede decir que el par disgusting@distasteful@s tiene un grado de
relación más fuerte que el par disgusting@abominable@s.
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 69
5.2 Desarrollo de SyAnMetric
Para probar la propuesta de solución se creó una aplicación web denominada SyAnMetric. Una de las
actividades iniciales para el desarrollo de la aplicación ha sido generar algoritmos para el cálculo de las
métricas propuestas en el capítulo 4, dichos algoritmos se encuentran en la sección de Anexo 1.
Algoritmos desarrollados. Acto seguido una arquitectura general y el desarrollo por fases de la
herramienta.
5.2.1 Arquitectura general
La arquitectura general del sistema denominado SyAnMetric se muestra en la Figura 5-3
Arquitectura general de SyAnMetric.
Figura 5-3 Arquitectura general de SyAnMetric
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 70
La arquitectura de la aplicación SyAnMetric está compuesta de 4 fases las cuales se describen a
continuación.
5.2.1.1 Fase 1
En esta fase se propone la intervención de un humano (generalmente el experto del dominio) el cual
extraerá de la ontología los pares que quiera evaluar bajo sinonimia o antonimia, dado que no existe un
estándar para incluir RSA en ontologías [98], y cada grupo que desarrolla ontologías y se ve en la
necesidad de incluir sinónimos y antónimos, lo hace según su criterio, originando que exista una amplia
gama de formas en la que se específica un sinónimo o antónimo en ontologías, a pesar de ser dos de las
relaciones menos utilizadas en modelos ontológicos, actualmente.
El equivalente en la arquitectura se muestra en la Figura 5-4 Fase I en la arquitectura.
Figura 5-4 Fase I en la arquitectura
Siguiendo con la propuesta de solución, el usuario genera el conjunto I de pares a evaluar, bajo el
formato x@y@REL indicado en la Tabla 5-1 Formato del par de unidades léxicas, de la sección 5.1.1.
5.2.1.2 Fase 2
En esta fase se implementan los algoritmos del anexo1, que corresponden a todas las métricas del
Capítulo 4, en donde la fuente de datos será la web. La figura siguiente representa esta fase.
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 71
Figura 5-5 Fase II en la arquitectura
Además del uso de la web por algunas métricas, existen otras que hacen uso de recursos lingüísticos como
WordNet, WordReference, y Watson –para acceder a ontologías-.
5.2.1.3 Fase 3
La fase tres consiste en recuperar el conjunto de métricas calculadas en la fase anterior y a través de
reglas de decisión, del apartado 5.1.3, determinar el tipo de relación y calcular un grado de fortaleza de
la relación en el rango del cero al uno, haciendo uso de GFR descrita en 5.1.4.
La fase 3 de la arquitectura se observa en la Figura 5-6.
Figura 5-6 Fase III en la arquitectura
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 72
5.2.1.4 Fase 4
Esta fase recolecta las validaciones (confirmando o negando) la relación y el valor de GRS de cada par
de ULS procesado, para ofrecer como resultado el conjunto O.
, … | | , en donde cada elemento contiene en T los veredictos:
confirmar la relación, negarla y sin poder resolverla [(S|A)|O|N], y en GRS un valor en el rango del cero
al uno que representa el grado de relación semántica entre las ULS x e y.
La siguiente figura representa la salida, es decir el conjunto O.
Figura 5-7 Conjuntos O, de la fase 4 en la arquitectura
5.2.2 Aplicación SyAnMetric
La implementación de la arquitectura de solución, expuesta en la Figura 5-3, se ve reflejada en una
aplicación web denominada SyAnMetric, cuya interfaz se observa en la Figura 5-8.
Figura 5-8 Interfaz SyAnMetric
Área de entrada
de datos
Botón de
ejecución
Adrián Cruz Hernández P á g i n a | 73
Figura 5-9 Resultado de la aplicación SyAnMetric
En la figura anterior se puede observar como el primer par (legal, illegal) bajo el marco de antonimia (REL=A) se confirma en T (T=A), es decir, se
confirma la relación y se ofrece un valor en GFR que representa el grado de relación semántica entre el par; y al mismo tiempo dado que la relación se
confirmó se interpreta como grado de fortaleza en la relación.
Por otro lado el segundo par procesado que corresponde a las mismas ULS del primer par, pero ahora bajo el marco de sinonimia (REL=S) se niega la
relación (T=O), lo cual es correcto dado que el par en realidad es antónimo y no sinónimo y si bien se niega la relación no se específica a cual pertenece
en realidad, sin embargo aun así se observa un valor en GFR, el cual indica el grado de relación semántica aun cuando el par se niega bajo el marco de
sinonimia. Por lo que GFR puede interpretarse como el valor de fortaleza en la relación solo en el caso en el que la relación (REL) se confirma según el
Grado de confianza:
cuantificación de la relación
Resultado de la validación confirmando REL, negándola(O) y
sin poder resolver el par (N).
Capítulo 5.- Propuesta de solución
Adrián Cruz Hernández P á g i n a | 74
valor de T.
También se observa como el antepenúltimo par no se pudo resolver y aun así fue posible calcular el GFR, dado que no se confirmó la relación, GFR se
puede interpretar como GRS, pues es posible que un par de ULS esté relacionado semánticamente independientemente del tipo de relación semántica
que en realidad comparten.
Adrián Cruz Hernández P á g i n a | 75
Capítulo 6. Pruebas y resultados
En este capítulo se describen las pruebas y resultados de la aplicación SyAnMetric que implementa la
metodología propuesta. La evaluación se ha realizado bajo un enfoque Gold Standar, para la sinonimia y
antonimia, el Gold Standar ha sido tomado de Oxford Learner’s Thesaurus © Oxford University Press,
2008 -en donde se proponen ejercicios de identificación de sinónimos-, nuestro enfoque se puso a
prueba con 5 tópicos y ha sido posible definir los pares Gold Standar a partir de los resultados
correctos, ofrecidos por el mismo recurso de Oxford. Para la antonimia se realizaron tres experimentos.
A continuación se muestran los datos, el procedimiento utilizado y los resultados que se alcanzaron.
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 76
6.1 Métricas de evaluación
En esta sección se presentan las métricas de evaluación que se usaron para determinar qué tan
efectiva es la metodología propuesta.
6.1.1 Precisión y Recuerdo
Estas métricas de evaluación, mejor conocidas como “precision and recall” [99] donde:
Precisión: Una medida de la capacidad de un sistema para presentar todos los elementos
pertinentes, enfocándose a la exactitud o debilidad de la herramienta [100], [101], [102].
Recuerdo: Una medida de la capacidad de un sistema de presentar sólo los elementos
pertinentes, enfocándose en la completitud [100], [103], [104].
Estas dos medidas han sido aplicadas con mayor frecuencia en el área de recuperación de
información. En la siguiente tabla se aprecia la interpretación de información para hacer uso de las
fórmulas de precisión y recuerdo, sobre los resultados de esta investigación, que se mostraran más
adelante.
Tabla 6-1 Precisión y Recuerdo
Precisión y Recuerdo
Correctos Incorrectos
Resueltos A B (A + B) Todos los pares resueltos
No resueltos C D (C +D) Todos los pares no resueltos
(A + C) Todos
los pares con una
relación correcta3
(B + D) Todos
los pares con
una relación
incorrecta4
(A + B + C + D) Todos los pares
Precisión
ecuerdo
Exactitud
3 En el caso de evaluarse pares tentativamente sinónimos, se considerará un par correcto a todos aquellos que realmente
sean sinónimos, en los pares antónimos serán correctos los pares realmente antónimos, basados en el Gold estándar. 4 Para cuando se valora en el marco de sinonimia se considera como incorrecta una relación diferente a la de sinonimia, y
en el caso de antonimia se considera incorrecta cualquier otra relación (diferente a la antonimia).
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 77
La herramienta recibe de entrada pares de unidades léxicas a evaluar en el marco de sinonimia o
antonimia (ul1@ul2@[s|S|a|A]), como resultado se ofrece el par, confirmando y proporcionando un
grado de fortaleza en la relación, en los casos pertinentes especificando que el par pertenece a otra
relación con la letra “O”, o informando que no se encontró evidencia para confirmar o negar la relación
(no es resuelto el par) con la letra “N” ul1@ul2@[S|A|O|N]@cuantificación).
6.1.2 Medida F
La Medida F es una combinación de la precisión y recuerdo con una medida armónica de precisión y
exactitud, que representa la efectividad de lo que se mide.
2 ó
ó
Ésta también se conoce como la medida F1, porque el recuerdo y la precisión son uniformemente
ponderados.
6.2 Caracterización de pruebas
Se realizan pruebas con un enfoque basado en Gold standar, para la sinonimia y antonimia. El Gold
standar ha sido tomado de Oxford Learner’s Thesaurus © Oxford University Press, 2008 -en donde se
proponen ejercicios de identificación de sinónimos en diferentes tópicos (que en el ámbito de
ontologías pueden considerarse como dominios)- nuestro enfoque se puso a prueba con 5 tópicos y ha
sido posible definir los pares Gold Standar a partir de los resultados correctos ofrecidos por el mismo
recurso de Oxford. Los tópicos permitieron generar 294 pares. Mientras que para valorar el grado de
fortaleza en la relación se toman 9 conjuntos de sinónimos, el recurso de Oxford ofrece tales conjuntos
con un nivel de similitud entre los elementos. La evaluación en este caso se realizará midiendo el grado
de tendencia del nivel de similitud entre los elementos sinónimos del recurso Oxford y los valores
ofrecidos por nuestra herramienta.
Para los antónimos, se procesan 80 pares involucrando 32 graduales, 32 complementarios y 16
relacionales. Adicionalmente los 18 pares –siendo antónimos los primeros 8 y el resto de otra relación
semántica- del experimento realizado en Cupertino [86] (con una traducción al Inglés, dado que los
pares originales en Cupertino se encuentran en español).
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 78
6.2.1 Criterios de evaluación
La evaluación se realiza mapeando los resultados ofrecidos con los pares Gold Standar sinónimos,
antónimos y de otra relación.
Para los sinónimos se tiene un conjunto B (Gold Standar), un conjunto de entrada I a procesar y un
conjunta R de salida.
, , . . [ | ] | |
, … | |
[ | | ] , … [ | | ] | |
Cabe señalar que en el conjunto I todos los pares se especifican como sinónimos (que son los pares a
evaluar), para ello se coloca la letra s -siendo indiferente el uso de minúsculas y mayúsculas-.
Para la antonimia se tienen los conjuntos C (Gold standar), un conjunto de entrada J a procesar y un
conjunta P de salida.
, , . . [ | ] | |
, … | |
[ | | ] , … [ | | ] | |
Cabe señalar que en el conjunto J todos los pares se especifican como antónimos (que son los pares a
evaluar), para ello se coloca la letra a (siendo indiferente el uso de minúsculas y mayúsculas).
En general es el conjunto Gold Estándar, el conjunto de entrada y el conjunto de
salida. El mapeo se realizará entre y para revisar en qué casos se confirmó y negó la
relación de manera correcta o incorrecta, y en qué grado los pares no se pudieron resolver, es decir no
se pudo confirmar o negar la relación. En el mapeo es indiferente la mayúscula con minúscula y se
considera que se confirma adecuadamente la relación cuando el valor S|A de los elementos del conjunto
coincide con el especificado en el elemento correspondiente (identificado por x@y) del conjunto
, incorrecto en otro caso, y se niega correctamente cuando el valor “O” especificado en cada
elemento del conjunto coincide con lo especificado en .
Adrián Cruz Hernández P á g i n a | 79
6.2.2 Casos de estudio
6.2.2.1 Sinónimos
Se presentan los pares en el formato especificado en la Tabla 6-2, en donde la primera columna
representa el vocabulario del tópico y cada elemento del vocabulario se revisa con cada rotulo de
columna, de los pares generados solo los que se encuentran en negrita son los correctos y el resto en
realidad pertenece a otra relación, el conjunto de pares así como el saber cuáles son sinónimos y cuáles
de otra relación es lo que denominamos Gold standar.
Tabla 6-2 Formato de los casos de estudio
ulX ulY
ul1 ul1@ulX@s ul1@ulY@s
ul2 ul2@ulX@s ul2@ulY@s
Adrián Cruz Hernández P á g i n a | 80
6.2.2.1.1 Tópico educación (education)
Para el tópico educación se procesan 72 pares que se pueden apreciar en la siguiente tabla.
Tabla 6-3 Vocabulario en el tópico education
6.2.2.1.2 Tópico salud (health)
Para el tópico de salud se procesan 50 pares que se pueden apreciar en la siguiente tabla.
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 81
Tabla 6-4 Vocabulario en el tópico health
6.2.2.1.3 Tópico deporte y ocio (sport and leisure)
Para el tópico de deporte y ocio se procesan 50 pares que se pueden apreciar en la siguiente tabla.
Tabla 6-5 Vocabulario en el tópico sport and leisure
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 82
6.2.2.1.4 Tópico individuo y sociedad (the individual and society)
Para el tópico de individuo y sociedad se procesan 72 pares que se pueden apreciar en la siguiente tabla.
Tabla 6-6 Vocabulario en el tópico the individual and society
6.2.2.1.5 Tópico conflicto (conflict)
Para el tópico conflicto se procesan 50 pares que se pueden apreciar en la siguiente tabla.
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 83
Tabla 6-7 Vocabulario en el tópico conflict
Adrián Cruz Hernández P á g i n a | 84
6.2.2.2 Antónimos
6.2.2.2.1 Graduales
Se procesan 32 pares graduales que se pueden apreciar en la siguiente tabla.
Tabla 6-8 Antónimos graduales
6.2.2.2.2 Complementarios
Se procesan 32 pares complementarios que se pueden apreciar en la siguiente tabla.
Tabla 6-9 Antónimos complementarios
dark@light@a quick@slow@a
intel l igent@stupid@a warm@cool@a
dangerous@safe@a wide@narrow@a
evi l@good@a abundant@scarce@a
beauti ful@ugly@a joy@grief@a
best@worst@a knowledge@ignorance@a
clever@fool ish@a lazy@industrious@a
early@late@a sti ff@l imp@a
easy@difficul t@a miserable@happy@a
empty@ful l@a violent@gentle@a
fat@skinny@a chaos@order@a
young@old@a soften@harden@a
happy@sad@a nervous@calm@a
hard@soft@a reckless@cautious@a
last@firs t@a luxury@squalor@a
fool ish@wise@a sweet@bitter@a
man@woman@a true@false@a
push@pul l@a send@receive@a
dead@al ive@a attack@defend@a
off@on@a accidenta l@intentional@a
raise@lower@a former@latter@a
forget@remember@a depart@arrive@a
day@night@a exterior@interior@a
sadism@masochism@a extinguish@ignite@a
right@wrong@a sol id@fluid@a
absent@present@a thaw@freeze@a
against@for@a vacant@occupied@a
exit@entrance@a inward@outward@a
s ink@float@a input@output@a
employ@dismiss@a exhale@inhale@a
married@single@a pass@fai l@a
question@answer@a read@write@a
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 85
6.2.2.2.3 Relacionales
Se procesan 16 pares relacionales que se pueden apreciar en la siguiente tabla.
Tabla 6-10 Antónimos relacionales
6.2.2.2.4 Cupertino
En este experimento se retoman 18 pares que se utilizaron en Cupertino [86], cabe señalar que
nuestro principal objetivo difiere a el de Cupertino (la identificación de antónimos), nosotros
confirmamos o negamos pares antónimos. Aunado a ello los 18 pares originales se encuentran en
Español, dado que nosotros trabajamos sobre el idioma Inglés, ha sido necesario traducirlos al Inglés y
verificamos que los pares antónimos lo siguieran siendo, discriminando lo que pasara con los pares que
de acuerdo a Cupertino [86] pertenecen a otra relación. Los pares originales se pueden apreciar en la
siguiente tabla.
Tabla 6-11 Conjunto de pares de prueba en Cupertino
nservant@master@a above@below@a
husband@wife@a give@receive@a
doctor@patient@a teach@learn@a
buy@sel l@a come@go@a
parent@chi ld@a toward@away@a
borrow@lend@a employer@employee@a
predator@prey@a customer@suppl ier@a
instructor@pupi l@a divisor@dividend@a
Pares de palabras
bajo-alto
activo-pasivo
grande-pequeño
oferta-demanda
pregunta-respuesta
público-privado
social-individual
interior-exterior
confianza-fe
crédito-préstamo
cultura-democracia
harina-trigo
inversión-gasto
miembro-comunidad
pobreza-problema
productor-benefactor
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 86
6.3 Resultados
En esta sección se presentan los resultados que se obtuvieron a partir de los casos de estudio
mostrados en la sección 6.2.2.
6.3.1 Sinónimos
Para la sinonimia, en total se procesaron 294 pares y los resultados se resumen en la siguiente tabla.
Tabla 6-12 Resultados en sinonimia
Resueltos 277
Correctos 262
Incorrectos 15
Sin Resolver (sinónimos y de otras relaciones)
17
Sinónimos sin resolver 4
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos.
Gráfica 6-1 Resultados correctos en el marco de sinonimia
Cabe señalar que en la interpretación se consideran correctos todos aquellos pares que se negaron
como sinónimos y que realmente no lo eran, y todos los pares que se confirmaron como sinónimos y
que realmente lo eran, de acuerdo al Gold estándar. En la siguiente gráfica se aprecia el porcentaje de
los pares resueltos frente a los que no se pudieron resolver.
Correctos 95%
Incorrectos 5%
Sinónimos
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 87
Gráfica 6-2 Resolución de pares en el marco de sinonimia
A continuación se muestra una gráfica donde se puede apreciar el porcentaje de los pares que se
resolvieron correctamente, considerando a los que no se pudieron resolver que realmente son
sinonimos.
Gráfica 6-3 Resultados correctos en el marco de sinonimia, considerando los sinónimos sin resolver
Hasta este punto se ha mostrado los resultados globales en cuanto a la sinonimia. Los resultados en
cada uno de los cinco tópicos se muestran en la sección 6.3.1.1 a la 6.3.1.5
6.3.1.1 Tópico educación (education)
Los resultados obtenidos en este tópico se muestran a continuación.
En total se procesaron 72 pares, los resultados se resumen en la siguiente tabla.
Resueltos 94%
Sin Resolver 6%
Sinónimos
Correctos 93%
Incorrectos 5%
Sinónimos sin resolver
2%
Sinónimos
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 88
Tabla 6-13 Resultados en el tópico education
Resueltos 67
Correctos 65
Incorrectos 2
Sin resolver 5
Sinónimos sin resolver 0
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos en el
tópico educación.
Gráfica 6-4 Resultados correctos en el tópico education
A continuación se puede apreciar el porcentaje de los pares que se resolvieron correctamente,
considerando a los pares que no se pudieron resolver que realmente son sinónimos.
Gráfica 6-5 Resultados correctos en el tópico education, considerando los sinónimos sin resolver
Correctos 97%
Incorrectos 3%
Education
Correctos 97%
Incorrectos 3%
Sinónimos sin resolver
0%
Education
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 89
6.3.1.2 Tópico de salud (health)
Los resultados obtenidos en este tópico se muestran a continuación, en total se procesaron 50 pares.
Tabla 6-14 Resultados en el tópico health
Resueltos 48
Correctos 47
Incorrectos 1
Sin resolver 2
Sinónimos sin resolver 0
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos en el
tópico salud.
Gráfica 6-6 Resultados correctos en el tópico health
A continuación se puede apreciar el porcentaje de los pares que se resolvieron correctamente,
considerando a los pares que no se pudieron resolver que realmente son sinónimos.
Gráfica 6-7 Resultados correctos en el tópico health, considerando los sinónimos sin resolver
Correctos 98%
Incorrectos 2%
Health
Correctos 98%
Incorrectos 2%
Sinónimos sin resolver
0%
Health
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 90
6.3.1.3 Tópico Sport and Leisure
Los resultados obtenidos en este tópico se muestran a continuación. En total se procesaron 50 pares,
los resultados se resumen en la siguiente tabla.
Tabla 6-15 Resultados en el tópico sport and leisure
Resueltos 47
Correctos 44
Incorrectos 3
Sin resolver 3
Sinónimos sin resolver 1
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos en el
tópico de deporte y ocio.
Gráfica 6-8 Resultados correctos en el tópico sport and leisure
A continuación se puede apreciar el porcentaje de los pares que se resolvieron correctamente,
considerando a los pares que no se pudieron resolver que realmente son sinónimos.
Gráfica 6-9 Resultados correctos en el tópico sport and leisure, considerando los sinónimos sin resolver
Correctos 94%
Incorrectos 6%
Sport and Leisure
Correctos 92%
Incorrectos 6%
Sinónimos sin resolver
2%
Sport and Leisure
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 91
6.3.1.4 Tópico the individual and society
Los resultados obtenidos en este tópico se muestran a continuación. En total se procesaron 72 pares,
los resultados se resumen en la siguiente tabla.
Tabla 6-16 Resultados en el tópico the individual and society
Resueltos 71
Correctos 65
Incorrectos 6
Sin resolver 1
Sinónimos sin resolver 1
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos en el
tópico individuo y sociedad.
Gráfica 6-10 Resultados correctos en el tópico the individual and society
A continuación se puede apreciar el porcentaje de los pares que se resolvieron correctamente,
considerando a los pares que no se pudieron resolver que realmente son sinónimos.
Gráfica 6-11 Resultados correctos en el tópico the individual and society , considerando los sinónimos sin resolver
Correctos 92%
Incorrectos 8%
The Individual and Society
Correctos 90%
Incorrectos 8%
Sinónimos sin resolver
2%
The Individual and Society
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 92
6.3.1.5 Tópico Conflict
Los resultados obtenidos en este tópico se muestran a continuación. En total se procesaron 50 pares,
los resultados se resumen en la siguiente tabla.
Tabla 6-17 Resultados en el tópico conflict
Resueltos 44
Correctos 41
Incorrectos 3
Sin resolver 6
Sinónimos sin resolver 2
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos en el
tópico conflicto.
Gráfica 6-12 Resultados correctos en el tópico conflict
A continuación se puede apreciar el porcentaje de los pares que se resolvieron correctamente,
considerando a los pares que no se pudieron resolver que realmente son sinónimos.
Gráfica 6-13 Resultados correctos en el tópico conflict, considerando los sinónimos sin resolver
Correctos 93%
Incorrectos 7%
Conflict
Correctos 89%
Incorrectos 7%
Sinónimos sin resolver
4%
Conflict
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 93
Para verificar los resultados que ofrece la herramienta en cuanto al grado de sinonimia, se realizó un
experimento de 9 conjuntos de sinónimos tomados de Oxford de los cuales se cuenta con una escala de
fortaleza en la sinonimia. La correlación de la escala de referencia (Gold standar, según Oxford) con los
resultados de nuestra herramienta se observan en la siguiente gráfica.
Gráfica 6-14 Correlación de la escala de sinonimia en oxford con los de SyAnMetric
La correlación que se encontró más adecuada y la que se utilizó finalmente en este experimento es la
correlación de Spearman. Sin embargo este no nos permite alcanzar una correlación con el valor de 1
para nuestro experimento, por ejemplo en el conjunto de sinónimos de magnificent tenemos a
{glorious, spectacular, majestic, grand, impressive, imposing}, según la referencia Gold standar los
primeros 2 elementos tienen un mayor grado de sinonimia con magnificent, los siguientes 2 un grado
medio y los últimos 2 (impressive e imposing) un grado menor de sinonimia con respecto a
magnificent, obteniendo un ranking T={5.5, 5.5, 3.5, 3.5, 1.5, 1.5}. El recurso Oxford nos proporciona
una escala de sinonimia, pero se desconoce un valor que cuantifique las escalas poco, medio, mucho,
etc. Para este conjunto de sinónimos de magnificent se obtuvieron los valores de grado de sinonimia
{0.4013, 0.1659, 0.0791, 0.0680, 0.0541, 0.0541} los cuales generan un ranking S={6,5,4,3,2,1} según
sus valores en una interpretación incremental. Finalmente aplicando la correlación de Spearman entre
el conjunto T y S se obtiene 0,95618 en correlación, lo que indica que ese valor es el mejor posible para
este caso.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Co
rre
lati
on
synonyms
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 94
6.3.2 Antónimos
6.3.2.1 Graduales
Los resultados obtenidos en los antónimos graduales se muestran a continuación. En total se
procesaron 32 pares, los resultados se resumen en la siguiente tabla.
Tabla 6-18 Resultados en antónimos graduales
Total (pares) 32
Correctos 28
Incorrectos 1
Sin resolver 3
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos.
Gráfica 6-15 Resultados correctos en antónimos graduales
En la siguiente gráfica se aprecia el porcentaje de los pares no resueltos frente al total de pares.
Gráfica 6-16 Porcentaje de pares sin resolver en antónimos graduales
Correctos 97%
Incorrectos 3%
Graduales
Total (pares)
91%
Sin resolver 9%
Graduales
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 95
6.3.2.2 Complementarios
Los resultados obtenidos en los antónimos complementarios se muestran a continuación. En total se
procesaron 32 pares, los resultados se resumen en la siguiente tabla.
Tabla 6-19 Resultados en antónimos complementarios
Total (pares) 32
Correctos 25
Incorrectos 1
Sin resolver 6
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos.
Gráfica 6-17 Resultados correctos en antónimos complementarios
En la siguiente gráfica se aprecia el porcentaje de los pares no resueltos frente al total de pares.
Gráfica 6-18 Porcentaje de pares sin resolver en antónimos complementarios
Correctos 96%
Incorrectos 4%
Complementarios
Total (pares)
84%
Sin resolver 16%
Complementarios
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 96
6.3.2.3 Relacionales
Los resultados obtenidos en los antónimos relacionales se muestran a continuación. En total se
procesaron 16 pares, los resultados se resumen en la siguiente tabla.
Tabla 6-20 Resultados en antónimos relacionales
Total (pares) 16
Correctos 8
Incorrectos 2
Sin resolver 6
En la siguiente gráfica se aprecia el porcentaje de los pares correctos frente a los incorrectos.
Gráfica 6-19 Resultados correctos en antónimos relacionales
En la siguiente gráfica se aprecia el porcentaje de los pares no resueltos frente al total de pares.
Gráfica 6-20 Porcentaje de pares sin resolver en antónimos relacionales
Correctos 80%
Incorrectos 20%
Relacionales
Total (pares)
73%
Sin resolver 27%
Relacionales
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 97
6.3.2.4 Cupertino
En este experimento retomamos 18 pares que se utilizaron en Cupertino [86], en la tarea de
identificación de antónimos, sin embargo nuestro principal objetivo no es la identificación de
antónimos si no el poder confirmar pares antónimos. Aunado a ello los 18 pares originales se
encuentran en Español, dado que nosotros trabajamos sobre el idioma Inglés, ha sido necesario
traducirlos a tal idioma (verificamos que los pares antónimos lo siguieran siendo en el idioma Ingles, y
discriminamos lo que pasara con los pares que de acuerdo a [86] pertenecen a otra relación. Los
resultados son los siguientes.
Tabla 6-21 Conjunto de prueba: los primeros 8 pares son antónimos
Par en Cupertino Par en SyAnMetric Cupertino SyAnMetric
bajo-alto low@high correcto A
activo-pasivo active@passive correcto A
grande-pequeño large@small correcto A
oferta-demanda offer@demand correcto A
pregunta-respuesta question@reply incorrecto A
público-privado public@private correcto A
social-individual social@individual correcto A
interior-exterior interior@outside correcto A
confianza-fe confidence@faith correcto O
crédito-préstamo credit@loan correcto A
cultura-democracia culture@democracy incorrecto O
harina-trigo flour@wheat correcto N
inversión-gasto investment@spending correcto A
miembro-comunidad member@community correcto N
pobreza-problema poverty@problem incorrecto O
productor-benefactor producer@benefactor correcto N
rasgo-característica trait@feature incorrecto N
semana-día week@day correcto N
Tomados de Cupertino [86].
En las siguientes tablas se separan los resultados de Cupertino y SyAnMetric.
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 98
Tabla 6-22 Resultados en el experimento de Cupertino
Antónimos Otras relaciones
Correctos (en Cupertino) 7 7
Incorrectos (en cupertino) 1 3
Total 8 10
Tabla 6-23 Resultados de SyAnMetric, utilizando los 18 pares de Cupertino
Antónimos Otras relaciones
Correctos (por SyAnMetric) 8 3
Sin resolver (por SyAnMetric) 0 5
Incorrectos(por SyAnMetric) 0 2
Total 8 10
Tabla 6-24 Resultados de SyAnMetric en pares realmente antónimos de Cupertino
Antónimos Otras relaciones
correctos (por SyAnMetric) 8 8
Incorrectos(por SyAnMetric) 0 2
Total 8 10
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 99
6.4 Análisis de resultados
Del experimento relativo a la sinonimia se procesaron 294 pares, obteniendo los siguientes
resultados.
Tabla 6-25 Resultados a detalle en el marco de sinonimia
Resueltos 277
Correctos 262
Incorrectos 15
Sin Resolver 17
Sinónimos sin resolver 4
otros sin resolver 13
Basados en lo expuesto en la sección 6.1 se han alcanzado los siguientes resultados en precisión,
recuerdo, medida F y exactitud.
ó 262
262 15 0.9458
262
262 4 0.9849
2 0.9458 0.9849
0.9458 0.9849 0.965
262 13
262 13 15 4 0.9353
La prueba ha sido dura, dado que de un total de 294 pares solo 54 son realmente sinónimos (según el
Gold standar) y el resto pertenece a otra relación. La medida F al ser una medida armónica entre
precisión y recuerdo indica que este enfoque es 96% confiable en la tarea de confirmar y negar
relaciones tentativamente sinónimas.
Se ha realizado un análisis para determinar sobre que categoría gramatical se obtuvo mejores
resultados, los cuales se presentan en la siguiente tabla.
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 100
Tabla 6-26 Resultados por categoría gramatical
Categoría gramatical Total Correctos Porcentaje (%)
adj* 22 18 81.8181818
noun* 24 19 79.1666667
verb* 8 5 62.5
En la siguiente gráfica se aprecia, con más claridad, que se obtuvieron mejores resultados en los
adjetivos. Es importante mencionar que la categoría gramatical no es tomada en cuenta en nuestra
metodología de solución.
Gráfica 6-21 Tendencia de soluciones por categoría gramatical
Se analizó el impacto de los indicadores más representativos en la resolución final de los pares
(confirmando o negando la relación de sinonimia). Se muestra en la gráfica la cantidad de
intervenciones de cada indicador de un total de 49 pares que se resolvieron como sinónimos. Full no es
un indicador, solo representa la cantidad de pares que realmente son sinónimos.
81,81818182 79,16666667
62,5
0
20
40
60
80
100
adj* noun* verb*
Resolución correcta (sinónimos)
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 101
Gráfica 6-22 Influencia de las principales métricas en la confirmación correcta de 49 sinónimos
En cuanto al grado de sinonimia y de acuerdo al experimento con 9 conjuntos de sinónimos se
obtuvo una correlación de 0,743666827 al ser un numero positivo por arriba del 0.7 nos indica que es
coherente nuestro enfoque en la tarea de indicar los grados de fortaleza en la relación.
Para el caso de los antónimos se obtuvieron los siguientes resultados (sin considerar los pares
tomados del experimento de Cupertino).
Tabla 6-27 Resultados generales en el marco de antonimia
Total (pares) 80
Correctos 61
Incorrectos 4
Sin resolver 15
61
61 2 0.938
61
61 15 0.802
2 0.938 0.802
0.938 0.802 0.865
05
101520253035404550
49
14
26
3
36
11
1
7 2
Capítulo 6.- Pruebas y resultados
Adrián Cruz Hernández P á g i n a | 102
La medida F al ser una medida armónica entre precisión y recuerdo indica que este enfoque es 86%
confiable en el marco de antonimia.
Generalmente un usurario, considerará la confiabilidad del enfoque para evaluar pares sinónimos o
para evaluar pares antónimos, aun con ello se calculan los promedios para las medidas de precisión,
recuerdo y medida F, de los experimentos de sinonimia y antonimia, con el fin de tener una visión
general de los resultados alcanzados por nuestro enfoque de solución, el cual es capaz de confirmar y
negar relaciones de sinonimia y antonimia entre un par de unidades léxicas.
ó 0.93846 0.94584
2 0.942
0.80263 0.98496
2 0.893
0.86524 0.96500
2 0.915
Adrián Cruz Hernández P á g i n a | 103
Capítulo 7. Conclusiones y trabajos
futuros
En este capítulo se presentan las conclusiones obtenidas a través de la investigación y desarrollo de
este trabajo de tesis, las aportaciones que con ella se dejan, los trabajos futuros que se pueden
implementar para mejorar y complementar los resultados obtenidos.
Capítulo 7.- Conclusiones y trabajos futuros
Adrián Cruz Hernández P á g i n a | 104
7.1 Conclusiones
La evaluación de relaciones semánticas se alcanza con la validación de la relación (confirmando o
negando la relación) y el cálculo de fortaleza en la relación que comparten el par de unidades léxicas.
De acuerdo al análisis de resultados (sección 6.4), se puede decir que se ofrece una validación, de la
relación semántica de sinonimia, 96% confiable; mientras que para la relación de antonimia se ofrece
una confiabilidad del 86% en el proceso de validación. En el marco de evaluación se proporciona un
cálculo del grado de relación entre dos unidades léxicas, con una confiabilidad mayor al 74%.
En este trabajo de investigación se llegó a las siguientes conclusiones específicas:
La clasificación entre pares sinónimos y antónimos es relativamente fácil por una persona,
pero computarizar el proceso implica muchos retos, dado que las dos relaciones se dan entre
unidades léxicas que son semánticamente relacionadas pero solo la sinonimia provoca que
las unidades sean semánticamente similares, aunado a ello, existen otras relaciones
semejantes en términos de relación semántica que pueden provocar ruido como el formar
parte de falsos positivos.
Existen patrones que nos ayudan a identificar sinónimos y antónimos respectivamente, a pesar
de que estas dos relaciones comparten características semánticas.
Ha sido posible aumentar la cobertura de Wordnet, Wordreference y synonyms.net, en la tarea
de validar las relaciones de sinonimia y antonimia, aplicando métricas que ayudan a validar
las relaciones mencionadas.
La aproximación para cuantificar la relación de sinonimia y antonimia, propuesta en esta
investigación, se puede interpretar como el grado de fortaleza en la relación. Los valores se
encuentran en el rango del cero al uno, en donde el valor es proporcional al grado de
fortaleza en la relación, es decir, el cero indica ninguna relación y el uno indica una relación
total.
Ha sido posible implementar una estrategia para llevar a cabo la evaluación sin la necesidad de
contar con un corpus, la cual consiste en utilizar la web como fuente de datos.
Se utiliza una API de Google para hacer consultas a la web, este motor de búsqueda es de los
más confiables [105], [106], [107] y [108], sin embargo existen inconsistencias en algunos
casos, como por ejemplo, considerando el total de documentos que contienen a , y ( y )
con la funciones f( ), f( ) y f( , ) respectivamente; f( , ) debería tomar valores en el
rango [0, MIN(f( ),f( )] es decir la cantidad de documentos que contiene a los dos términos
debe tomar como valor máximo el mínimo entre f( ) y f( ), condición que no se cumple en
Capítulo 7.- Conclusiones y trabajos futuros
Adrián Cruz Hernández P á g i n a | 105
algunos casos, lo cual impactó en algunos resultados.
En la mayoría de las tareas bajo el marco de procesamiento de lenguaje natural es común
aplicar un etiquetado gramatical, en la tarea atacada en este trabajo resultó conveniente no
utilizar esa técnica, para poder procesar los datos sin depender de la cobertura y exactitud de
algún etiquetador. Aun cuando la sinonimia y antonimia comparten la característica de ser
relaciones que se dan entre palabras de la misma categoría gramatical, se obtuvieron
resultados alentadores.
En las ontologías no es común encontrar relaciones de sinonimia y antonimia.
Recursos como Wordnet, Wordreference y synonyms.net nos proporcionan apoyo en nuestra
tarea, sin embargo su cobertura es baja para dominios semi-específicos y aún más baja para
dominios específicos. La heurística propuesta no depende totalmente de estos recursos, y
generalmente se puede llegar a una solución aun sin considerarlos.
Basado en las conclusiones anteriores, se llegó a la siguiente conclusión general:
Es posible llevar a cabo la validación de sinonimia y antonimia mediante un proceso semiautomático,
sin la necesidad de contar con un corpus de dominio y haciendo uso de la web, para que esta sea la
fuente de datos y utilizar métricas para extender la cobertura de recursos como WordNet,
wordreference y synonyms.net, además de aplicar medidas estadísticas relativas a la semántica
relacional y similitud semántica para enriquecer la validación y poder proporcionar una grado de
fortaleza en la relación correspondiente, que complementada con la previa validación se logra una
evaluación de tales relaciones presentes en una ontología.
Es conveniente mencionar que este enfoque representa una evaluación de relaciones semánticas de
sinonimia y antonimia presentes en una ontología y se encuentra en el marco de una investigación
general que involucra otros trabajos para llevar a cabo una evaluación integral de ontologías de manera
semiautomática.
7.2 Aportaciones
Estado del arte sobre evaluación de ontologías, la relación de sinonimia y antonimia.
Una conjunto de reglas para validar tanto la relación de sinonimia como la de
antonimia.
Capítulo 7.- Conclusiones y trabajos futuros
Adrián Cruz Hernández P á g i n a | 106
Se deja disponible un método que permite obtener snippets (fragmentos de texto que
incluye el termino de búsqueda y su contexto) dado una cadena de búsqueda.
Método para obtener la cantidad de documentos que contienen un criterio de
búsqueda ya sea por búsqueda normal o exacta, donde la exacta hace coincidir
literalmente el término buscado, tal como cuando se utilizan comillas en la mayoría de
los motores de búsqueda disponibles como servicio web.
Módulo para obtener un conjunto de sinónimos de wordnet, wordreference y
synonmyms.net respectivamente, a partir de un término.
Una aproximación para cuantificar la relación de sinonimia y antonimia, cuyo valor se
puede interpretar como el grado de fortaleza en la relación.
Una aplicación web que permitirá evaluar pares sinónimos o antónimos.
La herramienta se deja disponible para apoyar en el proceso de evaluación de ontologías, sin
embargo, en la versión actual se puede utilizar como apoyo en otras tareas como en la alineación de
ontologías (Ontology alignment, ó ontology matching), y como soporte en la identificación o generación
de sinónimos y antónimos, tal como el que se ofreció a un grupo de investigación del Instituto Mexicano
del Petróleo (IMP) en el proceso de crear una ontología en la que necesitaban incluir sinónimos y
antónimos del dominio de Recuperación Mejorada del Petróleo. Los datos en concreto no se reportan
por las políticas del proyecto que prohíben la reproducción total o parcial al momento de redactar la
presente tesis, sin embargo es posible comentar que la herramienta sirvió de soporte para varios pares
(de un total de 163) tanto en la confirmación como negación de la relación de sinonimia y que más
tarde se corroboraron con 2 expertos del dominio y personal involucrado en el proyecto. Este
experimento permitió negar la relación de sinonimia entre pares en donde se habían cometido errores
sintácticos al capturarlos, además de pares que sintácticamente eran correctos pero en realidad no
compartían una relación de sinonimia. Cabe mencionar que este dominio es específico y el vocabulario
utilizado es muy particular de tal dominio, y la mayoría de la unidades léxicas no se encontraban en
recursos como WordNet, con lo que se confirma la mayor cobertura ofrecida por la propuesta en esta
investigación respecto a recursos como WordNet, WordReference y synonyms.net.
7.3 Trabajos futuros
En esta sección se abordan los trabajos futuros posibles respecto a la investigación realizada.
Aplicar un etiquetado gramatical para considerarse como indicador el hecho de que las unidades
Capítulo 7.- Conclusiones y trabajos futuros
Adrián Cruz Hernández P á g i n a | 107
léxicas del par pertenezcan a la misma relación, implementando una estrategia para que no impacte la
cobertura de los etiquetadores respecto al vocabulario a procesar, es decir que aun cuando los
etiquetadores no sean capaces de especificar una categoría gramatical para ciertas unidades léxicas,
esto no afecte negativamente la validación. Cabe mencionar que esta actividad será más compleja a
medida que el dominio sea más específico y que la mayoría de los etiquetadores mejoran sus resultados
si se cuenta con un contexto, es decir etiquetan mejor los elementos de una frase que una sola unidad
léxica.
Desarrollar una herramienta dedicada al alineamiento ontológico que haga uso de la herramienta
actual, afín de calcular en qué grado se mejora el proceso respecto a otras propuestas.
Realizar un estudio profundo de resultados de la metodología en dominios específicos a fin de
cuantificar en qué grado se tiene una mayor cobertura respecto a recursos de propósito y dominio
general como WordNet.
Adrián Cruz Hernández P á g i n a | 108
Bibliografía
[1] Christian M. Meyer and Iryna Gurevych, "Constructing an Ontology from the Collaborative Online
Dictionary Wiktionary," in Semi-Automatic Ontology Development: Processes and Resources. USA:
Information Science Reference, 2012, ch. 6, pp. 131-161.
[2] Tartir Samir, I. Budak Arpina, and Amit P. Sheth, "Ontological Evaluation and Validation," in Theory
and Applications of Ontology: Computer Applications, Roberto Poli, Michael Healy, and Achilles
Kameas, Eds.: Springer, 2010, ch. 5, Book Chapter.
[3] V. Milea, F. Frasincar, and U. Kaymak, "tOWL: A Temporal Web Ontology Language," IEEE
Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. PP Issue:99 , pp. 1-14,
Bibliografía
Adrián Cruz Hernández P á g i n a | 109
Agosto 2011, 10.1109/TSMCB.2011.2162582.
[4] Asunción Gómez Pérez, Ontology Evaluation.: International Handbooks on Information Systems.
Springer, 2004.
[5] R. Mizoguchi, "Tutorial on ontological engineering - part 1: Introduction to Ontological Engineering,"
New Generation Computing, vol. 21, no. 4, pp. 365-384, 2003.
[6] Asunción Gómez-Pérez, Mariano Fernandez-Lopez, and Oscar Corcho, Ontological Engineering, 1st
ed. London: Springer Verlag, 2004.
[7] M. Hepp, P. De Leenheer, and A. De Moor, "Ontology management," semantic web, semantic web
services, and business applications, 2007.
[8] Tom R. Gruber, "Toward principles for the design of ontologies used for knowledge sharing.,"
Knowledge Systems Laboratory, USA, 1993.
[9] R. Studer, V. R. Benjamins, and D. Fensel, "Knowledge engineering: principles and methods," Data &
knowledge engineering, vol. 25, no. 1-2, pp. 161–197, 1998.
[10] Y. Sure and R. Studer, "Semantic Web Technologies for Digital Libraries," in Library Management.,
2005, vol. 26, pp. 190-195.
[11] N. Guarino, "Formal Ontology and Information Systems.," in International Conference on Formal
Ontology Information Systems, Trento, Italy, 1998, pp. 3-15.
[12] O. Corcho, M. Fernández-López, and A. Gómez-Pérez, "Methodologies, tools and languages for
building ontologies: where is their meeting point?," in Data & Knowledge Engineering, 2003, pp. 41-
64.
[13] R. Jasper and M. Uschold, "A Framework for Understanding and Classifying Ontology Applications,"
in Proceedings of the IJCAI-99 workshop on Ontologies and Problem-SolvingMethods (KRR5) in the
different communities to overcome terminological, Amsterdam, 1999, pp. 1-2.
[14] Marc Ehrig, Ontology Alignment: Bridging the Semantic Gap, Semantic Web And Beyond Computing
for Human Experience ed., Remesh Jain and Amit Sheth, Eds.: Springer, 2007, vol. 4.
[15] Asunción Gómez-Pérez and María del Carmen Suárez-Figueroa, "cenarios for building ontology
networks within the NeOn methodology," in K-CAP, Yolanda Gil and Natasha Fridman Noy, Eds.
California, USA: ACM, 2009, pp. 183-184.
[16] Denny Vrandečić, "Ontology valuation," PhD thesis, Institut AIFB, Karlsruh, Germany, 2010.
[17] Häser Florian Ferula Patrick, "Ontology Evaluation," Seminar in Applied Ontology Engineering WS
2010.
[18] Juan Carlos Tordera Illescas, "LINGÜÍSTICA COMPUTACIONAL Y ANÁFORA," Universitat De
València (Estudi General), Tesis doctoral 2010.
Bibliografía
Adrián Cruz Hernández P á g i n a | 110
[19] Ojala Juha, Mental processes are spatially embodied, International Semiotics Institute at Imatra ed.,
Eero Tarasti, Ed. Imatra, Finlandia: Hakapaino, 2009.
[20] Sue Ellen Wright, "From the semiotic triangle to the semantic web," Journal of the International
Institute for Terminology Research, vol. 14, pp. 111-135, 2003.
[21] Prof. Argenis A. Zapata, "Semantic Relationships," Universidad de Los Andes, Theoretical foundation
for English4 2008.
[22] J Lyons, Semantics. Cambridge: Cambridge University Press, 1997.
[23] Enrique Alcaraz and M. Antonia Martínez, Diccionario de lingüística moderna. Barcelona, España:
Ariel, 2004.
[24] M. Gellerstam, "Lexical resources and their application," in Proceedings of the 1st Trans-European
Language Resources Infrastructure (TELRI) Seminar on Language Resources for Language
Technology, Tihany, Hungary, 1995, pp. 57-64.
[25] J. Sinclair, Corpus, concordance, collocation. New York, USA: Oxford University Press, 1991.
[26] G Miller, "WORDNET: A Lexical Database for English. Communications," in ACM (11), 1995, pp. 39-
41.
[27] WordNet 3.0 database statistics. [Online]. http://wordnet.princeton.edu/wordnet/man/wnstats.7WN.html
[28] Google. (2012, Agosto) Google Developers - Custom Search. [Online].
https://developers.google.com/custom-search/v1/overview?hl=es
[29] Vishwadeepak Singh: Tripathi, S. P. Baghela, "Text Mining Approaches To Extract Interesting
Association Rules from Text Documents," International Journal of Computer Science Issues, vol. 9, no.
3, pp. 545-552, May 2012.
[30] M. Hearst, "What is text mining," in Retrieved, 2005.
[31] Roberto Navigli, "Word Sense Disambiguation: a survey," ACM COMPUTING SURVEYS, vol. 41, no.
2, pp. 1-69, 2009.
[32] A. Budanitsky and G. Hirst, "Evaluating wordnet-based measures of semantic distance," in
Computational Linguistics, 2006.
[33] A. Budanitsky and G. Hirst, "Semantic Distance in WordNet: An Experimental, Application-Oriented
Evaluation of Five Measures," in Workshop on WordNet and Other Lexical Resources, Second meeting
of the North American Chapter of the Association for Computational Linguistics, Pittsburgh, 2001.
[34] G. Hirst and D. St-Onge, "Lexical Chains as Representations of Context for the Detection and
Correction of Malapropisms," in Wordnet: An Electronic Lexical Database, C. Fellbaum, Ed.: MIT
Press, 1998, pp. 305-332.
Bibliografía
Adrián Cruz Hernández P á g i n a | 111
[35] C. Leacock and M. Chodorow, "Combining Local Context and Wordnet Similarity for Word Sense
Identification," in Wordnet: An Electronic Lexical Database, C. Fellbaum, Ed.: MIT Press, 1998, pp.
265-283.
[36] P. Resnik, "Using Information Content to Evaluate Semantic Similarity in a Taxonomy," in Proc. of the
14th International Joint Conference on Artificial Intelligence, 1995, pp. 448-453.
[37] J. Jiang and D Conrath, "Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy," in
Proc. of International Conference on Research in Computational Linguistics, 1997, pp. 19-33.
[38] D. Lin, "An Information-Theoretic Definition of Similarity," in Proc. of International Conference on
Machine Learning, Wisconsin, 1998.
[39] Zellig Harris, "istributional structure," in Word, vol. 10, 1954, pp. 146-162.
[40] R. Cilibrasi and P. Vitany, "Automatic Meaning Discovery Using Google: 100 Experiments in Learning
WordNet Categories," 2004.
[41] Danushka Bollegala, Mitsuru Ishizuka, and Yutaka Matsuo, "Measuring semantic similarity between
words using web search engines," in WWW´07: Proceedings of the 16th international conference on
World Wide Web, New York, NY, USA, 2007, pp. 757-766.
[42] Fan Teng-Kai and Chang Chia-Hui, "Sentiment-Oriented Contextual Advertising," in Advances in
Information Retrieval, Mohand Boughanem et al., Eds.: Springer Berlin / Heidelberg, 2009, vol. 5478,
pp. 202-215, http://in2.csie.ncu.edu.tw/~chia/pub/SOCA.pdf.
[43] Janez Brank, Marko Grobelnik, and Dunja Mladenić, "Automatic evaluation of ontologies," in Natural
Language Processing and Text Mining, Stephen R. Poteet Anne Kao, Ed.: Springer, 2007, pp. 193-219.
[44] A Maedche and S. Staab, "Measuring Similarity between Ontologies," in Knowledge Engineering and
Knowledge Management: Ontologies and the Semantic Web.: Springer, 2002, vol. 2473, pp. 251-263.
[45] R Porzel and R. Malaka, "A task-based approach for ontology evaluation," in Workshop on Ontology
Learning and Population (ECAI 2004), Valencia, Spain, 2004, pp. 9-16.
[46] Christopher: Alanim Harith Brewster, Srinandan Dasmahapatra, and Yorick Wilks, "Data driven
ontology evaluation," in Proceedings of International Conference on Language Resources and
Evaluation Conference (LREC 2004), Paris - France: European Language Resources Association, 2004,
pp. 164-168, Lisbon - Portugal: Centro Cultural de Belem.
[47] Adolfo Lozano-Tello and Asunción Gomez-Perez, "ONTOMETRIC: A Method to Choose the
Appropriate Ontology," Journal of Database Management (JDM), vol. 15, no. 2, pp. 1-18, 2004.
[48] A. Burton-Jones, V. Storey, V. Suguraman, and P. Ahluwalia, "A Semiotic Metrics Suite for Assessing
the Quality of Ontologies," in Data & Knowledge Engineering, vol. 55, 2005 , pp. 84-102.
[49] A. Gómez-Pérez, "Towards a framework to verify knowledge sharing technology," Expert Systems with
Applications, vol. 11, pp. 519-529, November 1996.
Bibliografía
Adrián Cruz Hernández P á g i n a | 112
[50] M. Fox, M. Barbuceanu, M. Gruninger, and J. Lin, "An Organization Ontology for Enterprise
Modelling," in Simulating Organizations: Computational Models of Institutions and Groups., 1998, pp.
131-152, CA: AAAI/MIT Press.
[51] A. Burton, V. Storey, V. Suguraman, and P. Ahluwalia, "A Semiotic Metrics for Assessing the Quality
of Ontologies," in Data & Knowledge Engineering, vol. 55, 2005 , pp. 84-102.
[52] Iván Cantador, Miriam Ferández, and Pablo Castells, "A collaborative recommendation framework for
ontology evaluation and reuse," in In Actas de International Workshop on Recommender Systems, en la
17th European Conference on Artificial Intelligence (ECAI 2006), Riva del Garda, Italia, 2006, pp. 67–
71.
[53] Lopez Vanessa, Motta Enrico, and Uren Victoria Sabou Marta, "Ontology selection: Ontology
evaluation on the real semantic web," , 2006.
[54] Catenacci Carola, Ciaramita Massimiliano, and Lehmann Jos Gangemi Aldo, "Ontology evaluation and
validation - an integrated formal model for the quality diagnostic task," 2005.
[55] Peter Spyns and Marie-Laure Reinberger, "Lexically evaluating ontology triples generated
automatically from texts," in In Asunción Gómez-Pérez and Je Euzenat, editors, ESWC, volume 3532 of
Lecture Notes in Computer Science. Springer, 2005, pp. 563–577.
[56] Janez Brank, Dunja Mladenić, and Marko Grobelnik, "Gold standard based ontology evaluation using
instance assignment," in In Proceedings of the 4th Workshop on Evaluating Ontologies for the Web
(EON2006), 2006.
[57] Chintan Patel, Kaustubh. Supekar, Yugyung Lee, and E. K. Park, "OntoKhoj: a semantic web portal for
ontology searching, ranking and classification," in Proceedings of the 5th ACM international workshop
on Web information and data management, 2003, pp. 58-61.
[58] Spyns Peter, "Evalexon: Assessing triples mined from text," Vrije Universiteit Brussel, 2005.
[59] Jaimie Murdock, Cameron Buckner, and Colin Allen, "Two methods for evaluating dynamic
ontologies," in Proceedings of the 2nd International Conference on Knowledge Engineering and
Ontology Development, Valencia, Spain, 2010.
[60] K Supekar, "A Peer-review Approach for Ontology Evaluation - July 18-21, 2005 - Madrid, Spain," in
8th Intl. Protégé Conference, Madrid, Spain, 2005, pp. 77-79.
[61] David A. Jurgens, Peter D. Turney, Saif M. Mohammad, and Keith J. Holyoak, "SemEval-2012 task 2:
measuring degrees of relational similarity," in The First Joint Conference on Lexical and
Computational Semantics -- Volume 1: Proceedings of the main conference and the shared task, and
Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation (SemEval 2012).
Montréal Canada, USA: Association for Computational Linguistics, 2012, pp. 356--364.
[62] Joachims Thorsten, "Training linear SVMs in linear," in Proceedings of the 12th ACM SIGKDD
international conference KDD ’06, New York, USA, 2006, p. 217.
Bibliografía
Adrián Cruz Hernández P á g i n a | 113
[63] Lanza S. Fernández and A. Sobrino, "Análisis del grado de sinonimia de un diccionario de sinónimos,"
in Actas del VIII Congreso Español sobre Tecnologías y Lógica Fuzzy, 1998,
http://www.softcomputing.es/estylf08/es/1998-VIII%20Congreso/VIII%20Congreso/05-
%20Sesi%C3%B3n%20de%20Comunicaciones,%20Aplicaciones%20I.pdf.
[64] H. Mandani, "Aplication of Fuzzy Logic to Aproximate Reasoning using Linguistic Synthesis," in IEEE
Trans. on Computers, 1988.
[65] Dekang Lin, "An Information-Theoretic Definition of Similarity," in Proceedings of International
Conference on Machine Learning, 1998, http://webdocs.cs.ualberta.ca/~lindek/papers/sim.pdf.
[66] J. Curran, "Ensemble methods for automatic thesaurus extraction," in Empirical Methods in Natural
Language Processing (EMNLP 2002), 2002, pp. 222-229.
[67] Preslav Nakov and Marti A. Hearst, "Solving Relational Similarity Problems Using the Web as a
Corpus," in ACL 2008, Proceedings of the 46th Annual Meeting of the Association for Computational
Linguistics, June 15-20, 2008, Columbus, Ohio, USA.: The Association for Computer Linguistics, 2008,
pp. 452-460.
[68] C. Sreedha Vugranam and Zdancewic Steve, Proceedings of the 2006 Workshop on Programming
Languages and Analysis for Security, PLAS 2006, Ottawa, Ontario, Canada, June 10, 2006.: ACM,
2006.
[69] Franz Josef Och and Hermann Ney, "A Systematic Comparison of Various Statistical Alignment
Models," Computational Linguistics, vol. 29, no. 1, pp. 19-51, 2003.
[70] Adam Kilgarriff and Gregory Grefenstette, "Introduction to the Special Issue on the Web as Corpus,"
Computational Linguistics, vol. 29, no. 3, pp. 333-348, 2003.
[71] Diana Zaiu Inkpen, "Near-Synonym Choice in an Intelligent Thesaurus," in Human Language
Technology Conference of the North American Chapter of the Association of Computational
Linguistics, Proceedings, April 22-27, 2007, Rochester, New York, USA.: The Association for
Computational Linguistics, 2007.
[72] S. Nakov, P. Nakov, and E. Paskaleva, "Cognate or False Friend? Ask the Web!," in In Proceedings of
the Workshop on Acquisition and Management of Multilingual Lexicons, held in conjunction with
RANLP'2007, Borovetz, Bulgaria, 2007, pp. 55-62.
[73] Hsin-Hsi Chen, Ming-Shun Lin, and Yu-Chuan Wei, "Novel association measures using web search
with double checking," in Proceedings of the 21st International Conference on Computational
Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Sydney,
Australia: Association for Computational Linguistics, 2006, pp. 1009-1016.
[74] Danushka Bollegala, Yutaka Matsuo, and Mitsuru Ishizuka, "An Integrated Approach to Measuring
Semantic Similarity between Words Using Information Available on the Web," in Human Language
Technology Conference of the North American Chapter of the Association of Computational
Linguistics, roceedings, April 22-27, 2007, Rochester, New York, USA, Candace Sidner L. et al., Eds.:
The Association for Computational Linguistics, 2007, pp. 340-347.
Bibliografía
Adrián Cruz Hernández P á g i n a | 114
[75] Mehran Sahami and Timothy D. Heilman, "A web-based kernel function for measuring the similarity of
short text snippets," in WWW.: ACM, 2006, pp. 377-386.
[76] David Sánchez and Antonio Moreno, "Automatic discovery of synonyms and lexicalizations from the
Web," in Proceedings of the 2005 conference on Artificial Intelligence Research and Development,
Amsterdam, The Netherlands, The Netherlands, 2005, pp. 205--212.
[77] Masato Hagiwara, Yasuhiro Ogawa, and Katsuhiko Toyama, "Effectiveness of Indirect Dependency for
Automatic Synonym Acquisition," in Proceedings of CoSMo 2007 Workshop, held in conjuction with
CONTEXT 2007, Roskilde, Denmark, 2007, pp. 333-347.
[78] Walter G. Charles and George A. Miller, "Contexts of antonymous adjectives," in Applied Psychology,
1989, pp. 357-375.
[79] James Deese, "The structure of associations in language and thought," , 1965.
[80] John S. Justeson and Slava M. Katz, "cooccurrences of antonymous adjectives and their contexts," in
Computational Linguistics, 1991, pp. 1-19.
[81] Christiane Fellbaum, "Co-occurrence and antonymy," in International Journal of Lexicography, 1995,
pp. 281-303.
[82] Dekang Lin, Shaojun Zhao, Lijuan Qin, and Ming Zhou, "Identifying synonyms among distributionally
similar words," in In Proceedings of the 18th International Joint Conference on Artificial Intelligence,
Acapulco, México, 2003, pp. 1492-1493.
[83] Maire Weir Kay, "Webster’s Collegiate Thesaurus," 1988.
[84] Peter Turney, "Auniform approach to analogies, synonyms, antonyms, and associations," in In
Proceedings of the 22nd International Conference on Computational Linguistic (COLING-08),
Manchester, UK, 2008, pp. 905-912.
[85] Sanda M. Harabagiu, Andrew Hickl, and Finley Lacatusu, "Lacatusu: Negation, contrast and
contradiction in text processing," in In Proceedings of the 23rd National Conference on Artificial
Intelligence (AAAI-06), Boston, MA, 2006.
[86] Lucero Cupertino, Pinto David, and Jiménez-Salazar Héctor, "Identificación Automática de
Antónimos," in 2do. Congreso Nacional de Ciencias de la Computación, 2004.
[87] Didier Schwab, Mathieu Lafourcade, and Violaine Prince, "Antonymy and conceptual vectors," in In
Proceedings of the 19th International Conference on Computational Linguistics (COLING-02), 2002,
pp. 904-910.
[88] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan, "Thumbs up?: sentiment classification using
machine learning techniques," in In Proceedings of the Conference on Empirical Methods in Natural
Language Processing, Philadelphia, PA, 2002, pp. 79-86.
[89] Rosa M. Ortega-Mendoza, Luis Villaseñor-Pineda, and Manuel Montes-y-Gómez, "Using lexical
patterns for extracting hyponyms from the web," in Proceedings of the artificial intelligence 6th
Bibliografía
Adrián Cruz Hernández P á g i n a | 115
Mexican international conference on Advances in artificial intelligence, Aguascalientes, Mexico, 2007,
pp. 904-911.
[90] Rosa María Ortega, César Aguilar, Manuel Montes Luis Villaseñor, and Gerardo Sierra, "Hacia la
identificación de rlaciones de hiponimia/hiperonimia en internet," Revista Signos, vol. 44, no. 75, pp.
68-84, marzo 2011.
[91] Steven Jones, Murphy Lynne, Carita Paradis, and Caroline Willners, "Using web data to investigate
antonym canonicity," in Corpus Linguistics, Birmingham, 2007, pp. 129-154,
http://www.lunduniversity.lu.se/o.o.i.s?id=24732&postid=1775068.
[92] Davies Matt, "Oppositions in News Discourse: the ideological construction of us and them in,"
University of Huddersfield, Huddersfield, West Yorkshire, UK, Doctoral thesis 2008.
[93] H. Yu, V. Hatzivassiloglou, C. Friedman, A. Rzhetsky, and W. J. Wilbur, "Automatic extraction of
gene and protein synonyms from MEDLINE and journal articles," Proc AMIA Symp, pp. 919-923,
2002, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2244511/#reference-sec.
[94] John McCrae and Nigel Collier, "Synonym set extraction from the biomedical literature by lexical
pattern discovery," BMC Bioinformatics, vol. 9, March 2008, http://www.biomedcentral.com/1471-
2105/9/159.
[95] Saif Mohammad, Bonnie J. Dorr, and Graeme Hirst, "Computing Word-Pair Antonymy," in Conference
on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, USA, 2008, pp. 982-991.
[96] Gintare Grigonyte, João Cordeiro, and Gaël Dias, "Paraphrase Alignment for Synonym Evidence
Discovery," in COLING 2010, 23rd International Conference on Computational, Beijing, China, 2010,
pp. 403-411, http://aclweb.org/anthology-new/C/C10/C10-1046.pdf.
[97] Shalini Batra and Seema Bawa, "Semantic Categorization of Web Services," International Journal of
Recent Trends in Engineering, vol. 2, no. 3, pp. 19-23, November 2009.
[98] Jorge Gracia et al., "Challenges for the multilingual Web of Data," Journal Web Semantics: Science,
Services and Agents on the World Wide Web, vol. 11, pp. 63-71, Marzo 2012,
http://oa.upm.es/8848/1/Multiling.pdf.
[99] Nong Ye, The Handbook of Data Mining. Mahwah, NJ: Lawrence Erlbaum Associates, 2003.
[100] A Kent, "Machine literature searching.," 1955.
[101] G Salton and M, J McGill, "Introduction to Modern Information Retrieval.," New York, 1983.
[102] W, B Frakes and Y, R Baeza, "Information Retrieval: data structures and Algorithms.," México, 1992.
[103] J, A Swets, "Information retrieval Systems," 1963.
[104] Goffman and Newill, "Methodology for test and evaluation of information retrieval systems.," 1964.
Bibliografía
Adrián Cruz Hernández P á g i n a | 116
[105] Atsaros Georgios, Spinellis Diomidis, and Louridas Panagiotis, "Site-Specific versus General Purpose
Web Search Engines: A Comparative Evaluation," in PCI 2008: 12th Panhellenic Conference on
Informatics, Samos, Greece, 2008, pp. 44-48, http://www.dmst.aueb.gr/dds/pubs/conf/2008-PCI-
WebSearch/html/ASL08.htm.
[106] Ahmad Usmani Tauqeer, Pant Durgesh, and Kumar Bhatt Ashutosh, "A Comparative Study of Google
and Bing," International Journal on Computer Science and Engineering, vol. 4, no. 01, pp. 21-34,
January 2012, ISSN : 0975-3397.
[107] B.T. Sampath Kumar and J.N. Prakash, "Precision and Relative Recall of Search Engines: A
Comparative Study of Google and Yahoo," Singapore Journal of Library & Information Management,
vol. 38, pp. 124-137, 2009.
[108] Pandey Parbati, "Search Engines," INFOLIB JOURNAL, vol. 4, no. 4, pp. 33-35, 2011,
http://www.infolib.edu.np/index.php/IJ/article/view/70/69.
[109] NIkos Malandrakis, Elias Iosif, and Alexandros Potamianos, "DeepPurple: Estimating Sentence
Semantic Similarity using N-gram Regression Models and Web Snippets," in The First Joint
Conference on Lexical and Computational Semantics -- Volume 1: Proceedings of the main conference
and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic
Evaluation
[110] Graciela E. Barchini and Margarita M. Álvarez, "Dimensiones e indicadores de la calidad de una
ontología," Avances en Sistemas e Informática, pp. 29-38, Marzo 2010.
[111] M.A. Capellades, "Assessment of reusability of ontologies: a practical example," in Proceedings of
AAAI1999 Workshop on Ontology Management, 1999, pp. 74–79.
[112] E. Paslaru-Bontas, "Practical experiences in building ontology-based retrieval systems," in Proceedings
of the First International ISWC Workshop on Semantic Web Case Studies and Best Practices for
eBusiness SWCASE, 2005.
[113] H.S. Pinto and J.P. Martins, "A methodology for ontology integration," in Proceedings of the
International Conference on Knowledge Capture K-CAP, 2001, pp. 131–138.
[114] Waloszek Wojciech, "MEASURES FOR EVALUATION OF STRUCTURE AND SEMANTICS OF
ONTOLOGIES," Metrology and Measurement Systems, vol. XIX, no. 2, pp. 343-354, 2012.
[115] Luiz Carvalheira and Edson Gomi, "A Method for Semi-automatic Creation of Ontologies Based on
Texts," in Advances in Conceptual Modeling – Foundations and Applications. Sao Paulo, SP Brazil:
Springer Berlin / Heidelberg, 2007, vol. 4802, pp. 150-159.
[116] P. Velardi, R. Navigli, and A. Cucchiarelli, "Evaluation of OntoLearn, a methodology for automatic
learning of domain ontologies," in Ontology Learning from Text: Methods, evaluation and applications.
Amsterdam: IOS Press, 2005, pp. 92-106.
[117] Peter. Spyns, "Evalexon: Assessing triples mined from text, STAR LAB technical report," Vrije
Universiteit Brussel, 2005.
Bibliografía
Adrián Cruz Hernández P á g i n a | 117
[118] N. Guarino and C. Welty, "Evaluating ontological decisions with OntoClean," Communications of the
ACM, vol. 45, no. 2, pp. 61-65, February 2002.
[119] Yael Netzer, David Gabay, Meni Adler, Yoav Goldberg, and Elhadad Michael, "Ontology Evaluation
through Text Classification," , Berlin, Heidelberg, 2009.
Anexos
Adrián Cruz Hernández P á g i n a | 118
Anexos
Anexos
Adrián Cruz Hernández P á g i n a | 119
Anexo 1. Algoritmos desarrollados
Algoritmo 1 HLP
Anexos
Adrián Cruz Hernández P á g i n a | 120
Algoritmo 2 isHLP
Algoritmo 3 AWeb
Anexos
Adrián Cruz Hernández P á g i n a | 121
Algoritmo 4 isAWeb
Algoritmo 5 SWeb
Anexos
Adrián Cruz Hernández P á g i n a | 122
Algoritmo 6 isSWeb
Algoritmo 7 SWNT
Algoritmo 8 isSWNT
Anexos
Adrián Cruz Hernández P á g i n a | 123
Algoritmo 9 SWRF
Algoritmo 10 isSWRF
Anexos
Adrián Cruz Hernández P á g i n a | 124
Algoritmo 11 AWNT
Algoritmo 12 isAWNT
Anexos
Adrián Cruz Hernández P á g i n a | 125
Algoritmo 13 isASTT
Algoritmo 14 isASTT_array
Anexos
Adrián Cruz Hernández P á g i n a | 126
Algoritmo 15 isASTT_matrix
Algoritmo 16 isASTT_sffx
Anexos
Adrián Cruz Hernández P á g i n a | 127
Algoritmo 17 DJWatson
Algoritmo 18 EQCWatson
Anexos
Adrián Cruz Hernández P á g i n a | 128
Algoritmo 19 WebPPH
Anexos
Adrián Cruz Hernández P á g i n a | 129
Anexo 2. Heurística
Este anexo contiene la heurística que se menciona en la sección 5.1.3, la heurística está representada
a través de árboles de decisión para la sinonimia y antonimia respectivamente.
Por motivos de espacio dividimos el árbol en 7 partes desde Tree01 a Tree07 para la sinonimia, y de
TreeA01 a TreeA07 para la antonimia.
A continuación se presentan los arboles de decisión para la validación de sinonimia, las hojas pueden
tomar los valores de S, O, N y Tree0N; donde S indica que se confirma la relación, O que la relación es
otra (diferente a la sinonimia), N que no fue posible confirmar o negar la relación, mientras que Tree0N
indica que las reglas continúan en el siguiente árbol.
Anexos
Adrián Cruz Hernández P á g i n a | 130
Tree01
Anexos
Adrián Cruz Hernández P á g i n a | 131
Tree02
Anexos
Adrián Cruz Hernández P á g i n a | 132
Tree03
Anexos
Adrián Cruz Hernández P á g i n a | 133
Tree04
Anexos
Adrián Cruz Hernández P á g i n a | 134
Tree05
Anexos
Adrián Cruz Hernández P á g i n a | 135
Tree06
Anexos
Adrián Cruz Hernández P á g i n a | 136
Tree07
Anexos
Adrián Cruz Hernández P á g i n a | 137
Para la antonimia se espera llegar a las hojas con los valores A, O, N y TreeA0N; donde A indica que se
confirma la relación, O que la relación es otra (diferente a la antonimia), N que no fue posible confirmar
o negar la relación, mientras que TreeA0N indica que las reglas continúan en el siguiente árbol. El árbol
se presenta por partes desde TreeA01 hasta TreeA07, por motivos de espacio.
TreeA01
Anexos
Adrián Cruz Hernández P á g i n a | 138
TreeA02
Anexos
Adrián Cruz Hernández P á g i n a | 139
TreeA03
Anexos
Adrián Cruz Hernández P á g i n a | 140
TreeA04
Anexos
Adrián Cruz Hernández P á g i n a | 141
TreeA05
Anexos
Adrián Cruz Hernández P á g i n a | 142
TreeA06
Anexos
Adrián Cruz Hernández P á g i n a | 143
TreeA07