View
87
Download
0
Category
Tags:
Preview:
DESCRIPTION
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents. - PowerPoint PPT Presentation
Citation preview
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su
Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo
Tesis doctoralLaura Plaza Morales
Dirigida por Dr. D. Pablo Gervás Gómez-Navarro
Dr. D. Alberto Díaz Esteban
2Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contents
1. Introduction2. Using Semantic Graphs in Automatic
Summarization3. Case Studies4. Evaluation5. Conclusions and Future Work
3
Contenidos
1. Introducción• Definición del Problema• Motivación y Contribución
2. Uso de Grafos Semánticos para la Generación Automática de Resúmenes
3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo FuturoUso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
4Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema
Resumen: Transformación de uno o varios documentos mediante reducción de su contenido
• Selección de lo importante Extracción
• Generalización de lo importante Abstracción
Predominio de los enfoques por extracción
Sobrecarga de información• Resúmenes mono-documento• Resúmenes multi-documento
Introducción – Definición del Problema
5Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
La Generación Automática de Resúmenes (GAR) es una tarea compleja• Detección de temas
• Desambiguación léxica y semántica
• Resolución de acrónimos
• Resolución de anáforas y referencias
• Simplificación y fusión de oraciones
• Eliminación de redundancia
6Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema
Técnicas de generación de resúmenes por extracción• Enfoques superficiales
‒ Posición de las oraciones
‒ Frecuencias de los términos
‒ Expresiones o frases indicativas
• Técnicas discursivas‒ Análisis de la estructura del discurso y de las relaciones entre
términos
• Técnicas basadas en grafos
Introducción – Motivación y Contribución
7Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Problema: Representación del documento mediante información que se extrae directamente del documento (palabras u oraciones)
1. Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.
2. Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.
El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los
resúmenes generados
8Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Problema: Sistemas genéricos frente a sistemas especializados
• Sistemas genéricos: Capaces de generar resúmenes de cualquier tipo de documento, a costa de reducir la calidad del resultado
• Sistemas especializados: Capaces de generar resúmenes de mayor calidad, aunque restringidos a un único dominio de aplicación
Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de
diferentes dominios
9Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Problema: Ningún intento por resolver abreviaciones
Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación
Problema: Ningún intento por resolver la ambigüedad
Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada
dominio/fuente de conocimiento
10Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Método genérico para la GAR de textos de diferentes tipologías y campos de conocimiento• Representación del documento como un grafo de conceptos y relaciones
del dominio
• Técnicas de agrupamiento para detectar grupos de conceptos fuertemente relacionados, que determinan los distintos temas tratados en el documento
Generación de distintos tipos de resúmenes en función del contenido deseado
Estudio del efecto de la ambigüedad y la presencia de acrónimos
Evaluación del método en tres dominios
11
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
12Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Arquitectura
13Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa I: Pre-procesado
1. Eliminación de secciones irrelevantes
2. Eliminación de palabras vacías
3. Extracción del cuerpo, título y abstract
4. Segmentación en oraciones (GATE)
<CONFIG> <CATEGORY name "DOCUMENT_PREPROCESSING"> <PROPERTY name =“FORMAT”></PROPERTY> <PROPERTY name =“IGNORED_TAGS”></PROPERTY> <PROPERTY name = “STOP_LIST”></PROPERTY> </CATEGORY> <CATEGORY name ="TAG"> <PROPERTY name ="XML_TITLE“></PROPERTY> <PROPERTY name ="XML_ABSTRACT“></PROPERTY> <PROPERTY name ="XML_BODY"></PROPERTY> … </CATEGORY> …..</CONFIG>
Etapa II: Traducción de Oraciones a Conceptos
Objetivo: Traducir del léxico de cada oración a conceptos del dominio
Requisitos:• Base de conocimiento
• Mecanismo de traducción
• Algoritmo de desambiguación (WSD)
14Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Oración: término1 término2 … términon
WSD
concepto1 concepto2 … concepton
BC
<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> </CATEGORY> <CATEGORY name =“CONCEPT_FILTER"> <PROPERTY name =“FILTER_1”></PROPERTY> </CATEGORY> …..</CONFIG>
Etapa III: Representación de la Oración
15Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Objetivo: Crear una jerarquía de conceptos que representa a cada oración
Requisitos:
• Relación de hiperonimia en la base de conocimiento
• Definir los niveles de la jerarquía a ignorar
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,3,n-1,n}
hiperónimo{2,3,n-1,n}
hiperónimo{3,n-1,n}
hiperónimo{n-1,n}
hiperónimon-1
concepton-1
hiperónimo3
concepto3
hiperónimon
concepton
hiperónimo2
hiperónimo2
…
concepto2
…
…
hiperónimo{1,2,3,n-1,n}
Etapa IV: Representación del Documento
16Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento1. Fusionar los grafos de las oraciones
2. Añadir nuevas relaciones entre conceptos
3. Asignar pesos a las aristas del grafo
17Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> <PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY> </CATEGORY> <CATEGORY name =“RELATIONS"> <PROPERTY name =“HYPERNYMY”>YES</PROPERTY> <PROPERTY name =“RELATION_1”></PROPERTY> <PROPERTY name =“RELATION_2”></PROPERTY>
… </CATEGORY> <CATEGORY name “HYPERNYMY"> <PROPERTY name =“WEIGTH”></PROPERTY> </CATEGORY> …..</CONFIG>
Etapa IV: Representación del Documento
Requisitos:
• Definir las relaciones semánticas a utilizar
• Definir la fórmula para el cálculo del peso de las aristas
18Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa IV: Representación del Documento
Coeficiente de Jaccard Coeficiente de Dice-Sorensen
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,n-1,n}
hiperónimo{2,n-1,n}
hiperónimo{n-1,n}
hiperónimo{n-1,n}
hiperónimon
concepton
hiperónimo2
concepto2
hiperónimo{1,2,n-1,n}
…
3/4
4/5
2/3
1/2
3/4
4/5
2/3
1/2
3/4
4/5
5/6 5/6
6/7
concepton-1
1
1
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,n-1,n}
hiperónimo{2,n-1,n}
hiperónimo{n-1,n}
hiperónimo{n-1,n}
hiperónimon
concepton
hiperónimo2
concepto2
hiperónimo{1,2,n-1,n}
…
6/7
8/9
4/5
2/3
6/7
4/5
4/5
2/3
6/7
8/9
10/11 10/11
12/13
concepton-1
1
1
19Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa V: Agrupamiento de Conceptos
Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento
Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999)
Agrupamiento basado en la conectividad (Yoo et al., 2007)1. Cálculo del prestigio o salience de cada vértice
2. Los n vértices de mayor salience se denominan concentradores o hubs
3. Iterativamente, los hub vertices se agrupan en Hub Vertex Sets
4. Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales
Etapa VI: Asignación de Oraciones a Clusters
Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración?
En función del número de conceptos que coinciden entre el grafo de la oración y el cluster
20Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
jkk Ovv
jkji wOCsimilitud ),( ,
)(
)(
ikk,j
ikk,j
ikk,j
CHVS if vw
CHVS if vw
C0 if vw
Etapa VII: Selección de Oraciones
Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar Heurística 1: Todas las oraciones se seleccionan del cluster de
mayor tamaño (tema principal del documento) Heurística 2: Todos los clusters contribuyen con un número de
oraciones proporcional a su tamaño Heurística 3: Para cada oración, se calcula una única
puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global
21Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa VII: Selección de Oraciones
Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento
Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título
22Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
)()()()( jjjij OTitOPosOHeurOPuntuación
23Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
GAR Multi-documento
INTEGRADOR
Documento Integrado
Título Integrado
G.A.R.
O1
O3
O2
ELIMINACIÓNREDUNDANCIA
O1
O3
24
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio
• Resúmenes mono-documento de Artículos Biomédicos• Resúmenes mono-documento de Noticias Periodísticas• Resúmenes multi-documento de Páginas Web Turísticas
4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
25Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central
Características: Multiplicidad contenido: texto, tablas, imágenes. Estructura IMRAD (Introduction, Method, Results And
Discussion) Terminología especializada
− Sinónimos y homónimos
− Elisiones, neologismos y abreviaciones
26Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Etapa I: Pre-procesado:• Formato: xml
• Secciones irrelevantes: Autores, Instituciones, Publicación, Conflicto de intereses, Agradecimientos, Contribuciones, Referencias.
• Lista de palabras vacías: PubMed StopWords: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html#Stopwords
27Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Etapa II: Traducción de oraciones a conceptos• Base de conocimiento:
− Unified Medical Language System (UMLS)
− MetaMap
• Algoritmos de desambiguación:− Journal Descriptor Indexing
− Personalized PageRank
28
Unified Medical Language System Léxico Especializado
Metatesauro• Conceptos ↔ C0009443:Common Cold
• Relaciones ↔ C0009443:Common Cold related_to C0027442:Nasopharynx
Red Semántica• Tipos Semánticos ↔ T047:Disease or Syndrome
• Relaciones Semánticas ↔ Bacterium es_un Organism
Metatesauro ↔ Red SemánticaC0009443:Common Cold ↔ T047:Disease or Syndrome
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
29Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Unified Medical Language System
MetaMap• Traducción automática de texto a conceptos del Metatesauro
Phrase: Heart Attack TrialMeta Candidates (8): 827 C0008976:Trial (Clinical Trial) [Research Activity] 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 660 C0018787:Heart [Body Part, Organ, or Organ Component] 660 C0277793:Attack, NOS (Onset of illness) [Finding] 660 C0699795:Attack (Attack device) [Medical Device] 660 C1261512:attack (Attack behavior) [Social Behavior] 660 C1281570:Heart (Entire heart) [Body Part, Organ, or Organ Component] 660 C1304680:Attack (Observation of attack) [Finding]Meta Mapping (901): 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 827 C0008976:Trial (Clinical Trials) [Research Activity]
30
Unified Medical Language System
Ambigüedad en el Metatesauro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Phrase: TissuesMeta Mapping (1000): 1000 C0040300:Tissues (Body tissue)
Phrase: are
Phrase: often cold MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0234192:Cold (Cold Sensation)MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009443:Cold (Common Cold)MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009264:Cold (Cold Temperature)
Desambiguación Journal Descritor Indexing
− Conceptos semánticamente consistentes con el resto de conceptos en su contexto.
Personalized PageRank− Un grafo que representa la jerarquía completa de
la base de conocimiento, para cada palabra ambigua
− Adaptación a UMLS• Metatesauro como base de conocimiento• Conjunto de candidatos: Meta Mappings
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 31
Caso de Estudio: Biomedicina Etapa III: Representación de la oración
The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary
heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat
hypertension.
Activity
Clinical or Research Activity
Research Activity
Study
Clinical Study
Clinical Trials
Anatomic Structure
System or Substance
Organ System
Cardiovascular System
Disease
Disorder Or Finding
Disease or Disorder
Non-Neoplastic Disorder
Non-Neoplastic Disorder by Site
Non-Neoplastic Cardiovascular Disorder
Non-Neoplastic Vascular Disorder
Cerebrovascular Disorder
Cerebrovascular Accident
Disorder by Site
Respiratory and Thoracic Disorder
Thoracic Disorder
Heart Disorder
Coronary Heart Disease
Non-Neoplastic Heart Disorder
Congestive Heart Failure
Finding by Site or System
Cardiovascular System Finding
Blood Pressure Finding
Hypertensive Disease
Personnel
Professional Personnel
Clinicians
Eliminación de los dos niveles superiores
33Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Etapa IV: Representación del documento• Relaciones Semánticas:
− Relación related to entre conceptos del Metatesauro
− Relación associated with entre tipos de la Red Semántica
1. The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension
2. While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone
Caso de Estudio: Biomedicina
Clinicians
Research Activity
Study
Clinical Study
Clinical Trials
Organ System
Cardiovascular System
Disease or Disorder
Non-Neoplastic Disorder
Non-Neoplastic Disorder by Site
Non-Neoplastic Cardiovascular Disorder
Non-Neoplastic Vascular Disorder
Cerebrovascular Disorder
Cerebrovascular Accident
Disorder by Site
Respiratory and Thoracic Disorder
Thoracic Disorder
Heart Disorder
Coronary Heart Disease
Non-Neoplastic Heart Disorder
Congestive Heart Failure
Finding by Site or System
Cardiovascular System Finding
Blood Pressure Finding
Hypertensive Disease
Disorder of Cardiovascular System
Cardiovascular Diseases
Cardiovascular Drug
Alpha-Adrenergic Blocking Agent
Doxazosin
Pharmaceutical Adjuvant
Diuretic
Thiazide Diuretics
Chlorthalidone
1/21/2
2/32/3
3/41
35Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo
Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002
Características:• Estructura: Titular, Entrada y Cuerpo
• Organización: Pirámide invertida
• Amplitud temática y de vocabulario
• Concisión
Caso de Estudio: Periodismo
36Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa I: Pre-procesado:• Formato: xml
• Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación
• Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html
37Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo
Etapa II: Traducción de oraciones a conceptos• Base de conocimiento:
− WordNet
− WordNet::SenseRelate
• Algoritmo de desambiguación:− Lesk
38Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet
Conocimiento de ámbito general Concepto ≈ Synset (Synonym set){00007626} person#1, individual#1, someone#1, somebody#1, mortal#1,
soul#2
Definición ≈ Glossperson#1 - (a human being; "there was too much for one person to do")
person#2 - (a human body; "a weapon was hidden on his person")
Relaciones• Hiponimia/Hiperonimia
• Holonimia/Meronimia
•Términos coordinados•…
39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet
Ambigüedad en WordNet
39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Tissues1. tissue (part of an organism …) 2. tissue, tissue paper (a soft thin …)
Are1. be (have the quality of being)…13. cost, be (be priced at)
often 1. frequently, often (many times...)2. much, a great deal, often (frequently...)
cold1. cold, common cold (a mild viral…)2. coldness, cold (the absence of heat…)3. cold, coldness (the sensation …)
WordNet::SenseRelate
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 40
Traducción de texto a conceptos de WordNet y desambiguación de su significado− Lesk
> wsd.pl −−type WordNet::Similarity::lesk −−context sentencesFile −−format tagged −−stoplist config/SRStopWord.txt
The red#n#4 car#n#1 be#v#1 parked#a#1 near#a#2 the supermarket#n#1
41Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo
Etapa III: Representación de la oración• Eliminación de los tres niveles superiores de la jerarquía
Etapa IV: Representación del documento• Relaciones Semánticas:
− Relación de similitud semántica entre conceptos, calculada según la métrica jcn definida en WordNet::Similarity
− Sólo aquellas entre conceptos cuya similitud supera un determinado umbral de similitud
Caso de Estudio: Periodismo
Etapa IV: Representación del documento
Hurricane Gilbert swept toward the Dominican Republic Sunday, and the Civil Defense alerted its heavily populated south coast to
prepare for high winds, heavy rains and high seas
physical entity
physical object
abstract entity
abstraction
group
social group
organization
defense
measure
fundamentalquantity
time period
calendar day
entity
process
phenomenon
naturalphenomenon
physicalphenomenon
atmosphericphenomenon
windstorm
cyclone
hurricane
location
region
territory
territorialdivision
countryday of
the_week
rest day
sunday
geologicalformation
shore
coast
weather
wind precipitation
rain
thing
body ofwater
sea
DominicanRepublic
1/2
2/3
3/4
4/5
5/6
6/7
1
1
43Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Turismo
• Configuración del método para generar resúmenes multi-documento de páginas web turísticas (Aker y Gaizauskas, 2009)
Características:• Terminología amplia y poco especializada, vocabulario cotidiano
• No estructurados
• Amplitud temática− Tipo de monumento/lugar descrito, ubicación, información histórica y
artística, información sobre horarios de visita, precios, etc.
− Foros, publicidad, publicidad de la empresa que aloja la información, etc.
44Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Turismo
Misma configuración que para el caso de estudio periodístico
Resumen multi-documento ¡¡Redundancia!!• Eliminación del contenido repetido utilizando el sistema
de Implicación Textual de Ferrández et al. (2007)O1 implica O2 La información de O2 está contenida en O1
O2 se descarta del resumen
O1 implica O2 Y O2 implica O1 O1 y O2 son semánticamente equivalentes Se descarta la oración de menor puntuación
45
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación
• Metodología de Evaluación• Parametrización• Efecto de la ambigüedad• Comparación con otros sistemas
5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Evaluación – Metodología
Métricas• Contenido informativo: ROUGE
− Comparación automática de resúmenes automáticos y modelos
• Legibilidad: Criterios DUC/TAC− Calidad gramatical− Redundancia− Claridad referencial− Foco− Estructura y coherencia
Colecciones• 150 artículos científicos (BioMed Central)• 567 noticias periodísticas (DUC 2002)• 308x10 páginas web turísticas (Aker & Gaizauskas, 2010)
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 46
Evaluación – Metodología
Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente
Significancia estadística: Test de los signos de Wilcoxon
Parametrización1. Porcentaje de hub vertices2. Combinación de relaciones semánticas3. Umbral de similitud4. Peso de las aristas (Jaccard vs. Dice-Sorensen)5. Combinación de criterios de selección de oraciones
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 47
48
Evaluación – Parametrización
Biomedicina
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Porcentaje Hub Vertices
Conjunto Relaciones
Criterios Selección
Pesos Aristas
Heurística 1 2% - 5% H+R+A Heur. Jaccard
Heurística 2 10% H+R+A Heur.+Pos.+Tit. Jaccard
Heurística 3 5% H+R+A Heur. Jaccard
PeriodismoPorcentaje
Hub VerticesConjunto
RelacionesUmbral
SimilitudCriterios Selección
Pesos Aristas
Heurística 1 2% H+Sim.(jcn) 0.05 Heur.+Pos. Jaccard
Heurística 2 20% H+Sim.(jcn) 0.01 Heur.+Pos. Jaccard
Heurística 3 5% H+Sim.(jcn) 0.05 Heur.+Pos. Jaccard
Evaluación – Efecto de la Ambigüedad
Biomedicina
49Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
R-1 R-2 R-S4
Heurística 1
1er Candidato 0.7514 0.3304 0.3128
JDI* 0.7724 0.3453 0.3189
PPR* 0.7704 0.3379 0.3108
Heurística 2
1er Candidato 0.7305 0.3093 0.2856
JDI* 0.7772 0.3421 0.3205
PPR* 0.7751 0.3438 0.3210
Heurística 3
1er Candidato 0.7504 0.3283 0.3117
JDI* 0.7845 0.3538 0.3267
PPR* 0.7804 0.3530 0.3262
* Test de los signos Wilcoxon (p<=0.01)
Evaluación – Efecto de la Ambigüedad
PeriodismoR-1 R-2 R-S4
Heurística 1
Aleatorio 0.4214 0.1932 0.1691
Más frecuente* 0.4584 0.2057 0.1794
Lesk* 0.4641 0.2191 0.1919
Heurística 2
Aleatorio 0.4253 0.1972 0.1713
Más frecuente* 0.4594 0.2074 0.1810
Lesk* 0.4651 0.2193 0.1927
Heurística 3
Aleatorio 0.4322 0.2001 0.1780
Más frecuente* 0.4619 0.2104 0.1838
Lesk* 0.4648 0.2196 0.1928
50Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
* Test de los signos Wilcoxon (p<=0.05)
Evaluación – Comparación con otros sistemas
BiomedicinaR-1 R-2 R-S4
Heurística 3* 0.7845 0.3538 0.3267Heurística 2* 0.7772 0.3421 0.3205
Heurística 1* 0.7724 0.3453 0.3189
LexRank 0.7317 0.3248 0.3097
SUMMA 0.7123 0.3187 0.2989
AutoSummarize 0.5994 0.2446 0.2318
Lead 0.6483 0.2566 0.2646
Random 0.4998 0.1777 0.2315
51Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
* Test de los signos Wilcoxon (p<=0.01)
Evaluación – Comparación con otros sistemas
PeriodismoR-1 R-2 R-S4
Heurística 3* 0.4648 0.2196 0.1928Heurística 2* 0.4651 0.2193 0.1927
Heurística 1* 0.4641 0.2191 0.1919
LexRank 0.4558 0.2115 0.1846
Freq+TextEnt 0.4518 0.1942 -
LeLSA+AR 0.4228 0.2074 0.1661
DUC 28 0.4278 0.2177 0.1732
SUMMA 0.4217 0.1952 0.1516
AutoSummarize 0.4216 0.1887 0.1429
Lead 0.4113 0.2108 0.1660
Random 0.2996 0.1110 0.0900
52Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
* Test de los signos Wilcoxon (p<=0.05)
Evaluación – Comparación con otros sistemas
Turismo
R-2 R-S4
Heurística 3* 0.090 0.143Heurística 1* 0.089 0.139
MEAD* 0.089 0.138
COMPENDIUM 0.086 0.134
Language Models 0.071 0.119
Heurística 2 0.069 0.117
SUMMA 0.064 0.109
53Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Heurística 3Calidad gramatical 4.11
Redundancia 3.8
Claridad referencial 3.72
Foco 4.1
Estructura y coherencia 3.15
* Test de los signos Wilcoxon (p<=0.01)
54Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
El método produce resúmenes de mayor calidad que el resto de sistemas analizados, para todos los casos de estudio
La heurística 3 se comporta mejor que las demás• En general, un buen resumen incluye cierta información
secundaria
Aunque todas las heurísticas se comportan de manera muy similar
Necesidad de mejorar la coherencia y la claridad referencial de los resúmenes
Evaluación – Discusión
55Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Importantes divergencias entre los resúmenes individuales• Biomedicina
− Longitud
− Cobertura de la base de conocimiento
− Abreviaciones
• Periodismo − Longitud
• Turismo− Cobertura de la base de conocimiento
Evaluación – Discusión
56Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Biomedicina: Frecuencia de acrónimos y abreviaturas• No estándares, definidos ad hoc en el cuerpo del documento
BioText (Schwartz y Hearst, 2003)• Ej. SSR (Simple Sequence Repeat)
Evaluación – Discusión
Con Acrónimos Expansión de AcrónimosR-2 R-S4 R-2 R-S4
Heurística 3 0.3538 0.3267 0.3560 0.3300Heurística 2 0.3421 0.3205 0.3440 0.3228Heurística 1 0.3453 0.3189 0.3476 0.3232
57
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
The use of domain knowledge improves the quality of the automatic summaries
The summarizer performs significantly better when WSD is used
Single-document and multi-document summarization
Typical problems of extractive summarization: coherence and referential clarity
58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Improving referential clarity through anaphoric resolution techniques
59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
A new study finds that many women with early breast cancer do not need a painful procedure that has long been routine: removal of cancerous lymph nodes from the armpit.The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.
The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.
60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
Acropolis (Gr akros, akron, edge, extremity + polis, city, pl acropoleis) literally means city on the edge (or extremity). The Acropolis was designated as a UNESCO World Heritage site in 1987, for its, illustrating the civilizations, myths, and religions that flourished in Greece over a period of more than 1,000 years. The Acropolis, the site of four of the greatest masterpieces of classical Greek art — the Parthenon, the Propylaea, the Erechtheum, and the Temple of Athena Nike—can be seen as symbolizing the idea of world heritage. The Acropolis, a hill c.260 ft (80 m) high, with a flat oval top c.500 ft (150 m) wide and 1,150 ft (350 m) long, was a ceremonial site beginning in the Neolithic Period and was walled before the 6th cent. B.C. by the Pelasgians.
Improving legibility through referring expression generation techniques
61Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work Improving the structure and coherence of the summaries
through sentence simplification and fusion techniques
1)Ana, who is 40, graduated in Mathematics in 19922)Later, she got a PhD in Computer Science3)Ana has worked since 1998 as a financial consultant
Ana, who graduated in Mathematics and got a PhD in Computer Science, works since 1998 as a financial consultant
62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Improving acronym resolution mechanisms
Exploring new knowledge sources (e.g. Wikipedia)
Query-based summarization Implementing a method for detecting and
removing redundancy New languages and domains
62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
Muchas gracias
?
Recommended