121
Detección de información temporal en textos históricos Argentinos siglos XVIII y XIX desde un punto de vista semántico Tesis de grado Ingeniería en Informática Orientación en Sistemas de Producción FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRES Tesista: Miguel Agustín Abate [email protected] Padrón: 84084 Directora: Profesora María Feldgen Fecha: 17 de Abril 2016 1

FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Detección de información temporal en textos

históricos Argentinos siglos XVIII y XIX

desde un punto de vista semántico

Tesis de grado Ingeniería en Informática Orientación en Sistemas de Producción FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRES

Tesista: Miguel Agustín Abate [email protected]

Padrón: 84084 Directora: Profesora María Feldgen Fecha: 17 de Abril 2016

1

Page 2: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Agradecimientos Quiero dedicar este trabajo a mis padres, mis hermanas e Isabella que me acompañaron y apoyaron durante el desarrollo del mismo. También quiero agradecer especialmente a mi directora de tesis, Prof. María Feldgen, que me guió en todo momento para darle forma a esta tesis. A los profesores de la Facultad de Ingeniería de la U.B.A. de los que fui aprendiendo a lo largo de estos años de carrera. A todos los que desarrollaron las herramientas y los recursos sobre los que me apoyé para construir esta tesis.

Miguel Agustín Abate

2

Page 3: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Índice General

1. Introducción 6 1.1 Objetivo 6 1.2 Anotación Automática de Información Temporal 7 1.3 Problema 7

2. Anotación temporal de textos 8 2.1 Anotación de expresiones temporales 8

2.1.1 Tarea MUC de reconocimiento de entidades temporales 8 2.1.2 Un esquema de anotación para expresiones temporales 9

2.2 Anotación de eventos con marcas temporales 10 2.2.1 Franjas temporales de MUC­5 y MUC­7 10 2.2.2 Asignando marcas temporales a cláusulas de eventos 10 2.2.3 Sistema de extracción de eventos y relaciones 11 2.2.4 Anclaje y ordenamiento temporal de eventos 12

2.3 Anotación de relaciones temporales 13 2.3.1 Anotación de información temporal intraoracional 13 2.3.2 Anotación semántica de textos de noticias 14

3. Esquemas de anotación para información temporal 16 3.1 TIDES y STAG 16 3.2 TERQAS: TimeML y TimeBank 17

3.2.1 TimeML 17 3.2.1.1 Las principales estructuras de TimeML 18

3.2.1.1.1 EVENT 18 3.2.1.1.2 TIMEX3 19 3.2.1.1.3 SIGNAL 19 3.2.1.1.4 LINKS 20

3.2.1.1.4.1 TLINK 20 3.2.1.1.4.2 SLINK 21 3.2.1.1.4.3 ALINK 22

3.2.2 TimeBank 23 3.2.3 Anotación automática con TimeML 23

3.2.3.1 GUTime 24 3.2.3.2 EVITA 24 3.2.3.3 GUTenLINK 25 3.2.3.4 Slinket 25 3.2.3.5 SputLink 26

3.2.4 Experiencias en otros idiomas 26 4. Roles Semánticos 28

4.1 Bases Lingüísticas 28 4.1.1 Semántica de Marcos 31 4.1.2 Los conceptos de prototipo y perspectiva 31 4.1.3 Gramática de Caso 32 4.1.4 Teorías de Roles Semánticos 35

4.2 Descripción de Roles Semánticos 37 4.2.1 Algunos Roles Semánticos Comunes 37

3

Page 4: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

4.2.2 Características de los roles Semánticos 39 4.3 Recursos de Roles Semánticos 40

4.3.1 FrameNet 40 4.3.1.1 Elementos de marco (FEs) 41

4.3.1.1.1 Elementos de marco centrales 41 4.3.1.1.2 Elementos de marco periféricos 41 4.3.1.1.3 Elementos de marco extra­temáticos 41 4.3.1.1.4 Elementos de marco central­no expresado 42 4.3.1.1.5 Instanciación nula de elementos de marco 42

4.3.1.2 Relaciones entre marcos 42 4.3.1.2.1 Relaciones de generalización 42 4.3.1.2.2 Relaciones de estructura de eventos 42 4.3.1.2.3 Relaciones sistemáticas 43

4.3.2 VerbNet 43 4.3.3 Propbank (Proposition Bank) 43 4.3.4 Wordnet 45 4.3.5 Comparación entre FrameNet, PropBank y Wordnet 46 4.3.6 Recursos en otros idiomas 47

4.3.6.1 Alemán 48 4.3.6.2 Japonés 48 4.3.6.3 Español 49 4.3.6.4 Sueco 49 4.3.6.5 Portugués (Brasil) 49

4.4 Anotación automática 50 4.4.1 Anotación automática de textos con FrameNet 50 4.4.2 Anotación automática de textos con PropBank 51

5. Trabajos relacionados 53 6. Desarrollo 55

6.1 Esquema general de trabajo 55 6.2 Módulo marcador de eventos 56

6.2.1 Conditional Random Fields 57 6.2.2 Tipos de Eventos TimeML y Marcos de FrameNet 59

6.2.2.1 Análisis de los tipos de eventos TimeML contra los marcos de FrameNet 59

6.2.2.1.1 REPORTING 59 6.2.2.1.2 PERCEPTION 60 6.2.2.1.3 ASPECTUAL 61 6.2.2.1.4 I_ACTION 62 6.2.2.1.5 I_STATE 63 6.2.2.1.6 STATE 64 6.2.2.1.7 OCCURRENCE 65

6.2.3 Solución implementada y Características del texto utilizadas 65 6.2.4 Evaluación 68

6.2.4.1 Corpus usado y criterio de evaluación 68 6.2.4.2 Resultados 71 6.2.4.3 Contribución y comparación con el estado del arte 72

4

Page 5: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3 Módulo marcador de links 73 6.3.1 Tipos Links TimeML 74

6.3.1.1 TLink 74 6.3.1.2 SLink 77 6.3.1.3 ALink 78

6.3.2 Relación entre FrameNet y links TimeML 78 6.3.2.1 Frame Elements 78 6.3.2.2 Frames 79 6.3.2.3 Relaciones entre Frames 83

6.3.3 Modelo de aprendizaje supervisado: Support Vector Machines 84 6.3.4 Proceso de generación de datos para entrenamiento 84 6.3.5 Características elegidas para entrenar el algoritmo 85 6.3.6 Evaluación de los resultados 86

6.3.6.1 Corpus usado para las pruebas 86 6.3.6.2 Método de evaluación utilizado 87 6.3.6.3 Detección LINK y NO_LINK a través de diferentes oraciones (caso 1) 88 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones (caso 2) 88 6.3.6.5 Detección y clasificación de todos los tipos de Link a través de diferentes oraciones (caso 3) 89 6.3.6.6 Clasificación entre TLINK, SLINK y ALINK misma oración (caso 4) 90 6.3.6.7 Clasificación de todos los tipos de Link a través de diferentes oraciones (caso 5) 91 6.3.6.8 Comparación con otros productos 92

6.3.7 Conclusión sobre detección de links 93 7. El caso de los textos históricos 94 8. Conclusiones 98 9. Trabajo futuro 99 10. Referencias 100 11. Apéndices 107

Apéndice A: Relaciones entre Frames extraídas del corpus de FrameNet con una herramienta que se construyó especialmente para este trabajo 107 Apéndice B: Causa judicial por desembargo de la Goleta Nuestra Señora de la Candelaria (1812­1816) 113 Apéndice C: Partes militares de la Batalla de Pavón (1861) 118

5

Page 6: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

1. Introducción

1.1 Objetivo

Los manuscritos atesorados en bibliotecas y museos constituyen una importante

fuente de conocimiento e investigación para los historiadores y el público en general. Para preservar su integridad física y proveer acceso a una audiencia mayor, muchos de estos manuscritos están siendo digitalizados. Los catálogos digitales deben proveer descripciones, metadatos e índices de acceso a estos documentos que contengan información de calidad, que permita cruzamiento entre colecciones relacionadas e interoperabilidad.

Para construir las bibliotecas digitales es necesario un proceso de semiautomatización de las tareas de obtención y generación de metadatos y descripciones usando los archivos existentes y los manuscritos. Esta información además será usada por los sistemas de búsqueda semántica.

La búsqueda semántica permite a un usuario plantear una consulta en contexto y que los algoritmos recuperen los documentos que mejor se adapten a ella, no simplemente todos los que contienen el conjunto de palabras de la consulta. El armado de estas bases de datos contextuales para los buscadores requiere de la aplicación de técnicas de clasificación de roles semánticos basada en características sintácticas, semánticas y contextuales. Dentro del contexto de un corpus de documentos históricos uno de los clasificadores más importantes es el contexto temporal de los eventos.

Esta tesis se basa en el procesamiento de la información temporal, una tarea dentro del campo del procesamiento del lenguaje natural (NLP). El objetivo de esta tarea es hacer explícitos los eventos y relaciones temporales expresados en un texto.

La mayoría de las soluciones actuales se basan en la información morfosintáctica del texto. Esto es una simplificación que deja de lado muchas entidades y relaciones temporales debido a que los conceptos temporales tienen una complejidad conceptual que no es correctamente representada en el nivel morfológico o sintáctico.

La hipótesis de esta tesis es que la información temporal se manifiesta en el plano semántico y, por lo tanto, al usar información semántica para su detección se pueden lograr mejores resultados.

La cantidad de información disponible en medios digitales es cada vez mayor. Este hecho pone en evidencia un nuevo problema que es la dificultad para procesar y acceder en forma manual a esta información. Esto es particularmente cierto para el caso de archivos históricos donde hay gran cantidad de documentos que abarcan periodos largos y muchas veces su contenido es ambiguo y variable a través de los años. Otro problema que surge con los textos históricos es que el momento de creación de un documento puede ser totalmente diferente al que hace referencia en su contenido.

El análisis y la comprobación de resultados se hará sobre diferentes corpus de documentos históricos argentinos pertenecientes al Instituto de Historia Argentina y Americana Dr. Emilio Ravignani de la Universidad de Buenos Aires.

6

Page 7: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

1.2 Anotación Automática de Información Temporal

La anotación automática de información temporal en textos es un área que se ha

estado desarrollando intensivamente en la comunidad del Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés) en los últimos años. La tarea consiste en hacer explícitos a los elementos temporales en textos del lenguaje natural a través de un sistema que los identifique y los anote siguiendo un esquema estándar. Muchas áreas del NLP, tales como, sumarización, sistemas que contestan preguntas, búsqueda, extracción y clasificación de información se benefician al considerar y hacer uso de información temporal. [GAIZAUSKAS01] [MANI01][PUSTEJOVSKY01]

En este contexto, el esquema de anotación TimeML [PUSTEJOVSKY01] se convirtió

en uno de los estándares más usados. Es importante notar que la cantidad de recursos disponibles en idioma inglés es mucho mayor que en otros idiomas. Esto es importante ya que uno de los objetivos de anotar textos temporalmente es poder hacer uso de estos recursos para aplicaciones de aprendizaje automático, pero para ese fin es necesario tener grandes corpus de texto anotados.

En trabajos anteriores (sección 5), se demuestra que el uso de información

semántica mejora notablemente el reconocimiento y clasificación de información temporal en los textos. En el presente trabajo se profundizará en esta idea pero trabajando con los marcos semánticos del proyecto FrameNet [BAKER01].

1.3 Problema

El problema que se presenta en esta tesis, es el de identificar automáticamente

información temporal en textos de lenguaje natural usando información semántica, particularmente aplicada al caso de textos históricos cuyo contenido es fragmentario y no muy extenso. Entendiéndose por información temporal a eventos, expresiones temporales y las relaciones (orden, inclusión, etc.) que surgen entre estos.

En la sección 2 se analizan los trabajos realizados sobre anotación temporal. En la siguiente sección, se analizan diferentes esquemas de anotación temporal que se usan actualmente y cómo fueron evolucionando el desarrollo en esta área. Luego, se analizan las bases lingüísticas de los roles semánticos y, finalmente, en la sección 5 se describen los desarrollos existentes en el área.

7

Page 8: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

2. Anotación temporal de textos

El reconocimiento automático de expresiones temporales y eventos en textos de lenguaje natural se ha convertido en un área de investigación activa en la lingüística computacional y semántica. Una de las motivaciones de esta investigación es la de poder acceder a la información via contenido en vez de palabras clave. Hay avances en esta dirección, más específicamente en lo relacionado a reconocimiento de entidades propias (tales como nombres, lugares, productos), sin embargo, el reconocimiento de eventos y su anclaje temporal no está resuelto.

Los eventos están naturalmente anclados en el tiempo dentro de la narrativa de un texto. Por esta razón, los eventos anclados en el tiempo son la base a partir de la cual se razona sobre cómo cambia el mundo. Sin una forma de identificar y extraer eventos y su anclaje temporal de un texto, se puede perder el verdadero contenido. Además, como las entidades y sus propiedades cambian a través del tiempo, una base de datos sobre entidades estaría incompleta si no capturase la forma en que estas propiedades cambian con el tiempo.

Los trabajos realizados de anotación temporal, pueden dividirse en tres áreas generales: anotación de expresiones temporales, anotación de eventos con marcas temporales y anotación de relaciones temporales. A continuación se detallan los desarrollos en cada área.

2.1 Anotación de expresiones temporales

El trabajo más extenso sobre anotación de expresiones temporales, es el realizado

durante las MUCs (Message Understanding Conferences) y las extensiones de estos trabajos.

2.1.1 Tarea MUC de reconocimiento de entidades temporales

A mediados de la década de 1980, se realizó la primera de las siete Message

Understanding Conference, auspiciadas por DARPA. El objetivo de estas conferencias era establecer un régimen de evaluación cualitativo para sistemas de extracción de información (IE) y entendimiento de mensajes (MU). La última MUC, MUC­7, fue realizada en 1998. Para más información sobre las MUCs se puede ver [GAIZAUSKAS01].

Dentro de todas las tareas definidas por las MUC que debían hacer los sistemas participantes, la tarea relevante para esta tesis es la de reconocimiento de entidades, que requiere el reconocimiento y clasificación de entidades definidas tales como personas, lugares, organizaciones, cantidades monetarias y fechas.

Desde el MUC­5 en adelante, las fechas fueron parte de la tarea de reconocimiento

8

Page 9: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

de entidades. Tienen que ser marcadas expresiones temporales (absolutas y relativas) que representan fechas u horas. Las expresiones temporales se clasificaban vía el atributo TYPE. Este atributo podría tomar el valor DATE para referirse a expresiones completas o parciales de fechas o TIME para expresiones completas o parciales de horas del día.

2.1.2 Un esquema de anotación para expresiones temporales

Wilson [WILSON01] describe los lineamientos para anotar expresiones temporales y

asociar una representación canónica de los tiempos a los que se refieren. También introduce un método para extraer dichas expresiones temporales desde diferentes lenguajes. Las dos características principales son:

1. El enfoque va mucho más allá de los lineamientos usados en la MUC­7. El rango de expresiones marcadas es mucho más grande y, más importante aún, los valores temporales comunicados por las expresiones temporales tienen una expresión más rica. La diferencia clave, es que en las MUCs, las expresiones temporales eran simplemente anotadas mientras que en [WILSON01] se evalúa la expresión y normaliza la representación del tiempo al que se refiere.

2. Las expresiones dependientes del contexto, como “hoy” son manejadas así como también las expresiones completamente especificadas como “3 de Septiembre, 1997”. El contexto puede ser local (en la misma oración) o global (fuera de la oración). Las expresiones temporales indexadas, es decir que requieren información conocimiento acerca del tiempo del discurso, como “ahora” también están incluidas. Un estudio de corpus [WILSON02] muestra que dos tercios de las expresiones temporales en noticias impresas y emitidas por radio dependen del contexto, por lo tanto, esta característica es importante.

Los siguientes criterios son considerados por el esquema de anotación:

Simplicidad con precisión: el esquema es lo suficientemente simple para ser aplicado por personas pero también suficientemente preciso para ser usado en varias tareas de procesamiento de lenguaje natural.

Naturalidad: se reflejan las distinciones que pueden esperarse que una persona anote más que lo que pueda hacer un sistema automático.

Expresividad: los valores temporales se especifican lo mejor posible dentro de los límites que pueden ser inferidos confiablemente por un anotador.

Reproducibilidad: se usa un formato estándar (ISO­8601 1997) para representar los valores temporales y la consistencia entre anotadores se asegura mediante el uso de guías con ejemplos.

La anotación se realiza en dos pasos. Primero, todas las expresiones temporales

son marcadas y luego se identifica un valor temporal para estas expresiones. Se representan tres tipos de valores temporales: puntos, duraciones y frecuencias. Los problemas como límites difusos (como en “en la década de 1960”) y no especificidad (como

9

Page 10: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

en “Abril es usualmente húmedo”) son también tomados en cuenta.

A pesar de haber sido desarrollada en inglés, la representación semántica usada está pensada para ser usada a través de diferentes idiomas y por ende ayuda al desarrollo de anotadores temporales basados en un esquema de anotación común. Se creó un corpus de referencia en inglés compuesto de 32000 palabras de un corpus de diálogos telefónicos, 35000 palabras de textos del diario New York Times y 120000 palabras de noticias de radiodifusión.

2.2 Anotación de eventos con marcas temporales

2.2.1 Franjas temporales de MUC­5 y MUC­7

Como se mencionó en la sección anterior, MUC­5 y MUC­7 establecieron una

relación entre eventos y tiempos. Se les pidió a los participantes asignar un tiempo de calendario a ciertos tipos específicos de eventos (emprendimientos conjuntos y lanzamientos de cohetes)

El llenado de plantillas de escenario requiere la identificación de relaciones específicas entre elementos de la plantilla. Por ejemplo, la tarea de llenado de plantilla de escenario de MUC­7 tenía que ver con eventos de lanzamiento de cohetes. La plantilla de escenario contiene información sobre vehículos, carga, lugar de lanzamiento, funciones de la misión, etc. Además contenía un campo llamado LAUNCH_DATE, que contenía un enlace a la entidad temporal correspondiente (si es que existía un tiempo al que se lo podía asociar).

La relación temporal entre un evento y el tiempo no se siguió evaluando más. Las relaciones temporales entre eventos no se consideraron.

2.2.2 Asignando marcas temporales a cláusulas de eventos

En el trabajo de Filatova et al. [FILATOVA01] se describe un método para partir

historias de noticias en sus eventos y asignarles marcas temporales. Los autores analizan referencias temporales implícitas (mayormente con un sistema de tiempos verbales) y referencias temporales explícitas (adverbios temporales) para ayudar a reconstruir el orden cronológico de los eventos en la noticia.

Se asume que las cláusulas simples son los eventos transmitidos por el texto y se identifican usando un analizador lexicográfico que produce árboles sintácticos marcados semánticamente. Se ignoran algunos problemas de este enfoque, por ejemplo múltiples verbos en diferentes tiempos en una misma oración causan comportamientos incorrectos en el sistema. La representación temporal elegida, es una versión levemente modificada de la sugerida por Allen [ALLEN03].

10

Page 11: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

La asignación de marcas temporales usa dos puntos temporales de anclaje. Un punto temporal es el tiempo del artículo (se usó solo la fecha, no la hora del día) y el otro punto temporal, es el último asignado dentro de la misma oración. El procedimiento de marcado temporal es:

1. Se extraen las marcas temporales (presumiblemente se le asignan tiempos de calendario a las referencias temporales explícitas).

2. Se le asigna un tiempo a cada evento (representado por cláusulas simples), el tiempo más recientemente asignado en la oración o, si esto no está definido, el tiempo del artículo. Dos tipos de reglas de selección son usadas al momento de decidir qué tiempo es asignado. Un tipo es para oraciones con referencias temporales explícitas y otro tipo es para oraciones sin referencias temporales explícitas. Un ejemplo del primer tipo, es la regla del Dia de la semana que establece que si el dia de la semana usado en una cláusula simple es el mismo que el dia de la fecha del artículo, entonces el tiempo asignado al evento es el de la fecha del artículo (puede haber excepciones, por ejemplo si hay palabras antes del día de la semana que indican que el evento ocurrió antes que el dia del artículo, entonces se le asigna otro tiempo al evento). Si la oración no contiene información explícita de la fecha, entonces se le asigna un tiempo dependiente del tiempo del verbo. A cláusulas de evento en presente perfecto o pasado perfecto se les asigna un intervalo abierto cuyo punto de inicio no es conocido y su punto de fin es la fecha más recientemente asignada o la fecha del artículo. Existen reglas similares para el futuro, presente y pasado indefinidos. Cabe aclarar que estos tiempos verbales son en el idioma inglés.

Luego de que todos los eventos son marcados temporalmente, todas las cláusulas

de evento se ordenan cronológicamente. Los autores reportan un recall de 60.76% (recall se define como la cantidad de resultados correctos obtenidos dividida por la cantidad de resultados que se deberían haber obtenido) y una precisión (precisión se define como la cantidad de resultados correctos obtenidos dividida por la cantidad total de resultados obtenidos) de 55.82%, sobre textos de un corpus de prueba creado por Filatova et al.

2.2.3 Sistema de extracción de eventos y relaciones

En el trabajo de Aone et al. [AONE01] se sugiere un sistema de extracción de

eventos y relaciones pensado para gran escala (REES por sus siglas en inglés, Relation and Event Extraction System). El sistema maneja un total de 100 tipos de relación y eventos, lo que representa una cobertura mucho más grande que la usual en los sistemas de extracción.

El sistema consiste en tres módulos de etiquetado especializados basados en patrones, un módulo de resolución de correferencias de alta precisión y un módulo configurable de generación de plantillas (templates).

El rendimiento final del sistema es particularmente bueno en extracción de

11

Page 12: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

relaciones y logra un 70% o más de Medida­F (la Medida­F es la media armónica ponderada entre precisión y recall ) para 26 tipos de eventos por ahora. Además, el diseño de REES es altamente portable y configurable para agregar nuevas relaciones y eventos.

2.2.4 Anclaje y ordenamiento temporal de eventos

El trabajo de Mani et al. [MANI01] plantea una solución independiente del dominio

para el anclaje y ordenamiento temporal de eventos en textos de noticias. La solución plantea iniciativas mixtas de anotación de corpus y aprendizaje automático.

Se usan las herramientas TEMPEX [WILSON02], para la detección de expresiones temporales y CLAUSE­IT (herramienta desarrollada ad­hoc) para identificar cláusulas de diferentes tipos que son los eventos.

El sistema calcula un valor temporal de referencia (tval) para cada cláusula, este valor puede ser el definido por una expresión temporal explícita mencionada en la cláusula, o, si esta está ausente, una referencia temporal implícita inferida del contexto. Para calcular este tval, se sigue el siguiente algoritmo:

1. Se inicializa el tval con la fecha de creación del documento. Luego para cada cláusula se hace:

a. Si la cláusula tiene un tiempo explícito, se le inicializa el tval con ese valor. b. Si es un tipo de cláusula relativa, se asume que el tval es inaccesible. c. Si el verbo de la cláusula es del tipo reporte, se inicializa el tval con la fecha

de creación del documento. d. Si la cláusula está dentro de una cita (entre comillas), hereda el tval de la

cláusula que la engloba. e. Si ninguno de los casos anteriores, usar el valor más reciente del tval.

Además del tval, se calculan varias características más para cada cláusula como el

anchor­explicit que indica el anclaje del evento respecto del tval (en, antes o después).

Estas anotaciones, obtenidas de manera automática, son analizadas por una persona que las corrige dando como resultado una precisión de 59% para los valores de tval y de 83.8% (que se transforma en 90.2% si se presupone el valor en para los no definidos) para el valor de anchor­explicit.

Luego se usan estos datos para entrenar un clasificador estadístico, C5.0 Rules [QUINLAN01], para aprender reglas de relaciones de anclaje y reglas para rastrear los cambios de los valores tval (mantiene, revierte o cambia) a través de cláusulas sucesivas.

Finalmente, basándose en las mejores reglas de relaciones de anclaje, se generan tuplas de anclaje para cada documento. Los tvals en las tuplas de anclaje del documento, también están parcialmente ordenadas, produciendo tuplas de pares ordenados de tvals. Estos dos juegos de tuplas, se usan para crear tuplas de link de la forma link(R,ei ,ej ) donde

12

Page 13: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

ei y ej son los eventos correspondientes a las cláusulas i y j, y R es algún valor entre at, bef, aft, undefined (en, antes,después, indefinido).

Este enfoque logra una precisión de 84.6% en el anclaje de eventos y una medida­F 75.4% en el ordenamiento parcial de estos. Estos números son comparables con los de otros trabajos: Filatova [FILATOVA01] obtuvo un 82% de precisión en el anclaje de un solo tipo de evento en 172 cláusulas, mientras que Wilson [WILSON02] obtuvo una precisión de 59.4% en el anclaje de 663 verbos. Una de las cosas que distingue esta aproximación, es el uso de anotadores humanos, aprendizaje automático y la variedad de características motivadas lingüísticamente.

2.3 Anotación de relaciones temporales

2.3.1 Anotación de información temporal intraoracional

El trabajo de Katz [KATZ01] apunta a crear un gran corpus multilingüe en donde se

marcan relaciones temporales intraoracionales en adición a las anotaciones morfológicas y sintácticas estándar. Para lograr esto, desarrollaron un método neutral respecto del lenguaje y neutral respecto de teorías para anotar las relaciones temporales en oraciones. Con este corpus, Katz espera lograr obtener automáticamente el conocimiento léxico necesario para determinar una interpretación temporal en un discurso narrativo.

Se asocia un intervalo temporal a cada verbo en una oración y se le da importancia a la relación temporal entre esos verbos. La interpretación temporal debe estar íntimamente ligada al contexto sintáctico (el cual es importante ya que no se puede saber de antemano hasta qué grado las marcas usadas por el que habla son lexicográficas y hasta qué grado son gramaticales). Este enlace es necesario para mantener registro tanto de las relaciones semánticas entre tiempos así como también de las relaciones sintácticas entre las palabras en las oraciones que hacen referencia a estos tiempos.

Los autores adoptaron una herramienta de anotación sintáctica desarrollada en la Universidad de Saarbrucken [BRANTS01] añadiendo una capa de anotación semántica. Los verbos en una oración son enlazados vía enlaces secundarios marcados con una relación temporal. Las posibles relaciones son las de precedencia, inclusión y sus duales. Información indexante es incluida usando el símbolo “o” para el tiempo del discurso, este símbolo precede a todas las oraciones antes de anotarlas. Un ejemplo se puede ver en el gráfico 1:

13

Page 14: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 1 [BRANTS01]

El procedimiento de anotación comienza con un TreeBank [TREEBANK01] anotado sintácticamente. TreeBank es un corpus lingüístico en el que cada frase ha sido analizada sintácticamente. Luego se agrega el marcador del tiempo de discurso y se anotan las relaciones temporales entre verbos tal como las entiende el anotador.

En el trabajo de Katz se describe un método para comparar información temporal basado en una interpretación modelo­teórica. Se creó un Treebank, con la posibilidad de búsqueda, multilingüe y anotado en donde cada oración se guarda en una base de datos relacional con anotaciones sintácticas y temporales. Esto hace posible realizar búsquedas en el corpus del tipo “Encontrar las oraciones que contienen una cláusula relativa a la cual se la interpreta como solapando temporalmente a la cláusula principal”.

2.3.2 Anotación semántica de textos de noticias

Schilder et al. [SCHILDER01] desarrollan un sistema de marcado para expresiones

temporales en artículos de noticias. Según su definición, las expresiones temporales son pedazos de texto que expresan información temporal, directa o inferida, tales como fechas, frases preposicionales y verbos. La parte principal de su sistema es un Transductor de Estados Finito (FST) basado en reglas predefinidas. El idioma utilizado es el alemán.

El objetivo final es establecer relaciones temporales entre todos los eventos del texto. En el estado actual del proyecto, el objetivo es anclar las expresiones temporales a una línea de tiempo, a pesar de que la semántica de estas expresiones no está del todo definida todavía.

Se clasifican las expresiones temporales en time­denoting expresiones (las que se refieren a fechas de calendario u horarios de reloj) y event­denoting expressions (las que se refieren a eventos). Las frases preposicionales como on Friday (el viernes) denotan relaciones temporales entre eventos y tiempos. El juego de relaciones temporales propuesto es before, after, incl, at, starts, finishes y excl (equivalentes a las propuestas por [ALLEN04])

El sistema FST marca a todas las expresiones temporales y verbos, una versión experimental también marca expresiones nominales. También se propone una representación semántica, en base a la cual se realizan inferencias, especialmente sobre relaciones temporales. En el estado actual, el FST establece relaciones temporales entre

14

Page 15: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

tiempos y eventos. El sistema fue evaluado con un corpus pequeño (10 artículos de noticias) y la precisión general fue de 84.49%.

En la siguiente sección se analizan los diferentes esquemas de anotación temporal que se usan en la actualidad y cómo fue evolucionando el desarrollo en esta área.

15

Page 16: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

3. Esquemas de anotación para información temporal

La anotación temporal es una parte esencial de muchos trabajos de comprensión de textos. Esfuerzos recientes como TIDES (Translingual Information Detection, Extraction, and Summarization), STAG (Sheffield Temporal Annotation Guidelines) y TimeML tratan de proveer un lenguaje de marcado para anotación temporal.

TIDES [FERRO01] define un juego de lineamientos para anotar expresiones temporales con una representación canónica de los tiempos a los que se refieren. STAG [SETZER01] [SETZER02] provee lineamientos para anotar eventos e información temporal en textos de noticias. TimeML [PUSTEJOVSKY01] se basa en TIDES y STAG y provee un esquema de anotación XML para tiempos y eventos.

A continuación se explican los esquemas TIDES y STAG para luego introducir TimeML.

3.1 TIDES y STAG

El estándar de anotación TIDES [FERRO01] para expresiones temporales usa una

sola etiqueta XML <TIMEX2>. Esta etiqueta es una extensión de la etiqueta <TIMEX> usada en las Message Understanding Conferences (MUC7,1998) que reemplaza el atributo de categorización TYPE vs DATE con una serie de atributos que representan el verdadero tiempo o fecha de una expresión. El estándar incluye lineamientos para anotar expresiones temporales con una representación canónica de los tiempos a los que se refieren, usando el estándar ISO 8601 [ISO01]. Los siguientes son dos ejemplos de anotación TIMEX2: <TIMEX2 VAL="1999­FA">Fall 1999</TIMEX2>

<TIMEX2 VAL="2004­04­23">today</TIMEX2>

Las expresiones temporales son vistas como objetivos independientes para la

anotación y extracción, y la etiqueta (tag) <TIMEX2> está pensado para soportar una variedad de aplicaciones. En [WILSON02] se crea TEMPEX, un marcador temporal automático que agrega etiquetas <TIMEX2> a los documentos.

Robert Gaizauskas y Andrea Setzer propusieron STAG (Sheffield Temporal Annotation Guidelines) [SETZER01] [SETZER02] como un medio para anotar eventos, expresiones temporales y las relaciones entre ellos. STAG clasifica los eventos en cuatro grupos: ocurrencias, eventos de percepción, eventos de reporte y aspectuales. Los estados no son anotados en STAG. En general, la subcategorización de marcos de eventos son ignorados, excepto para eventos de reporte, percepción y de aspecto, que usualmente tienen a otro evento como atributo.

Los eventos y expresiones temporales se relacionan con las etiquetas relatedToEvent, relatedToTime y relType. Los valores de las dos primeras son referencias a otros eventos o expresiones temporales, la tercera contiene un valor para el tipo de relación y puede ser uno de los siguientes cinco valores: BEFORE, AFTER, INCLUDES, IS

16

Page 17: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

INCLUDED y SIMULTANEOUS. Este último tipo es de carácter difuso e incluye todo tipo de solapamientos temporales. Un ejemplo de anotación STAG: The plane crashed on Wednesday The plane

<event eid=9 class=OCCURRENCE tense=PAST relatedToTime=5

relType=IS INCLUDED>crashed</event> <timex tid=5>Wednesday</timex>

En adición a este esquema de anotación, [SETZER01] propone un proceso de

anotación de tres pasos para relaciones temporales. La primera fase consiste en anotar relaciones que se hacen explícitas por marcas lingüísticas en el texto. En la segunda fase se identifican relaciones que no están explícitamente marcadas en el texto. La última fase consiste en un ciclo asistido por un usuario en el cual un componente temporal infiere relaciones temporales y luego al usuario se le consulta para que provea nuevas relaciones cuando el componente temporal ya no puede inferir más.

3.2 TERQAS: TimeML y TimeBank

Durante el año 2002 se llevó a cabo un taller, llamado TERQAS (Time and Event

Recognition for Question Answering Systems) [TERQAS01] el cual se enfocó en resolver el problema de cómo responder preguntas basadas en el tiempo sobre eventos y entidades en un texto, especialmente para artículos de noticias.

Para avanzar en el entendimiento de estos problemas, el taller TERQAS se propuso dos objetivos principales:

1. Definir y diseñar un meta estándar común para el marcado de eventos, su anclaje temporal y cómo se relacionan entre sí en los artículos de noticias. Este lenguaje de marcado se llamó TimeML (Time Markup Language).

2. Crear un corpus patrón anotado por personas y marcado con expresiones temporales, eventos y relaciones temporales, basado en la especificación TimeML. Este corpus se denominó TIMEBANK.

3.2.1 TimeML

El desarrollo de TimeML surge de la necesidad de extender y cambiar

características de los trabajos de Setzer [SETZER01] y Ferro [FERRO01], ya que al aplicarse las ideas de estos trabajos en textos reales, aparecen problemas.

En este contexto, surge el lenguaje de especificación de eventos y expresiones temporales TimeML [PUSTEJOVSKY01].

TimeML está pensado para tratar cuatro problemas básicos de la identificación de eventos temporales, además del manejo básico de tiempos verbales y aspectos:

17

Page 18: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Registro temporal de eventos: identificar un evento y su anclaje temporal en el

tiempo Ordenar eventos respectivamente entre sí: propiedades lexicográficas versus

propiedades del discurso en el ordenamiento Razonar con expresiones temporales vagamente especificadas: funciones

temporales como “la semana pasada” o “dos semanas antes” Razonar acerca de la duración de los eventos: cuando dura un evento o su resultado

Algo nuevo que introduce TimeML respecto de otras formas de anotación de textos,

es que separa la anotación de eventos y expresiones temporales de lo que es el anclaje u ordenamiento temporal.

Hay cuatro estructuras principales que se especifican en TimeML: EVENT, TIMEX3, SIGNAL y LINK. Las características que distinguen a TimeML son:

1. Extiende los atributos de la anotación temporal TIMEX2 2. Introduce funciones temporales que permiten expresiones específicas como: tres

años atrás o el mes pasado. 3. Identifica señales que determinan la interpretación de una expresión temporal:

a. Preposiciones temporales: por, durante, en. b. Conectores temporales: antes, después, mientras.

4. Identifica toda clase de expresiones de eventos: a. Verbos conjugados: se ha ido, fue capturado, va a renunciar b. Adjetivos de estado y otros modificadores: hundido, avejentado, a bordo. c. Eventos nominales: Operación Militar, Guerra del Golfo.

5. Crea dependencias entre eventos y tiempos: a. Anclaje: Juan se fue el jueves. b. Ordenamiento: La fiesta ocurrió después de medianoche. c. Inclusión: Juan dijo que María partió.

3.2.1.1 Las principales estructuras de TimeML

3.2.1.1.1 EVENT

En TimeML se consideran eventos (la etiqueta correspondiente es <EVENT>) a situaciones que suceden u ocurren. Los eventos pueden ser puntuales o por un periodo de tiempo. También se consideran eventos a predicados que describen estados o circunstancias que mantienen un estado de verdad. Los tipos de evento pueden ser:

1. Ocurrencia (OCCURRENCE): morir, chocar, construir, vender 2. Estado (STATE): a bordo, secuestrado, amar

18

Page 19: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

3. Reporte (REPORTING): dice, reporta, anuncia 4. I­Acción (I­ACTION): probar, tratar, prometer, ofrecer 5. I­Estado (I­STATE): creer, querer, intentar 6. Aspecto (ASPECTUAL): empezar, terminar, parar,seguir 7. Percepción (PERCEPTION): ver, escuchar, sentir, mirar

3.2.1.1.2 TIMEX3

La etiqueta TIMEX3 se usa para marcar expresiones temporales explícitas, como horas, fechas, duraciones, etc. Existen tres tipos de expresiones TIMEX3:

1. Expresiones temporales totalmente especificadas: Junio 11; 1989; Verano, 2002 2. Expresiones temporales sub especificadas: Lunes, la semana que viene, el año

pasado, hace dos días 3. Duraciones: tres meses, dos años

3.2.1.1.3 SIGNAL

La etiqueta SIGNAL se usa para anotar secciones de textos, típicamente palabras que indican cómo los objetos temporales se relacionan entre sí. El material marcado por SIGNAL puede ser de diferentes tipos como por ejemplo, preposiciones temporales (ej en, mientras), otros conectores temporales (ej cuando) o subordinadores ( ej si) Un ejemplo de uso de estas tres etiquetas sería: Juan partió 2 días antes del ataque. Juan <EVENT eid="e1" class="OCCURRENCE" tense="PAST" aspect="PERFECTIVE"> partío </EVENT> <MAKEINSTANCE eiid="ei1" eventID="e1"/> <TIMEX3 tid="t1" type="DURATION" value="P2D" temporalFunction="false"> 2 días </TIMEX3> <SIGNAL sid="s1"> antes </SIGNAL> del <EVENT eid="e2" class="OCCURRENCE" tense="NONE" aspect="NONE"> ataque </EVENT> <MAKEINSTANCE eiid="ei2" eventID="e2"/> La anotación MAKEINSTANCE es un enlace de realización indica diferentes instancias de

19

Page 20: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

un determinado evento. Se pueden crear la cantidad de instancias que sean necesarias. Cada EVENT introduce al menos una instancia.

3.2.1.1.4 LINKS

Una de las innovaciones más importantes de TimeML es la etiqueta LINK. Esta etiqueta codifica diferentes relaciones que existen entre elementos temporales de un texto, así como también establece el orden entre eventos. Existen tres tipos de etiquetas LINK:

1. TLINK: es un enlace temporal que representa la relación temporal mantenida entre eventos o entre un evento y un tiempo.

2. SLINK: es un enlace de subordinación, usado en contextos que introducen relaciones entre dos eventos o entre un evento y una señal.

3. ALINK: es un enlace aspectual que representa la relación entre un evento de aspecto y su evento argumento.

3.2.1.1.4.1 TLINK

Representa la relación temporal mantenida entre eventos o entre un evento y un tiempo, y establece un vínculo entre las entidades haciendo explícito si estas son:

1. Simultáneas: 2. Idénticas: (en referencia al mismo evento)

Juan se dirigió a Boston. Durante su viaje se comió un sándwich. 3. Una antes que la otra:

Juan partió antes que María llegará. 4. Una después de la otra: (lo opuesto de 3) 5. Una inmediatamente antes que la otra:

Todos los pasajeros que murieron cuando el avión se estrelló en la montaña. 6. Una inmediatamente después que la otra: (lo opuesto de 5) 7. Una incluye la otra:

Juan llegó a Boston el jueves pasado. 8. Una es incluida por el otro: (lo opuesto de 7) 9. Una cuya duración está incluida dentro de la duración de la otra: 10. Una de ellas es el principio de la otra:

Juan ha vivido en Boston desde 1998. 11. Una se inició por la otra: (lo opuesto de 10) 12. Una de ellas es el final de la otra:

Juan se quedó en Boston hasta 1999. 13. Una es terminada por la otra: (lo opuesto 12)

Para ilustrar el uso de esta etiqueta, se puede ver el ejemplo anterior “Juan partió 2 días antes del ataque.” Se debería crear un TLINK de esta forma:

20

Page 21: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

<TLINK eventInstanceID="ei1" signalID="s1" relatedToEvent="ei2" relType="BEFORE" magnitude="t1"/> Este vínculo expresa dos aserciones:

Que la partida de juan (ei1), está ordenada antes del ataque (ei2) Que el intervalo que separa estos dos eventos tiene una magnitud igual al valor de la

expresión temporal (t1)

3.2.1.1.4.2 SLINK

El vínculo de subordinación es usado en contextos que introducen relaciones entre dos eventos o entre un evento y una señal. Son de los siguientes tipos:

1. MODAL (MODAL): relación introducida en su mayoría por verbos modales (poder, deber, querer, etc.) y eventos que introducen una referencia a un mundo posible I_STATEs:

a. Juan debería haber comprado vino. b. María quería que Juan compre vino.

2. FACTIVO (FACTIVE): algunos verbos introducen una implicación (o presuposición) sobre la veracidad del argumento. Algunos ejemplos son olvidar, lamentar, lograr:

a. Juan se olvidó que estuvo en Boston el año pasado. b. Maria lamenta no haberse casado con Juan. c. Juan logró irse de la fiesta.

3. CONTRAFACTIVO (COUNTERFACTIVE): el evento introduce una presuposición sobre la falta de veracidad del argumento.

a. Juan olvidó comprar vino. b. María no pudo casarse con Juan. c. Juan previno el divorcio.

4. PROBATORIO (EVIDENTIAL): las relaciones probatorias son introducidas por eventos de tipo REPORTING o algunos de tipo PERCEPTION:

a. Juan dijo que compró vino. b. María vio a Juan traer solo cerveza.

5. PROBATORIO NEGATIVA (NEGATIVE EVIDENTIAL): introducidas por eventos de tipo Reporte o algunos de tipo Percepción y que transmiten una polaridad negativa:

a. Juan se negó haber comprado solo cerveza. 6. NEGATIVA (NEGATIVE): introducida solo por partículas de señales negativas (no,

ni): a. Juan no se olvidó de comprar vino. b. Juan no se quería casar con María.

Un ejemplo de uso de esta etiqueta es: Guillermo quiere enseñar el Lunes.

21

Page 22: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Guillermo <EVENT eid="e1" class="I_STATE" tense="PRESENT" aspect="NONE"> quiere </EVENT> <MAKEINSTANCE eiid="ei1" eventID="e1"/> <SLINK eventInstanceID="ei1" subordinatedEvent="e2" relType="MODAL"/> <EVENT eid="e2" class="OCCURRENCE" tense="NONE" aspect="NONE"> enseñar </EVENT> <MAKEINSTANCE eiid="ei2" eventID="e2"/> <SIGNAL sid="s2"> el </SIGNAL> <TIMEX3 tid="t1" type="DATE" temporalFunction="true" value="XXXX­WXX­1"> Lunes </TIMEX3> <TLINK eventInstanceID="ei2" relatedToTime="t1" relType="IS_INCLUDED"/>

3.2.1.1.4.3 ALINK

El vínculo aspectual representa la relación entre un evento aspectual y su evento argumento. Las relaciones codificadas por esta anotación son:

1. Iniciación: Juan empezó a leer 2. Culminación: Juan terminó de armar la mesa 3. Terminación: Juan dejó de hablar 4. Continuación: Juan siguió hablando

Un ejemplo de uso de esta anotación podrían ser: El bote comenzó a hundirse. El bote <EVENT eid="e1" class="ASPECTUAL" tense="PAST" aspect="NONE"> comenzó </EVENT> <MAKEINSTANCE eiid="ei1" eventID="e1"/> <SIGNAL sid="s1"> a </SIGNAL> <EVENT eid="e2" class="OCCURRENCE" tense="NONE" aspect= "NONE"> hundirse </EVENT> <ALINK eventInstanceID="ei1" signalID="s1" relatedToEvent="e2" relType="INITIATES"/>

22

Page 23: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

3.2.2 TimeBank

TimeBank [PUSTEJOVSKY02] es el corpus patrón anotado con TimeML. Los textos

que forman el corpus, fueron elegidos para cubrir una gran variedad de dominios de noticias y vienen de diversas fuentes:

Textos DUC (TIPSTER) del corpus de la Document Understanding Conference que cubre diferentes áreas tales como biografías, eventos simples y múltiples. Esto cubre 12% del corpus, o 35 textos;

Textos del programa ACE (Automatic Content Extraction) que viene de transcripciones de cadenas noticias (ABC, CNN, PRI, VOA) y cables de noticias (AP,NYT). Esto representa un 17% (50 textos) y 16% (49 textos) del corpus, respectivamente. Una de las características importantes de los datos de ACE es que los datos ya estaban marcados según los lineamientos de marcado temporal de TIDES, lo que ayudó mucho al desarrollo del marcado TIMEX3.

Textos del PropBank (Treebank2) que son artículos del diario Wall Street Journal , estos textos son un 55% o 166 textos del corpus.

El esfuerzo de anotación se dividió en dos fases. En la primera fase del proyecto se

anotaron un 70% de las expresiones temporales, vínculos y eventos. El 30% restante en la segunda fase.

La anotación de la primera fase, estuvo a cargo de un grupo reducido de 5 anotadores que participaron en el desarrollo del esquema de anotación TimeML y que previo a llevarse a cabo la anotación, se reunieron para lograr consenso sobre los estándares de anotación.

La anotación durante la segunda fase, estuvo a cargo de 45 estudiantes que fueron entrenados para esta tarea.

Para ayudar a la anotación, los documentos fueron preprocesados haciendo uso de la herramienta Alembic NLP system [ALEMBIC01].

Uno de los objetivos de la creación de TimeBank, es su uso para el aprendizaje automático. A continuación se reseñan los trabajos realizados en el área.

3.2.3 Anotación automática con TimeML

En [VERHAGEN01] se describe TARSQI (Temporal Awareness and Reasoning

Systems for Question Interpretation), un sistema modular para la anotación temporal automática que agrega expresiones temporales, eventos y relaciones temporales a textos de noticias.

Una anotación manual completa de textos con TimeML no es práctica dada la

23

Page 24: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

complejidad de la tarea y la gran cantidad de textos de noticias existentes para procesar. El sistema TARSQI puede usarse de modo independiente o como una herramienta para auxiliar a los anotadores.

El sistema se organiza en módulos encadenados que van agregando diferentes tipos de anotación TimeML al documento. Se asume que la entrada del sistema es un documento anotado gramaticalmente (POS tagging). El siguiente es un diagrama del sistema (gráfico 2):

Gráfico 2 [VERHAGEN01]

A continuación se explica cada uno de estos módulos.

3.2.3.1 GUTime

El marcador GUTime, desarrollado en la Universidad de Georgetown, extiende las capacidades del marcador TempEx [WILSON02]. TempEx está focalizado en el estándar ACE TIMEX2. GUTime extiende a TempEx para manejar expresiones temporales basado en el estándar TimeML TIMEX3, el cual permite un estilo funcional para codificar desplazamientos en expresiones codificadas. Además puede manejar una gran variedad de expresiones temporales que ACE TIMEX2 no puede. GUTime fue probado con datos de entrenamiento de la tarea Time Expression Recognition and Normalization dando un resultado de 78% en Medida­F para texto libre.

3.2.3.2 EVITA

EVITA (Events in Text Analyzer) [SAURI03] es una herramienta de reconocimiento de eventos que realiza dos tareas principalmente: identificación robusta de eventos y

24

Page 25: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

análisis de características gramaticales, como tiempo y aspecto. La identificación de eventos está basada en la noción de evento definida en TimeML. Se usan diferentes estrategias para identificar eventos dentro de la categoría verbo, sustantivo o adjetivo.

3.2.3.3 GUTenLINK

El marcador de TLINKs GUTenLINK, creado en la Universidad de Georgetown, usa reglas sintácticas y lexicográficas creadas a mano. Maneja tres tipos de casos:

1. El evento está anclado sin una señal a una expresión temporal dentro de la misma cláusula.

2. El evento está anclado sin una señal a la fecha de creación del documento (este es un caso común en los verbos de tipo reporte en textos de noticias, que suelen estar asociados a la fecha de creación del documento o a un offset pequeño de esta).

3. El evento en una cláusula principal está anclado con una señal o con una marca de tiempo/aspecto al evento en una cláusula principal de una oración previa. En este caso, se usa un FST (Finite State Transducer) para inferir la relación temporal más probable entre los eventos basándose en las características de tiempo verbal y aspecto que brinda TimeML para cada evento. Por ejemplo: un verbo no de estado en tiempo pasado seguido por un verbo no de estado en pasado perfecto, con el aspecto gramatical mantenido, sugiere que el segundo evento precede al primero.

3.2.3.4 Slinket

El propósito de Slinket es introducir SLINKs automáticamente, que en TimeML especifican relaciones de subordinación entre pares de eventos, y clasificarlos, basándose en la fuerza modal del verbo subordinante, entre:

Factivos (Factive) Contrafactivos (Counterfactive) Probatorio (Evidential) Negativo probatorio (Negative evidential) Modal (Modal)

La entrada de Slinket es texto fragmentado con marcas de categorías lexicográficas

(POS tag) y eventos. Los SLINKs son introducidos por un grupo limitado de predicados verbales y

nominales tales como lamenta, dice, promete y trata, y en la mayoría de los casos están claramente señalados por el contexto de la subordinación. Slinket se basa en la combinación de conocimiento léxico y sintáctico.

La implementación de este módulo está lograda con una cascada de FSTs que codifican diferentes reglas.

25

Page 26: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

3.2.3.5 SputLink

El módulo de cierre temporal Sputlink, se encarga de tomar relaciones temporales de un texto y, a partir de ellas, derivar nuevas relaciones. En otras palabras, hace explícito lo que está implícito. Sputlink está basado en el álgebra de intervalos de James Allen [ALLEN04] y se inspira en los trabajos de Setzer [SETZER01] y Katz et al. [KATZ01] que también introdujeron un módulo de clausura en un ambiente de anotación.

Allen reduce todos los eventos y expresiones temporales a intervalos e identifica 13 relaciones básicas entre intervalos. La información temporal en un documento es representada como un grafo donde los eventos y expresiones temporales son los nodos y la relaciones temporales son las etiquetas de los arcos que los unen. El algoritmo de Sputlink, como el de Allen, es básicamente un algoritmo de propagación de restricciones que usa una tabla de transitividad para modelar el comportamiento compositivo de todos los pares de relaciones.

3.2.4 Experiencias en otros idiomas

La anotación de información temporal de textos con TimeML es aplicable a otros

idiomas fuera del inglés, siempre que se haga una adaptación acorde a las características propias del lenguaje (tiempos verbales, uso de los verbos modales, etc).

Sauri [SAURI02], siendo miembro del equipo original de TimeML, define los lineamientos de anotación para generar un TimeBank en español.

Bittar et al. [BITTAR01] analizan la creación de un TimeBank en francés usando herramientas de anotación automática. Como en el caso del español, se tuvo que hacer una correspondencia entre el esquema TImeML y los tiempos verbales del francés.

De manera similar Caselli et al. [CASELLI01] analiza los lineamientos para la creación de un TimeBank en italiano.

Wonsever et al. [WONSEVER01] [WONSEVER02] van más lejos que los trabajos

anteriores y crean un esquema de anotación para lenguas romance, especialmente el español, llamado SIBILA (Sistema automático de respuestas basado en un modelo de discurso). Una de las contribuciones más importantes de este esquema, es el uso del atributo Factivity (Factividad).

El atributo obligatorio factividad representa el grado de certeza del enunciador, respecto de la ocurrencia del evento referido. Este atributo puede tomar los siguientes valores: SI | NO | FUTURO_PROG | FUTURO_NEG | POSIBLE | INDEF.

SI: evento realizado NO: evento no realizado FUTURO_PROG: futuro programado FUTURO_NEG: futuro negado

26

Page 27: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

POSIBLE: posible INDEF: indefinido

A continuación se muestra un ejemplo de los valores que puede tomar el atributo factivity obtenido de [WONSEVER02]: “La ministra Daisy Tourné anunció que algunos reclusos del Compen serán trasladados al interior del país, para aliviar la superpoblación de ese centro carcelario. No se conocen

más novedades.” anunció = SI serán trasladados = FUTURO_PROG aliviar = POSIBLE se conocen = NO

En la siguiente sección se describen los roles semánticos, las teorías que los trabajan, los recursos actuales que proveen información sobre ellos y las herramientas de anotación automática.

Como se mostrará más adelante, dentro de toda la información que brindan los roles semánticos, existe información temporal (explícita o implícita) a partir de la cual se pueden detectar eventos, marcas y relaciones temporales.

27

Page 28: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

4. Roles Semánticos

4.1 Bases Lingüísticas

Todos los elementos de contenido de un lenguaje se ven como predicados, por

ejemplo: expresiones que designan eventos, propiedades de, relaciones entre, entidades. La predicación, representa el mecanismo que permite instanciar propiedades, acciones, atributos y estados. Las expresiones lingüísticas pueden ser dependientes o independientes. Las expresiones lingüísticas dependientes son usualmente fenómenos diferentes, mientras que las independientes son individuales. Por ejemplo, la palabra sombrero puede ser comprendida fuera de cualquier circunstancia, tiempo o persona, porque no tiene que estar atribuida a nada ni nadie; es independiente, es decir, individual. Por el contrario, si se considera la palabra rojo, las denotaciones de esta palabra no se entienden fuera de una asociación con un individuo: sombrero rojo. En términos lingüísticos, los fenómenos dependientes son predicados, mientras que los individuales son argumentos. La relación entre fenómenos e individuos se conoce como predicación.

Los predicados no se tratan como elementos aislados, sino como estructuras, llamadas predicate frames [DIK01] o semantic frames [CHOMSKY01]. Dentro del predicate frame, cada entidad (frame element) juega un rol, que puede llamarse thematic role [FRAWLEY01], semantic case [FILLMORE04], semantic role [DILLON01], thematic relation [GRUBER01] [JACKENDOFF01] o, desde una perspectiva puramente sintáctica, θ­role [CHOMSKY01]. De hecho, los roles semánticos (semantic roles) representan relaciones semánticas que conectan individuos con fenómenos, o en términos lingüísticos, argumentos con predicados. Luego de establecer las relaciones semánticas dentro de los predicate frames (marcos de predicado), se agregan funciones pragmáticas y sintácticas a cada elemento del marco de predicado

Las relaciones semánticas son una de las clases más viejas de construcciones en la teoría lingüística. Esta longevidad, engendra variedad, por lo que se pueden encontrar varias propuestas de diferentes juegos de roles semánticos. Estos juegos de roles van desde muy específicos a muy generales, y muchos han sido usados en implementaciones computacionales de un tipo u otro.

Las relaciones semánticas pueden ser ejemplificadas con el marco Commercial Transaction (Transacción comercial), cuyos actores incluyen buyer, seller, goods y money (comprador, vendedor, bienes y dinero). Dentro del gran conjunto de predicados relacionados semánticamente, asociados a este marco, se pueden mencionar buy, sell, pay, spend, y charge (comprar, vender, pagar, gastar, costo, y cargo), cada uno de estos indexa o evoca diferentes aspectos del marco. El verbo comprar se focaliza en el comprador y los bienes, poniendo de fondo al vendedor y el dinero; pagar se focaliza en el comprador, el dinero y el vendedor, poniendo de fondo a los bienes; y así con los demás. La idea es que conocer el significado de cualquiera de estos verbos requiere saber que sucede en una transacción comercial y, en alguna media, saber el significado de todos los predicados

28

Page 29: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

involucrados en el marco. El conocimiento y experiencia estructurados por el marco Transacción Comercial provee el trasfondo y motivación para las categorías representadas por estos verbos. A continuación (gráfico 3) se puede ver la anotación del marco Transacción comercial obtenido del proyecto Framenet.

Gráfico 3 [FRAMENET01]

29

Page 30: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Una descripción completa de los predicados en el marco de Comercio también

puede incluir información sobre sus propiedades gramaticales y de varios patrones sintácticos en los que ocurren.¿Qué elementos de marco pueden aparecer como sujeto del verbo, u objeto, si es que hay alguno, y cual va a ser la forma sintáctica superficial de los demás elementos de marco?¿Cuales de estos elementos son opcionales y cuáles obligatorios? Por ejemplo, en la oración:

Carla compró una computadora a Sally por $100.

Hay cuatro elementos de marco para el predicado comprar: Carla, una

computadora, a Sally y por $100. El sujeto, Carla, es el comprador y objeto directo, una

computadora, representa a los bienes; estos dos elementos son obligatorios para que el significado del predicado sea completo. Si cualquiera de estos roles obligatorios no estuviese en la oración, el contenido informativo de la oración estaría incompleto y el mensaje no podría ser transmitido sin clasificaciones agregadas.

Los otros dos elementos de marco son opcionales: a Sally es el vendedor y por

$100 representa al dinero. Su lexicalización en la oración es solo de información complementaria, y ni la presencia ni ausencia de esta información afecta el mensaje principal sobre la compra de la computadora que hizo Carla.

Considerar un marco más general como el de transferencia de dinero, sirve como recordatorio de los sustantivos cuyo significado puede describirse en términos de marco semántico, es decir respecto del subyacente marco de trabajo conceptual necesario para su entendimiento y en referencia al conocimiento y experiencia que el intérprete tiene de la situación de fondo. Entre los sustantivos relacionados al marco de transferencia de dinero están propina, rescate, mesada, reintegro, honorario, recompensa, matrícula,

retención, bono, renta, precio, salario y pensión alimenticia. Referirse a una suma de dinero con cualquiera de estos sustantivos, requiere información rica y detallada sobre un escenario mucho más grande que el del marco de Transacción comercial , del cual la transferencia de dinero es solo una pequeña parte. Por ejemplo, usar el término pensión

alimenticia asume algo así como: dos personas que solían estar casadas, ahora están divorciadas; luego del divorcio, se acuerda que uno de ellos le da al otro una suma de dinero en intervalos regulares, usualmente mensual. Existen también otras cosas involucradas, como negociaciones legales, dictámenes de la corte, etc. A lo que apunta esta idea es que cada predicado (verbo o sustantivo) trae aparejado una escena entera.

Entre otros factores, considerados para una completa descripción de los sustantivos relacionados al marco Transferencia de dinero, esta la sintaxis de las expresiones en las cuales un sustantivo en particular aparece. Algunos sustantivos requieren el artículo indefinido, mientras que otros requieren un pronombre posesivo. La elección depende de si el dinero transferido es esperado y si la conversación sobre el dinero toma lugar antes o después de un acuerdo sobre la transferencia. Si el dinero no es esperado, se puede usar el artículo indefinido: Ella le dio al mesero una propina. Si el dinero es esperado, se necesita el pronombre posesivo: Ella le dio su salario al empleado.

30

Page 31: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Para capturar, en cada marco, las diferentes combinaciones semánticas y sintácticas, los lingüistas comenzaron a anotar grandes corpus con información sintáctica/semántica. Estos recursos, que se presentan en la sección 4.3, fueron usados para entrenar diferentes programas de aprendizaje automático para desarrollar software de anotación automática que enriquezca textos con información semántica.

4.1.1 Semántica de Marcos

La semántica de marcos es un concepto introducido por Charles J. Fillmore

[FILLMORE03]. Se entiende como “Marco” a un determinado sistema de conceptos relacionados de manera tal que para entender a cualquiera de ellos, es necesario entender toda la estructura en la que está usado ese concepto. Por ejemplo, si se dice “freír” hay que entender que se está refiriendo a “Aplicar calor”, que a su vez implica entender la existencia de un cocinero, una comida y un elemento para calentar. [FILLMORE02]

Un texto, por sí solo, no transmite su total significado sino que es necesario tener un trasfondo cultural para entenderlo. En esto se focaliza la semántica de marcos, trata de enfatizar y capturar la continuidad entre el lenguaje y la experiencia. [FILLMORE01]

Se dice que un intérprete al leer un texto invoca, posiblemente de manera inconsciente, determinados marcos que permiten darle sentido a la experiencia que se quiere transmitir. En contraste, la evocación de marcos semánticos es un proceso cognitivo en el cual el intérprete responde a asociaciones propias del lenguaje conectando los signos lingüísticos con marcos. El descubrimiento y análisis de dichas asociaciones, propias del lenguaje, constituyen la semántica de marcos.

La semántica de marcos, estudia cómo las formas lingüísticas evocan determinados marcos y como estos marcos pueden integrarse en los pasajes que los contienen.

Las observaciones fundamentales sobre las que trabaja la semántica de marcos, son las maneras en las que los usuarios de un lenguaje entienden lo que es comunicado por ese lenguaje. Es por esto, que la semántica de marcos es empírica, cognitiva y etnográfica. Los investigadores deben descubrir que marcos surgen del lenguaje en estudio ya que no existe un lugar en donde buscar esta información. Implica manejo de sutilezas del lenguaje así como el aprendizaje sobre experiencias y valores de la cultura en la que se está inmerso.

4.1.2 Los conceptos de prototipo y perspectiva

Se describe una cantidad de conceptos en Frame Semantics [FILLMORE05]. Uno de

esos conceptos, es el de Prototipo, entendido como una gran porción de la cultura presente dentro de la cual el significado de la palabra es definido y entendido.

Por ejemplo, para entender el significado de la palabra desayuno, es necesario entender las instituciones y prácticas de la cultura en la cual esta categoría existe. En este caso, es necesario entender la práctica de comer tres comidas al día a intervalos más o menos fijos y que la comida ingerida en la primera parte del día luego del periodo de sueño tiene un menú especial y que para esta comida se usa la palabra “desayuno”. Las condiciones que define el prototipo, no necesitan estar presentes para que el intérprete nativo use la palabra apropiadamente. Alguien que habla lengua española, puede usar la

31

Page 32: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

palabra desayuno para la comida ingerida en cualquiera de las siguientes situaciones: dormir toda la mañana, comer huevos, tostadas y café a las dos de la tarde; quedarse despierto toda la noche, comer huevos, tostadas y café a las siete de la mañana; dormir toda la noche, comer tostadas y café a las siete de lamañana. Este rango de usos, puede capturarse a cuenta del significado de la palabra que apela a un prototipo. La palabra desayuno provee una categoría que puede ser usada en una variedad de contextos.

Otro concepto importante planteado en la Semántica de Marcos es el de Perspectiva. Por ejemplo en la oración: ­ Carla le compró una computadora a Sally por $100. Como se vio, esta oración evoca el marco de Transacción Comercial, desde la perspectiva del comprador. Mientras que la oración: ­ Sally le vendió una computadora a Carla por $100. evoca el marco de Transacción Comercial desde la perspectiva del vendedor.

La noción de perspectiva depende, hasta cierto punto, en el conocimiento del mundo. Diferentes palabras, asumen diferentes perspectivas o esquematizaciones de la misma escena. Entender la elección de palabras usadas para hablar de una escena, requiere conocer los eventos que llevaron hasta ese punto.

En la siguiente sección se describe la Gramática de Caso desarrollada por Fillmore que luego extendió en su teoría original de Semántica de Marcos.

4.1.3 Gramática de Caso

En 1968, Charles Fillmore introduce la Gramática de Caso [FILLMORE04]

basándose en la representación del conocimiento lingüístico desarrollada por Chomsky en 1965 [CHOMSKY01].

En un momento en el que la mayoría de los gramáticos toman a la sintaxis como punto de partida de cualquier teoría del lenguaje, la gramática de caso es un intento de establecer una gramática semántica. Lo primero que hace esta teoría, es dividir la representación del lenguaje en dos estructuras: la estructura superficial (el conocimiento sintáctico) y la estructura profunda (el conocimiento semántico). El proceso del lenguaje empieza al nivel de la estructura profunda con una representación no verbal (una idea o pensamiento) y termina en la estructura superficial (el modo en que nos expresamos).

En la gramática de caso, los roles semánticos de los predicados fueron considerados cruciales para la caracterización de verbos y cláusulas. Fillmore [FILLMORE04] define los marcos de caso como “caracterizaciones de una ‘escena’ o ‘situación’ abstracta, de modo que para entender la estructura semántica del verbo, es

32

Page 33: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

necesario entender las propiedades de dichas escenas”. Según Fillmore, el conocimiento lingüístico está organizado alrededor de la predicación, cada palabra predicacional (adjetivo, verbo o sustantivo) evoca cierto número de casos profundos (o roles de caso, para diferenciar de los superficiales o sintácticos), algunos obligatorios, otros opcionales, los cuales forman su marco semántico. Así, un marco de caso describe aspectos importantes sobre valencia semántica de verbos, adjetivos y sustantivos.

Las Nociones de Caso (o Roles de Caso) son representaciones de los argumentos léxicos de un predicado a un nivel semántico. Fillmore sugiere que el verbo establece un conjunto de casos en una oración, que pueden ser vistos como espacios a ser llenados por estructuras sintácticas. Así, los roles de caso, se definen como los roles que juegan los constituyentes de una oración en la interpretación de esa oración, estos roles son definidos en un repertorio fijo. Este inventario de Casos es un conjunto de conceptos universales, suficientes para la clasificación de verbos de un lenguaje y reusable en todos los lenguajes. Las lista de los Casos de Fillmore primeramente incluía seis casos:

El Agentivo o Agente: el Caso de la entidad percibida como instigador de la acción identificada por el verbo, en otras palabras “el que hace la acción”.

[Colón]Agente descubrió América.

El Instrumental o Instrumento: el Caso en el que un objeto inanimado o una

fuerza se implican en un modo causal en el estado o acción identificados por el verbo.

Se rompió la ventana [con un martillo]Instrumento.

Dativo: el Caso que es afectado por el estado o la acción identificada por el verbo.

Juan le dio el libro [a María]Dativo.

A pesar de que el nombre de este caso semántico es igual al del caso sintáctico, un

constituyente en el caso Dativo semántico no tiene que ser necesariamente un caso Dativo sintáctico, como en el ejemplo anterior. Un contraejemplo para mostrar esto se ve a continuación, en donde María tiene el caso semántico Dativo pero el caso sintáctico Acusativo.

Juan besó a [María].

Debido a esta similitud de nombres, Fillmore decidió dividir el caso Dativo en tres casos: Experimentador, Objeto y Objetivo.

Factivo o Resultativo: el Caso de la entidad u objeto que resultan de la acción o estado identificados por el verbo. Este rol, luego es absorbido por el rol de Objeto.

Juan daña [la mesa]Resultativo.

33

Page 34: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Objeto: es el Caso semánticamente más neutral. Cualquier entidad propia cuyo rol

en la acción o estado identificados por el verbo está dado por la interpretación semántica del verbo en sí mismo. Es el receptor de la acción verbal.

[Nuestra casa]Objeto se quemó.

Locativo: la ubicación u orientación espacial del estado o acción identificados por el verbo. Fillmore distingue entre dos tipos de caso Locativo: el Locativo Modal , esto es el Locativo que no pertenece a una frase verbal, actúa como un adjunto, y el Locativo Proposicional , el locativo que es parte de una frase verbal, actúa como un argumento.

Juan lava su auto [en el garage]Locativo Modal . Maria guarda sus joyas [en una pequeña caja]Locativo Proposicional . Mientras que el verbo “lavar” tiene una valencia de dos (alguien lava algo) el verbo

“guardar” en el ejemplo anterior tiene una valencia de tres (alguien guarda algo en un lugar). Entonces, el rol locativo es un adjunto opcional en el primer ejemplo mientras que es un argumento en el segundo. Sin embargo, estas sutiles diferencias entre los casos del locativo, llevaron a Fillmore a reconsiderar esta categoría en trabajos posteriores.

Luego de esta lista preliminar de casos, Fillmore notó que eran necesarios casos adicionales por lo que refinó la lista de casos agregando:

Experimentador: la entidad implicada en un evento psicológico o estado mental.

[Los tiburones]Experimentador olieron sangre.

Los predicados psicológicos se expresan en la estructura superficial del lenguaje con los verbos de sentidos (escuchar), emoción (gustar) y cognición (creer).

Comitativo: el Caso usado para expresar acompañamiento.

Los chicos están [con Maria]Comitativo.

Se refina el caso de Locación en tres casos: el Camino, el Origen y el Objetivo. El caso de Locación es la localización espacial, el Camino representa la ruta y los casos de Origen y Objetivo representan los puntos de partida y llegada de la acción o estado invocados por el verbo. Tomás corrió [a través del jardín]Camino [hacia el borde del bosque]Objetivo. Max va [de París]Origen [a Londres]Objetivo.

Temporal: este caso define el momento en el que un evento toma lugar.

34

Page 35: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Se fueron a jugar [a las 10 p.m.]Temporal

Fillmore provee evidencia lingüística para sus roles de casos (o casos profundos). Por ejemplo, argumenta que los sujetos en (a.), (b.) y (c.) abajo tienen diferentes roles temáticos, Agente, Instrumento y Objeto respectivamente, considerando los hechos en (d.), asumiendo un rol por argumento de frase sustantiva. La oración errónea (e.) falla porque trata de asignar los roles Agente e Instrumento al sujeto. a. [Juan]Agente rompió [la ventana]Objeto. b. [Un martillo]Instrumento rompió [la ventana]Objeto. c. [La ventana]Objeto se rompió. d. [Juan]Agente rompió [la ventana]Objeto [con un martillo]Instrumento. e. [Juan]Agente y [un martillo]Instrumento rompieron [la ventana]Objeto. f. [Un martillo]Instrumento rompió [la ventana]Objeto [con un cincel]Instrumento.

4.1.4 Teorías de Roles Semánticos

Fillmore [FILLMORE04] define seis roles de caso: Agente, Instrumento, Dativo,

Factivo, Objeto y Locación. En la teoría original de Fillmore, a los roles semánticos se los llamo casos profundos (como se explicó en la sección anterior). La hipótesis central de su teoría, es que hay una relación directa entre los casos profundos y las funciones gramaticales como sujetos y objetos a las que él ubica como pertenecientes a la estructura superficial de la oración. Trabajos posteriores de Fillmore, mostraron que ese pequeño conjunto de roles de casos profundos no eran suficientes para caracterizar las propiedades complementarias de los ítems léxicos. Entonces, se agregaron Experimentador, Comitativo, Locación, Camino, Origen, Objetivo y Temporal. Finalmente, esto desembocó en la teoría de Semántica de Marcos, que más tarde se plasmó en el proyecto FrameNet (ver sección 4.3.1)

Otra teoría muy influyente sobre roles semánticos fue introducida por Ray Jackendoff [JACKENDOFF01]. Empezó con un conjunto de roles temáticos originalmente introducidos por Gruber en 1965 [GRUBER01]: Tema, Origen, Objetivo y Agente. Jackendoff propuso varias modificaciones y refinamientos a este inventario de roles, basándose en un nuevo formalismo al que llamó Conceptual Semantics (Semántica Conceptual). Según Jackendoff, el significado de una expresión lingüística puede representarse con una estructura conceptual compuesta de Conceptual Constituents (Constituyentes Conceptuales). Un constituyente conceptual involucra una o más primitivas semánticas. Para cada constituyente principal en la estructura sintáctica tiene que haber una correspondencia con un constituyente en la estructura conceptual. El mapeo entre la estructura sintáctica y conceptual está dado por reglas de correspondencia. A pesar de que la fonología (forma fonética) y el significado (forma lógica) siempre fueron tratados como si derivaran de la sintaxis, Jackendoff dice que la jerarquía correcta consiste en poner a la estructura conceptual en una punta, a la estructura fonética en otra punta y la sintaxis en el medio.

35

Page 36: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Otra perspectiva sobre la semántica de roles es la planteada por Dowty [DOWTY01].

Él afirma que “hay una notable ausencia de consenso sobre lo que son los roles temáticos”. Dowty rechaza la idea de asumir roles temáticos individuales para cada verbo, por sobre roles independientes de los verbos. En su teoría, Dowty se focaliza en el problema de la selección de argumentos. La selección de argumentos analiza los principios que determinan cuáles argumentos semánticos del verbo son expresados por cuáles relaciones gramaticales (por ejemplo objeto, sujeto). Dowty dice que los roles temáticos no deben ser tratados como categorías discretas sino como conceptos prototípicos. De esta manera, definió dos proto roles.

La idea de los proto roles es que en realidad hay sólo dos conceptos de tipo rol temático involucrados en la selección de argumentos, y estos son “conceptos agrupados”, es decir, no descritos de manera discreta. Los llama Proto Rol Agente y Proto Rol Paciente, y las considera las única categoría temática en la cual se establecen los principios de enlace. Dowty presenta un listado de propiedades para estos dos proto roles: Para el Proto Rol de Agente:

involucración voluntaria en el evento o estado sensibilidad (y/o percepción) causar un evento o cambio de estado en otro participante movimiento (relativo a la posición de otro participante) existe independientemente del evento nombrado por el verbo

Para el Proto Rol Paciente:

sufre cambios de estado puede ser de carácter incremental afectado causalmente por otro participante estacionario en relación al movimiento de otro participante no existe independientemente del evento, o no existe completamente

Ninguna de estas propiedades son esenciales para ningún rol. En cambio, Dowty da

el siguiente procedimiento: “Principio de selección de argumento: en predicados con sujeto y objeto gramaticales, el argumento para el cual el predicado tiene el mayor número de

propiedades de Proto Agente, será lexicalizado como el sujeto de la oración. El argumento que tenga la mayor cantidad de propiedades de Proto Paciente, será lexicalizado como el objeto directo.” [DOWTY01]

No se trata de encontrar una unificación semántica para la lista de propiedades de los dos proto roles. Proto Agente y Proto Paciente son “conceptos agrupados” o “generalizaciones de alto orden sobre significados” que no necesitan ser considerados como parte de la gramática. En cambio, Dowty sugiere usar el principio de selección de argumento para la adquisición de ítems léxicos.

36

Page 37: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Varios lingüistas tomaron aspectos de la idea de Proto Roles en sus modelos de gramática. La teoría de Davis [DAVIS01] sobre la conexión entre el significado de la palabra y la sintaxis, usa propiedades de los Proto Roles en un tipo de jerarquía de herencia múltiple en el marco de Head­Driven Phrase Structure Grammar de Pollard y Sag [POLLARD01]. Cada propiedad de Proto Rol es codificada en el léxico como un tipo dentro de una jerarquía de tipos y subtipos. Davis asume dos “Macro Roles” llamados Actor y Experimentador, de manera similar a la terminología de Van Valin [VALLIN01].

Una de las teorías que influenció a los recursos léxicos como VerbNet y PropBank fue desarrollada por Beth Levin [LEVIN01]. Levin dice que los marcos sintácticos son un reflejo directo de la semántica de trasfondo. Ella definió clases de verbos basadas en la habilidad del verbo de ocurrir o no en pareja con marcos sintácticos que son de determinada manera preservadores de significado. VerbNet es un recurso léxico en el cual las clases originales de Levin fueron subdivididas en clases adicionales que son más sintácticamente y semánticamente coherentes (ver sección 4.3.2).

4.2 Descripción de Roles Semánticos

Tradicionalmente, los roles semánticos son parte de la Linking Theory (Teoría de

Enlace) [LEVIN01], que es una teoría gramatical en donde se describe la interacción entre sintaxis y semántica. Los roles semánticos son usados para darle significado a los constituyentes sintácticos. La pregunta central de la linking theory es como se pueden inferir estos roles a partir de la sintaxis. Lo que es relativamente nuevo, es la asignación automática de roles basada en la información sintáctica. Debido a que los analizadores sintácticos actuales pueden brindar información sintáctica bastante correcta, últimamente ha resurgido un interés en la anotación de roles semánticos.

Históricamente se han estudiado dos tipos de roles: los abstractos como Agente, Paciente o Instrumento, y roles más específicos asociados a verbos como Vendedor para el verbo “vender” o Comprador para el verbo “comprar”.

4.2.1 Algunos Roles Semánticos Comunes

Teorías como la de Dowty [DOWTY01] definen sólo dos roles Proto Agente y Proto

Paciente. Otras teorías definen como mínimo seis roles básicos descritos por la Gramática de Caso (ver sección 4.1.3). Algunos de los roles temáticos más considerados:

Agente: deliberadamente realiza una acción

[Carlos]Agente tomó la sopa tranquilamente.

Experimentador: recibe entrada sensorial o emocional

El olor a flores llenó la nariz de [María]Experimentador.

37

Page 38: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Tema: sufre una acción pero no cambia su estado. A veces es intercambiable con Paciente.

Me gusta [Juan]Tema.

Paciente: soporta la acción y cambia su estado.

Las rocas que cayeron aplastaron [el auto]Paciente.

Instrumento: usado para llevar a cabo la acción

Emanuel cortó el lazo [con unas tijeras]Instrumento.

Fuerza o causa natural: lleva a cabo la acción sin voluntad propia

[El tornado]Causa natural destruyó la ciudad.

Locación: donde se lleva a cabo la acción

Carlos y Lisa jugaban [en el parque]Locación.

Dirección u Objetivo: a dónde se dirige la acción

El caballo siguió [hacia el establo]Objetivo.

Receptor: un tipo especial de objetivo asociado con verbos que expresan posesión

Le mande la carta a [Juan]Receptor.

Origen: donde se origina la acción

Se lanzó el cohete [desde el cuartel general]Origen.

Tiempo: el tiempo en el que sucede la acción

[Ayer] me encontré con María en la calle.

Beneficiario: la entidad que se beneficia con la acción

Le hice una torta a [Carla]Beneficiario.

Modo: la manera en la que se lleva a cabo la acción

[Con urgencia]Modo, me comunique con su familia.

Propósito: la razón por la cual se lleva a cabo una acción

38

Page 39: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Llame a su casa [para pedir ayuda]Propósito.

Causa: lo que causó que la acción toma lugar en primera instancia

[Como tenía hambre]Causa, se comió la torta.

Es importante notar que no hay diferencias claramente marcadas entre estas

relaciones. Por ejemplo, en la oración “Rompió la ventana con el martillo”, algunos marcan martillo como Instrumento mientras que otros como Agente.

4.2.2 Características de los roles Semánticos

Se considera que los roles semánticos tienen las siguientes características:

1. Existe una cantidad fija de roles semánticos. 2. Los roles semánticos son atómicos. 3. A cada argumento del verbo se le asigna algún rol semántico. 4. A cada argumento del verbo se le asigna un solo rol semántico. 5. Los roles semánticos asignados a los argumentos del verbo son únicos. 6. Los roles semánticos no son relacionales. Esto es, por ejemplo, si hay un rol

Paciente no implica necesariamente la presencia de un rol Agente.

Sin embargo, estas características presentan problemas. En principio, la cantidad fija de roles semánticos es una característica en la que no hay acuerdo. Existen propuestas que van desde una pequeña cantidad hasta varios cientos. Basta con ver el caso de Dowty [DOWTY01] que propone sólo un par de roles o el caso de HPSG [POLLARD01] que propone para cada verbo un juego particular de roles semánticos y que son diferentes de los de cualquier otro verbo.

Otro problema, es la asunción de que a un argumento se le asigna exactamente un solo rol. Esta característica también es cuestionable, como se muestra en el siguiente ejemplo:

Juan corrió dentro de la casa. Tanto Gruber [GRUBER01] como Jackendoff [JACKENDOFF01] coinciden en que

Juan puede ser tanto Agente como Tema. La distinción, que cada argumento de cada verbo se distingue de los otros

argumentos por el rol que se le asigna, es difícil de establecer en ejemplos como los que siguen:

1. Juan jugó con María. 2. Juan se parece a su madre. 3. A es parecido a B.

39

Page 40: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

En estos ejemplos, los dos participantes tendrán el mismo rol. Otro problema es cómo y dónde establecer los límites entre los tipos de roles. Por

ejemplo el caso de los objetos directos que pueden ser Instrumentos o Comitativo. Juan ganó el caso [con un abogado muy bien pago]Instr./Comit..

4.3 Recursos de Roles Semánticos

Con la idea de que un análisis semántico del lenguaje puede contribuir al desarrollo

de aplicaciones basadas en lenguaje, se han desarrollado una cantidad de recursos semánticos. Algunos de los más prominentes son Framenet y PropBank.

4.3.1 FrameNet

La semántica de marcos adquiere una gran relevancia con el desarrollo del proyecto

FrameNet de la Universidad de Berkeley [BAKER01]. Dicho proyecto plantea ir más allá de los simples ejemplos didácticos de marcos semánticos y se dedica a construir una base de datos basada en marcos que contiene cientos de marcos, sus respectivos juegos de palabras, ejemplos de anotaciones y hasta textos completos anotados. El proceso de análisis para la construcción de FrameNet se puede resumir en los siguientes pasos:

1. Caracterización del marco: tipos de situaciones para las que el lenguaje provee medios especiales de expresión. Un ejemplo es el marco “Estacionando”. Las palabras de este marco describen a alguien A deteniendo el movimiento de un B. B puede a veces usarse metonímicamente para referirse a A que lo controla.

2. Describir y nombrar los elementos de marco (FEs): aspectos y componentes del marco que es probable que sean mencionados en frases y oraciones instancias de ese marco. En el caso de “Estacionando”, A es el “Conductor” y B es el “Vehículo”.

3. Seleccionar unidades lexicográficas (LUs) que pertenecen al marco: palabras de cualquier tipo que evoquen y dependan del trasfondo conceptual asociado al marco. En el caso de “Estacionando”, tenemos aparcar.v, atracar.v, estacionar.v, estacionarse.v, fondear.v

4. Anotar oraciones extraídas de un corpus que muestren formas relevantes en las que las unidades lexicográficas evocan al marco. Esto se hace con ayuda de un software de anotación. [CONDUCTOR El chofer] [ TARGET estaciono] [VEHÍCULO mi auto] delante de la puerta del Hotel Ritz.

5. Generar automáticamente entradas lexicográficas, y descriptores de valencia que contienen, resumiendo las observaciones derivables de ellos. En el caso del ejemplo anterior sería:

40

Page 41: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

[CONDUCTOR:SUJETO:NP El chófer] [ TARGET estaciono] [VEHÍCULO:OBJETO:NP mi auto] delante de la puerta del Hotel Ritz. El resultado del proyecto hasta el año 2013 es de 1164 marcos descritos, un índice

de 12711 LUs, 168201 oraciones anotadas ilustrando las LUs y 27691 anotaciones de texto completo.

4.3.1.1 Elementos de marco (FEs)

Los elementos de marco (Frame Elements) son las entidades o propiedades que pueden estar presentes en cualquier instancia del marco en cuestión. Se puede distinguir entre 3 diferentes tipos de marcos de acuerdo a su relevancia. Estos tipos son central, periféricos y extra­temáticos. También se puede nombrar un cuarto valor posible que es el de central­no expresado.

4.3.1.1.1 Elementos de marco centrales

Un elemento de marco central, es aquel que instancia un componente conceptualmente necesario de un marco, haciendo que este marco sea único y diferente de los demás.

Un ejemplo es el marco “Venganza”. En este caso los FEs VENGADOR, CASTIGO, AGRESOR, PERJUICIO y PARTE_PERJUDICADA son todos centrales porque un acto de venganza necesariamente incluye todos estos participantes.

Cuando se habla de centralidad de un FE, se pueden nombrar ciertas características que estos deben poseer, aunque no necesariamente deben tener todas:

Cuando un elemento siempre tiene que estar manifiesto, es central. Un elemento, que cuando es omitido, recibe una interpretación definida, es central. Es central un elemento cuya semántica no puede ser predicha por su forma. Su

interpretación depende puramente del target.

4.3.1.1.2 Elementos de marco periféricos

Son elementos que no introducen eventos adicionales, independientes o únicos; más allá de los principales. Los FEs periféricos marcan nociones del tipo TIEMPO, LUGAR, MODO, MANERA, GRADO y similares. No caracterizan exclusivamente al marco y pueden aparecer en cualquier marco que sea apropiado.

4.3.1.1.3 Elementos de marco extra­temáticos

Estos elementos, contrastan a un evento contra un contexto perteneciente a otro estado de las cosas. Los FEs extra­temáticos, no pertenecen conceptualmente a los marcos

41

Page 42: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

en donde aparecen. A diferencia de los FEs centrales y periféricos, los extra­temáticos, se mantienen (mantienen su significado) a través de los marcos anfitriones en los que aparecen.

4.3.1.1.4 Elementos de marco central­no expresado

Esta es una anotación especial de elementos de marco para el caso en el que se comportan como central en el marco en donde se lo esta marcando, pero que pueden no aparecer en los marcos que heredan de este.

4.3.1.1.5 Instanciación nula de elementos de marco

Puede pasar que a veces no se puedan encontrar los FEs centrales de un LU en la oración construida alrededor de ese LU. Hay tres explicaciones para este fenómeno, una gramática y dos lexicográficas.

La explicación gramatical, tiene que ver con construcciones gramaticales que permiten la omisión de algún argumento. A estos casos se los denomina Instanciación nula constructiva (CNI). Ejemplos de esto son las oraciones en modo imperativo (“Por favor váyase”), oraciones en voz pasiva (“Fuimos estafados”), etc.

También existe la Instanciación nula indefinida (INI) y la instanciación nula definida (DNI). Las DNI son en los casos en los que el elemento faltante es algo que ya está entendido en el texto, o sea viene del contexto.

Las INI se dan en los casos en donde se omite el objeto directo, es decir casos en los que típicamente verbos transitivos se usan como intransitivos. Un ejemplo es el verbo Comer, Juan raramente come solo. Como se ve, puede dársele algún significado al objeto faltante, pero no es algo definido.

4.3.1.2 Relaciones entre marcos

Los marcos de FrameNet están asociados entre sí por diferentes relaciones, lo que permite hacer afirmaciones sobre los tipos semánticos a diferentes niveles de generalidad. Hay siete tipos de relaciones y se pueden agrupar en tres grupos:

4.3.1.2.1 Relaciones de generalización

Herencia: el marco hijo hereda los FEs del padre y puede agregar otros nuevos. Perspectiva sobre: diferentes ítems léxicos (ej: Comprar, Vender) evocan marcos

con diferentes perspectivas sobre un mismo evento abstracto (ej: Transacción Comercial).

Uso: el marco hijo depende del trasfondo del marco padre. Algunos de los FEs del padre pueden estar en el hijo, pero no necesariamente todos.

4.3.1.2.2 Relaciones de estructura de eventos

42

Page 43: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Submarco: representan sub eventos de un evento más complejo. Suele

corresponderse con un ordenamiento temporal. Por ejemplo, el marco Dar está conectado con Pre­Dar y Post­Dar, dando información sobre quién tiene que y cuando. Estos tres marcos juntos constituyen el escenario de Dar.

Precede: esta relación específica ordenamiento temporal.

4.3.1.2.3 Relaciones sistemáticas

Causa de: el marco padre representa la causa del marco hijo. Incoativo de (del aspecto verbal que expresa el comienzo de una acción): el marco

padre representa el incoativo y el hijo el estativo. Por ejemplo el marco Cambiar de posición en una escala (subir, bajar) es el incoativo de Posición en una escala.

4.3.2 VerbNet

Uno de los estudios más importantes sobre la relación entre los roles semánticos y

las diferentes alternancias sintácticas, es el de Levin [LEVIN01]. Levin plantea que los marcos sintácticos son un reflejo directo del significado semántico de un texto. Basado en este principio, describe determinadas clases de verbos según la posibilidad de que ese verbo aparezca apareado con determinado marco sintáctico.

VerbNet [KIPPER01] extiende las clases de Levin añadiendo una representación abstracta de los marcos sintácticos para cada clase, con una correspondencia explícita entre la posición sintáctica y el rol semántico que expresan.

Por ejemplo, para el caso del verbo romper:

1. Juan rompió la ventana. / Agente REL Paciente 2. La ventana se rompió en pedazos. / Paciente REL en pedazos

Las clases originales de Levin, que constituyen los primeros niveles de la jerarquía,

fueron refinadas para dar cuenta de diferencias semánticas y sintácticas más profundas dentro de una clase.

Actualmente, todas las clases de verbos de Levin fueron asignadas a etiquetas temáticas y marcos sintácticos, y más de la mitad de las clases están completamente descritas, incluidos sus predicados semánticos. En muchos casos, la información adicional provista por VerbNet para cada clase causa que estas se subdividan o que se tengan que agregar jerarquías. [KIPPER02]

4.3.3 Propbank (Proposition Bank)

El proyecto PropBank, originalmente hace referencia al corpus creado por Marta

Palmer [PALMER01] en el cual se anotaron las proposiciones verbales y sus argumentos. Este corpus está basando en el corpus de Penn TreeBank. Sin embargo, con el tiempo, el término PropBank pasó a usarse para referirse a cualquier corpus anotado de esa manera.

43

Page 44: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

PropBank se plantea realizar una aplicación práctica de las ideas de Levin [LEVIN01] y el trabajo realizado en el proyecto VerbNet.

La idea de PropBank es crear un corpus lo suficientemente grande y completo como para poder realizar aplicaciones prácticas y estudios empíricos basados en lo planteado por Levin.

PropBank define roles semánticos basados en cada verbo. Los argumentos semánticos de un verbo se numeran comenzando de cero. De este modo, para un determinado verbo, el Arg0 va a ser el Agente y el Arg1 el tema. No se pueden realizar generalizaciones para argumentos de mayores órdenes. Un ejemplo: Frameset patear.01 ‘‘mover con el pie’’ Arg0: Pateador Arg1: Cosa pateada Arg2: Instrumento (por defecto el pie) Ejemplo1: [Arg0 Juan] trató de patear[Arg1 la pelota], pero María la sacó en el último momento.

Un juego de roles correspondientes a un determinado uso del verbo, se denomina roleset y se asocia con un determinado juego de marcos sintácticos que indican las variaciones sintácticas permitidas en la expresión de ese roleset. Un roleset con sus correspondientes marcos asociados, se denomina frameset. Un verbo polisémico (que tiene más de un significado) puede tener más de un frameset.

Además de los roles semánticos descritos en los rolesets, los verbos pueden tomar diferentes tipos de argumentos de modificación: LOC: locación EXT: extensión DIS: conector de discurso ADV: uso general NEG: negación MOD: verbo modal CAU: causa TMP: tiempo PNC: propósito MNR: modo DIR: dirección

Como PropBank está dividido en dos, el léxico de marcos y el corpus propiamente dicho, el proceso de construcción también está dividido, en lo que se llama enmarcado y anotación.

El proceso de enmarcado es el proceso de crear los archivos de marcos, es decir las colecciones de framesets para cada lexema. Consiste en:

44

Page 45: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

1. Se hace un muestreo de oraciones del corpus que usen el verbo en consideración. 2. Se agrupan estas instancias en uno o más sentidos principales. 3. Cada sentido, pasa a ser un frameset. 4. Para mostrar todas las posibles realizaciones sintácticas del frameset, se incluyen

varias oraciones sacadas del corpus. Si alguna realización en particular no es encontrada en el corpus (Penn TreeBank), se crea un ejemplo.

El proceso de anotación consiste en la anotación completa del corpus. En el caso original de PropBank, el corpus es el Penn TreeBank. Consiste en:

1. Hacer una primera corrida de anotación automática con un algoritmo basado en reglas.

2. El texto pre anotado, es corregido manualmente por anotadores humanos.

Es importante notar que este proceso es realizado verbo por verbo, no tomando el texto de corrido. La desventaja de esta aproximación, es que es difícil obtener una idea rápida del texto completamente anotado y poder prever la utilidad final del trabajo. Es por esto, que se extrajo un subcorpus del TreeBank, formado por textos de índole financiera y fue lo que primero se comenzó a anotar.

4.3.4 Wordnet

El proyecto Wordnet [MILLER01] , es un proyecto iniciado por George A. Miller a

mediados de la década de 1980. Es una base de datos léxica del idioma inglés (aunque se fueron creando diferentes versiones en otros idiomas).

Su construcción se basa en agrupar palabras en conjuntos de sinónimos llamados synsets. Proporciona una definición corta y general, y además almacena relaciones semánticas entre conjuntos de sinónimos. Las relaciones semánticas que se almacenan en Wordnet son:

Sinónimos (mismo significado): es la relación básica de Wordnet, porque WordNet usa juegos de sinónimos (synsets) para representar el sentido de las palabras.

Antónimo (significado opuesto) Hiponimia (subclase) y su inversa, Hiperonimia (superclase), son relaciones

transitivas entre synsets. Como usualmente existe una sola hiperonimia, esta relación organiza el significado de los sustantivos en una estructura jerárquica.

Meronimia (nombre de una parte) y su inversa, holonimia (nombre del todo), son relaciones semánticas complejas.

Troponimia, es para los verbos lo que la hiponimia es a los sustantivos. Sin embargo, las jerarquías resultantes son poco profundas.

Implicación, es una relación de implicancia entre verbos.

45

Page 46: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

4.3.5 Comparación entre FrameNet, PropBank y Wordnet

Tanto el proyecto PropBank como FrameNet, tienen el objetivo común de

documentar la realización sintáctica de los argumentos de los predicados del idioma Inglés anotando un corpus con roles semánticos. A pesar de las similitudes entre los dos proyectos, sus metodologías son diferentes. FrameNet se enfoca en Marcos semánticos, que se definen como una representación esquemática de situaciones que involucran a varios participantes, proposiciones y otros roles conceptuales [FILLMORE03]. La metodología del proyecto procede en una forma de marco­por­marco, esto quiere decir, primero se escoge un marco semántico (por ej, Comercio), se define el marco y sus participantes (elementos de marco) (COMPRADOR, BIENES, VENDEDOR, DINERO), se listan los predicados léxicos que invocan ese marco (comprar,vender, etc.) y luego se buscan ejemplos de oraciones para cada predicado en un corpus (para este caso se usó el British National Corpus) y se anota cada elemento de marco en cada oración. Las oraciones de ejemplo se eligen con el criterio de cubrir todos los casos de realizaciones sintácticas de los elementos de marco y se prefirieron ejemplos simples de estas realizaciones en vez de ejemplos complejos.

En contraste con FrameNet, PropBank, cuyo objetivo es el de brindar datos de entrenamiento para sistemas de etiquetado estadístico, tiene que proveer anotaciones para todas las oraciones presentes en el Penn TreeBank, sin importar cuán complejas sean.

Similarmente a FrameNet, PropBank trata de etiquetar consistentemente verbos relacionados semánticamente, basándose en las clases de VerbNet para determinar esta relación. Sin embargo, hay mucho menos énfasis en la definición de la semántica de la clase a la que están asociados los verbos, aunque para verbos relevantes se provee más información mapeándolos a VerbNet.

Los roles semánticos de PropBank para una determinada clase de VerbNet, pueden no corresponder con los elementos semánticos etiquetados por un marco particular de FrameNet, como se ve en la siguiente tabla. Comparación de Marcos PropBank FrameNet Comprar Vender COMERCIO Arg0: comprador Arg0: vendedor Comprador Arg1: cosa comprada Arg1: cosa vendida Vendedor Arg2: vendedor Arg2: comprador Pago Arg3: precio pagado Arg3: precio pagado Bienes Arg4: beneficiario Arg4: beneficiario Medida/Unidad Anotación de FrameNet: 1) [Comprador Carlos] compró [Bienes un auto] [Vendedor a Gerardo] [Pago por $1000]. 2) [Vendedor Gerardo] vendió [Bienes un auto] [Comprador a Carlos] [Pago por $1000]. Anotación de PropBank:

46

Page 47: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

3) [Arg0 Carlos] compró [Arg1 un auto] [Arg2 a Gerardo] [Arg3 por $1000]. 4) [Arg0 Gerardo] vendió [Arg1 un auto] [Arg2 a Carlos] [Arg3 por $1000].

En los ejemplos anteriores el marco de FrameNet COMERCIO incluye los roles Comprador y Vendedor y los asigna consistentemente en dos oraciones que describen el mismo evento. PropBank necesita un nivel más de inferencia para determinar quién tiene la posesión del auto en cada caso. Sin embargo, FrameNet no indica que el sujeto en cada caso es un Agente, hecho que si se representa en PropBank al etiquetar los dos sujetos con Arg0. Esto no es obvio ya que el sujeto no siempre es necesariamente un Agente, como suele pasar con oraciones en voz pasiva.

Hasta el momento, PropBank solo se dedica a trabajar con verbos, mientras que FrameNet incluye sustantivos y adjetivos. La anotación de PropBank también difiere en que se hace en referencia a los árboles sintácticos del Penn TreeBank; y no solamente se les muestra estos árboles a los anotadores cuando analizan una oración, sino que se los obliga a asignar las etiquetas semánticas a nodos de estos árboles. En FrameNet no se usan árboles de análisis sintáctico. Los anotadores marcan el principio y el fin de los elementos

de marco en el texto y agregan una etiqueta de función gramatical que expresa la relación sintáctica del elemento de marco con el predicado.

4.3.6 Recursos en otros idiomas

Los datos multilingüísticos se refieren a la existencia de recursos similares para más

de un lenguaje. En la práctica, los datos multilingüísticos pueden ser comparados sólo si representan el mismo tipo de información lingüística. Por ejemplo: el léxico, la ortografía, fonología, sintaxis o semántica.

Durante el proyecto EuroWordNet [VOSSEN01], cuyo objetivo era construir un WordNet multilingüe para ocho lenguajes europeos, se distinguieron dos métodos a los que llamaron Merge Approach (unificación) y el Expand approach (expansión).

En el método de Merge Approach, se crean diferentes recursos para diferentes lenguajes desde cero. Luego se agregan enlaces que relacionan determinados tipos de componentes interlingüísticos. Según Pianta et al. [PIANTA01], esta aproximación genera algunos problemas durante la etapa de alineación. Argumentan que los recursos desarrollados independientemente pueden ser más divergentes que lo lingüísticamente necesario porque los diseñadores del recurso son libres de tomar decisiones en un nivel más abstracto.

En el método Expand Approach se toma un recurso que es visto como estable para un lenguaje y se transfiere a otro lenguaje. Esto implica que al principio la estructura general del recurso se mantiene estable excepto por algunas informaciones obvia del lenguaje específico. El problema conocido de este método es el hecho de que dos lenguajes diferentes pueden lexicalizar diferentes conceptos y, por lo tanto, las relaciones entre las diferentes estructuras varían de lenguaje a lenguaje. Por esta razón, el Expand Approach requiere una etapa de “limpieza” del recurso luego de la transferencia inicial.

47

Page 48: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

El Expand Approach tiende a producir recursos de estructura similar, bajo el riesgo de dejar de lado diferencias específicas del lenguaje en lexicalización (es decir, la estructura del léxico).

Las bases de datos multilingües construidas en base al modelo FrameNet son organizacionalmente similares. En principio, FrameNet permite referencias cruzadas multilingües en muchos niveles, incluyendo marcos, unidades léxicas, lemas, o hasta palabras de oraciones no anotadas. Los aspectos específicos del lenguaje en las definiciones incluyen oraciones de ejemplo y generalizaciones de patrones de realización sintáctica. En los FrameNets en otros idiomas, se reemplazan los ejemplos en inglés por ejemplos en el idioma en cuestión que cumplan la misma función.

4.3.6.1 Alemán

El proyecto SALSA [ERK02], consiste en marcar manualmente y semi automáticamente un corpus en idioma alemán con roles semánticos para poder derivar un recurso semántico léxico grande independiente de cualquier dominio. El corpus usado es TIGER, un corpus de 1.5 millones de palabras de diarios de noticias con su estructura sintáctica anotada manualmente, y cuya anotación semántica se hizo usando los roles semánticos de FrameNet.

Para representar este corpus, surgió la necesidad de crear un formato de anotación multi nivel estandarizado, que integre anotación semántica de roles con otros niveles de anotación lingüística. Así surgen dos formatos para la descripción y codificación de información sobre roles semánticos en el corpus:

el formato TIGER/SALSA XML: provee una representación modular para roles semánticos y estructura sintáctica.

el formato Text­SALSA XML: una versión liviana de TIGER/SALSA XML diseñada para anotación manual con un editor XML.

El diseño de TIGER/SALSA XML es genérico y adaptable por lo que no está limitado a la anotación de roles semánticos ni a este corpus. TIGER/SALSA XML puede codificar roles semánticos que son específicos del verbo (como el caso de PropBank), específicos de grupos de verbos (como FrameNet), o generales (como el Prague TreeBank).

4.3.6.2 Japonés

El proyecto de FrameNet en Japonés (JFN) [JPNFRAMENET01] comenzó en el 2002 en la Universidad de Keio (aunque también incluye investigadores de la Universidad de Tokio). El corpus del JFN contiene hasta el momento 1 millón de oraciones obtenidas del corpus anotado de la Universidad de Kioto. Este corpus contiene más de 40000 oraciones anotadas morfológica y sintácticamente.

De este proyecto, surgen preguntas importantes de investigación tales como hasta qué punto la aproximación de Semántica de Marcos es adecuada para analizar el léxico japonés y también en qué medida los marcos existentes basados en el idioma inglés son aplicables para caracterizar las unidades léxicas japonesas.

48

Page 49: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

4.3.6.3 Español

El proyecto de Framenet en Español (SFN) [SUBIRATS03] es auspiciado por el Departamento de Ciencia y Tecnología de España y desarrollado por la Universidad Autónoma de Barcelona por un equipo liderado por el Dr. Carlos Subirats Rüggeberg. El objetivo del FrameNet en español es el de anotar un corpus de citas y descubrir patrones de valencias para un gran número de palabras predicativas, mostrando cómo estos patrones de valencia son instanciados en oraciones verdaderas.

Cada entrada del FrameNet en Español provee enlaces a otros recursos léxicos, incluidos los synsets y sus categorizaciones de marcos sintácticos del EuroWordNet en Español. Los entregables del proyecto consisten en la base de datos: entradas léxicas para cada palabra, descripción de los marcos y subcorpus anotados. SFN usa un corpus de 300 millones de palabras, el mismo software y base de datos que el del proyecto de Berkeley. El corpus del SFN incluye Español Americano y Europeo. Los textos que lo componen provienen de diferentes fuentes tales como diarios de noticias, opinión de libros y ensayos humanistas entre otros. Estos textos heterogéneos hacen un total de 350 millones de palabras.

4.3.6.4 Sueco

Investigadores de la Universidad de Gotemburgo están construyendo el FrameNet Sueco (SweFN++) [SWEFRAMENET01] basado principalmente en léxico sueco existente, pero usando los marcos y elementos de marco del FrameNet de Berkeley. Los datos son de acceso libre y están disponibles en diferentes formatos. Para el año 2010 reportaron tener más de 2300 unidades léxicas y 51 marcos. El léxico viene con oraciones de ejemplo para cada elemento de marco central de los marcos que tienen hechos.

4.3.6.5 Portugués (Brasil)

En la Universidad Federal de Juis de Fora en Brasil se ha estado trabajando para crear una base de datos léxica tipo FrameNet en portugués brasileño (FrameNet Brasil) [BRFRAMENET01], en colaboración con el equipo de FrameNet en Berkeley. Crearon un corpus de aproximadamente 104 millones de palabras provenientes de texto escrito, diálogos transcritos y subtítulos de películas. Además desarrollaron su propio software de anotación. Los primeros datos disponibles para el público general constan de 32 marcos y 38 unidades léxicas.

Uno de los grandes objetivos de todos los proyectos mencionados, es lograr generar sistemas de anotación automática de textos y así poder utilizar la salida de estos como información de entrada para sistemas de extracción de información, sistemas que contestan preguntas, clasificadores y otros dentro de lo que es el procesamiento del lenguaje natural.

49

Page 50: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

4.4 Anotación automática

4.4.1 Anotación automática de textos con FrameNet

Existen varios proyectos que encaran el problema de la notación automática de roles

semánticos (ASRL, Automatic Semantic Role Labeling), algunos de los más conocidos son:

Shalmaneser. [LINKSHAL1] [ERK01] LTH. [LINKLTH1] SEMAFOR. [LINKSEMAFOR1]

Uno de los artículos más citados y fundamentales sobre ASRL y FrameNet es el

“Automatic Labeling of Semantic Roles (2002)” [JURAFSKY01] en el cual se hace un estudio exhaustivo de la relación de determinadas características del texto tales como sintaxis, morfología, modo de los verbos, etc. y los roles semánticos.

Este trabajo se basa en la linking theory de Levin que en términos generales dice que la realización sintáctica de los argumentos de un predicado, es predecible desde su semántica. Esta relación, sugiere que puede ser posible aprender a reconocer relaciones semánticas a partir de indicaciones sintácticas.

El sistema estadístico de anotación automática planteado por Jurafsky [JURAFSKY01], tiene en consideración las siguientes características (features) del texto:

Tipo de Frase (Phrase Type): característica que indica el tipo sintáctico de la

frase que expresa el rol semántico. Diferentes roles semánticos tienden a ser realizados por diferentes categorías sintácticas. Por ejemplo, el rol SPEAKER, del marco comunicación, tiende a aparecer como una frase nominal, NP (noun phrase). Las categorías sintácticas que se usan, son las del proyecto Penn Treebank.

Categoría dominante (Governing Category): la correlación entre roles semánticos y realización sintáctica como sujeto u objeto directo, es uno de los primeros hechos que la linking theory de Levin trata de explicar. De estas observaciones se pueden obtener reglas como “Si existe un AGENTE, éste se convierte en el sujeto sintáctico”. A esta característica se la llama Categoría dominante o gov. Tiene solo dos valores posibles, S o VP, según sean sujetos u objetos de verbos, solo aplica al tipo de frase NP. Se demostró que en otros tipos no tiene mucho efecto.

Camino del árbol de análisis sintáctico (Parse Tree Path): esta característica está diseñada para capturar la relación sintáctica entre un constituyente y su predicado.

50

Page 51: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 4 [JURAFSKY01]

Se define como el camino (path) desde el predicado a través del árbol de análisis sintáctico hasta el constituyente. Se representa como una cadena de etiquetas no terminales del árbol enlazadas con símbolos indicando movimientos arriba y abajo en el árbol. Como en el caso del ejemplo (gráfico 4), sería VB↑VP↑S↓NP. Si bien es una cadena de símbolos, el sistema lo trata como un atributo atómico.

Posición (position): este atributo indica si el constituyente a etiquetar ocurre antes o después del predicado. Esta característica está muy correlacionada con la función gramatical y puede servir para disminuir el efecto de errores de análisis sintáctico.

Voz (voice): característica que distingue entre verbos pasivos y activos, es importante para predecir roles semánticos porque el objeto directo de verbos activos corresponde a sujetos de verbos pasivos.

Palabra cabecera (headword): esta es una característica léxica y provee información sobre el tipo semántico del que cumple el rol. Las palabras cabeceras de los nodos, se determinan usando el mismo juego de reglas determinísticas usadas por Collins [COLLINS01].

En el artículo de Subirats [SUBIRATS01] se comparan las dos herramientas de

anotación automáticas: Shalmaneser y SEMAFOR entrenadas con el FrameNet en español y se concluye que SEMAFOR obtiene mejores resultados y además abarca más casos que Shalmaneser.

4.4.2 Anotación automática de textos con PropBank

En PropBank, la anotación automática, es parte constitutiva del proyecto. Uno de los

objetivos explícitos de PropBank es poder proveer datos de entrenamiento para herramientas de anotación automática supervisada.

Una de las ventajas que tiene PropBank para este objetivo, es que las oraciones

51

Page 52: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

elegidas para ser anotadas son del corpus del Wall Street Journal usado para el proyecto Penn Treebank, y por esto, todas tiene un árbol sintáctico chequeado por anotadores humanos. Esta información sintáctica de calidad, le da una ventaja importante en el momento de entrenar herramientas que usan esta información como característica. [PALMER01]

El método de anotación automática de Propbank, descrito por Palmer [PALMER01] se basa en el trabajo de Jurafsky [JURAFSKY01] y que originalmente fue pensado para FrameNet.

52

Page 53: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

5. Trabajos relacionados

En trabajos previos [LLORENS01/2/3/4] se hizo uso de información semántica brindada por PropBank para mejorar la anotación automática de textos con TimeML. En general se concluyó que el uso de información semántica mejora notablemente el reconocimiento y clasificación de información temporal en los textos. Como mejora y trabajo a futuro estos trabajos sugieren el uso de los roles de FrameNet y de un análisis más profundo sobre qué características de los roles semánticos a tener en cuenta para entrenar los modelos [LLORENS02].

En el artículo de Schilder [SCHILDER01] se presenta un sistema FST (Finite State

Transducers) que marca información temporal en textos, basado principalmente en reglas de sintaxis. Luego genera una representación semántica de las expresiones detectadas y esto le permite hacer inferencias, especialmente sobre las relaciones temporales.

En el trabajo de Congmin [CONGMIN01] se plantea el problema de reconocer

información y relaciones temporales en textos haciendo uso, entre otras características de los textos, los roles semánticos (ej:.AGENTE o SUJETO).

Es interesante la investigación de Uzzaman [UZZAMAN01] en donde plantean los

sistemas TRIPS ([ALLEN01]/[ALLEN02]) y TRIOS para resolver problemas de marcación de información y relaciones temporales en textos. Para el entrenamiento de las herramientas de etiquetado se usan diferentes técnicas y características del texto. Entre las características usadas, están las de información semántica que se extraen usando la ontología TRIPS LF (Logical Form), diseñada para ser motivada lingüísticamente e independiente del dominio. Los tipos semánticos fueron creados con consideraciones lingüísticas más que por requerimientos de componentes del sistema. En general, los tipos semánticos en la ontología LF son compatibles con los tipos de FrameNet. El analizador sintáctico TRIPS usa un número más reducido y general de roles semánticos para enlazar los argumentos sintácticos y semánticos; al contrario de FrameNet que posee un juego extenso de elementos de marco especializados. La ontología LF define aproximadamente 2500 tipos semánticos y 30 roles semánticos. En el trabajo de Uzzaman [UZZAMAN02] se extiende el desarrollo de este trabajo y se estudia el agregado de más información e información semántica a las anotaciones de TimeML y proponen la creación de un nuevo corpus con esta información, TRIOS­TimeBank.

Otro trabajo que usa información semántica para la extracción de información

temporal, es el de Ling [LING01]. Este trabajo parte de la base de que en el área de extracción de información por mucho tiempo no se consideró la variable temporal de la información extraída. Se presenta el método TIE (Temporal Information Extraction). El problema que se plantean resolver es, dada una secuencia de oraciones de texto en lenguaje natural (T), se busca generar un juego de elementos temporales (E) y sus respectivas restricciones (C) . Los elementos pertenecientes a E, pueden ser eventos o referencias temporales (por ejemplo: “los oficiales fueron despachados” o “1999”). Las restricciones C, son desigualdades lineales que denotan inicio, comienzo y duración de los

53

Page 54: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

elementos temporales. El objetivo es lograr extraer la mayor cantidad de elementos temporales y el juego de restricciones más compacto posible.

En términos generales, el flujo de trabajo de TIE se divide en:

1. Preprocesamiento: a. Eventos y atributos temporales: se usa el software Evita y GUTime (ver

sección 3.2.3) para detectar eventos y expresiones temporales, marcándolos con anotaciones TimeML.

b. Características de dependencia: se generan pares de dependencias entre elementos. Por ejemplo:

“Australia ha sido independiente desde 1901” genera prep_since(independiente,1901)

c. Características SRL (roles semánticos): se busca el argumento temporal AM­TMP para cada verbo (si es que tiene argumento temporal).

2. Identificación de Relaciones Temporales: se usa un modelo probabilístico pre entrenado con datos de TimeBank; y combinado con reglas de transitividad, para clasificar cada elemento temporal.

Finalmente se compara la precisión de TIE contra otros tres sistemas de extracción de informacion temporal, dando como resultado una notable mejora.

54

Page 55: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6. Desarrollo

Existen tres grandes grupos de elementos temporales que se pueden marcar en un texto, como se explicó en la sección 3.2.1.1, son: TIMEX3, EVENTs y LINKs. Cabe recordar que los elementos TIMEX3 son expresiones temporales explícitas, tales como horas, fechas, duraciones,etc. Los elementos EVENT son situaciones que suceden u ocurren, pudiendo ser puntuales o por un periodo determinado de tiempo. Luego están los LINKs que representan relaciones temporales y de orden entre EVENTs y entre EVENTs y TIMEX3.

La tarea de detección de marcas temporales TIMEX3 está bastante madura dentro del área de procesamiento del lenguaje natural. Como se mencionó en la sección 3.2.3.1, la herramienta GUTime, que es parte del juego de herramientas TARSQI, brinda una Medida­F de 78% para anotar texto libre con TIMEX3. Es por eso que en este trabajo se pone especial énfasis en las tareas de detección de EVENTs y LINKs. Sin embargo son necesarias las marcas temporales TIMEX3 para la detección y anclaje de los otros elementos temporales, por lo que deberán estar dentro de los textos anotados.

Debido a que la naturaleza de los eventos (EVENTs) en un texto es diferente a la de los enlaces (LINKs) entre estos eventos, se separa el trabajo de detección de EVENTs y el de detección de LINKS en dos módulos de trabajo diferentes. Se analiza cómo la información semántica interactúa con los LINKs y EVENTs ayudando para su detección. A continuación se explica cómo se encaró en líneas generales el análisis en cada módulo de trabajo.

6.1 Esquema general de trabajo

Para comenzar, se partió del corpus de TimeBank 1.2 que está compuesto por

textos marcados con etiquetas TimeML. Como siguiente paso, se usó la herramienta de anotacion semántica automática

SEMAFOR para anotar este mismo corpus. De esta manera se obtuvo un corpus anotado con TimeML y Marcos de FrameNet.

En este punto el trabajo se divide en las dos ramas mencionadas, la detección de EVENTs por un lado y la detección de LINKs por otro.

Para la generación de modelos de detección de EVENTs, se desarrollaron una serie de herramientas que interpretan las anotaciones de FrameNet y de EVENTs TimeML, y, de esta manera, generar archivos de entrenamiento con diferentes características a tener en cuenta. Estos archivos de entrenamientos, fueron usados para entrenar los modelos de detección de EVENTs usando un algoritmo de CRF provisto por la herramienta CRFSuite. Esta última sucesión de pasos se repitió las veces necesarias para detectar las características que más mejoraron los modelos.

Para la generación de modelos de detección de LINKs, se procede de manera análoga a la usada para los EVENTs con la diferencia de que en este caso el algoritmo utilizado es el de SVM provisto por la herramienta Weka. Se explica más adelante.

En el gráfico 5 se muestra un esquema del desarrollo de los diferentes componentes y análisis.

55

Page 56: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 5

En la siguiente sección se analiza el módulo marcador de eventos y los análisis que

lo fundamentan.

6.2 Módulo marcador de eventos

En la siguiente oración, se pueden ver marcados dos eventos:

On the other hand, it's <EVENT eid="e1" class="OCCURRENCE">turning</EVENT> out to be another very <EVENT eid="e369" class="STATE">bad</EVENT> financial <TIMEX3

tid="t83" type="DURATION" value="P1W" temporalFunction="false"

functionInDocument="NONE">week</TIMEX3> for Asia.

Una de las principales características que se ven de las marcas de eventos es que son consumidoras de texto. Diferente es el caso de los enlaces que no son consumidores, como se explicará más adelante. Esto hace que el hecho de que una palabra sea o no un evento, depende mucho del contexto que la rodea. Esta es una de las principales razones por las que se decidió utilizar el algoritmo de clasificación CRF (Conditional Random Fields) tal como lo hace Llorens [LLORENS02], además de ser el más frecuentemente usado para este tipo de tareas de anotación automática. A continuación se describe CRF y se

56

Page 57: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

profundiza en sus beneficios para el presente trabajo.

6.2.1 Conditional Random Fields

Conditional Random Fields (CRFs) es una clase de método de modelado estadístico

usualmente aplicado a reconocimiento de patrones y aprendizaje automático [LAFFERTY01]. Mientras que los clasificadores estadísticos ordinarios predicen una etiqueta para una muestra sin tener en cuenta las muestras vecinas, un CRF puede tomar en cuenta este contexto. Por ejemplo el CRF de cadena lineal, muy popular y eficiente en el campo del procesamiento del lenguaje natural, predice secuencias de etiquetas para las muestras dadas. Una de las ventajas clave de los CRF, es su flexibilidad para incluir una extensa variedad de características de entrada arbitrarias y dependientes. Se puede ver la tarea de marcado de eventos como un problema de etiquetado de secuencias. Asumiendo que:

X es una variable aleatoria sobre la secuencia de datos a ser etiquetados Y es una variable aleatoria sobre la correspondiente secuencia de etiquetas

(ocultas/desconocidas) Todos los componentes Yi son miembros de un alfabeto finito γ X puede variar sobre oraciones de lenguaje natural Y puede variar sobre etiquetas de eventos de esas oraciones γ es un juego de posibles etiquetas de eventos IOB2 (formato IOB2: (B)egin,

(I)nside, (O)utside) El siguiente ejemplo (tabla 1) ilustra el problema:

X Y

Él ?

vendió ?

la ?

propiedad ?

Tabla 1 [LLORENS02]

?=B_EVENT, I_EVENT, O

Las variables X e Y están distribuidas conjuntamente sobre las secuencias de

etiquetas y observaciones. Sin embargo, a diferencia de los Modelos Ocultos de Markov que son de tipo generativo y en donde se modela p(X,Y). En el caso de los CRFs, que son de tipo discriminativo, construyen un modelo condicional del aparejamiento de las

secuencias de observaciones y etiquetas, modelando p(Y |X)

57

Page 58: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráficamente, los CRFs son representados por grafos no dirigidos, G=(V,E) siendo que Y = (Yv), v ∊V, así Y es indexada por los vértices de G. Entonces (X, Y) es un Conditional Random Field si las variables Yv obedecen la propiedad de Markov respecto del grafo cuando son condicionadas por X: P (Yv |X, Yw , v ≠ w) = P (Yv |X, Yw , v ∼ w) v ∼ w significa que Yw y Yw son vecinos conectados en G.

Para extender este problema a la clasificación de eventos (hasta ahora es solo detección), habría que extender el alfabeto γ para que abarque los demás tipos de eventos de TimeML (ocurrencia, estado, reporte, etc)

Para el problema que se quiere resolver en esta tesis, esta es una técnica recomendada de aprendizaje automático a utilizar. Los eventos pueden depender de propiedades estructurales de las oraciones del lenguaje natural y la información semántica está relacionada con la estructura de los eventos. Por ejemplo: El controlador en el centro de Boston <EVENT eid="e22"

class="I_ACTION">trata</EVENT> de <EVENT eid="e24"

class="OCCURRENCE">remontar</EVENT> al vuelo TWA ochocientos. El <EVENT eid="e56" class="REPORTING">dice</EVENT> que el y el Papa <EVENT

eid="e57" class="I_STATE">quieren</EVENT><EVENT eid="e59"

class="ASPECTUAL">terminar</EVENT> la <EVENT eid="e60"

class="OCCURRENCE">explotación</EVENT> del hombre por el hombre.

Una característica de los eventos de tipo I_ACTION, I_ASPECT y ASPECTUAL es que siempre presentan a otro de evento.

Dado este análisis, se concluye que los CRFs son útiles en el reconocimiento de eventos en los cuales las propiedades secuenciales y estructurales sean relevantes.

En la siguiente sección, se procede a analizar comparativamente a los eventos de

TimeML contra los diferentes marcos de FrameNet. De esta manera se demostrará cómo la información semántica de FrameNet es sumamente rica y útil para el objetivo propuesto de detección de eventos temporales.

58

Page 59: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.2.2 Tipos de Eventos TimeML y Marcos de FrameNet

Como se detalló anteriormente (Sección 3.2.1.1), TimeML define diferentes tipos de

eventos (Reporting, Perception, Aspectual, I_Action, I_State, State y Occurrence). Realizando el análisis para esta tesis, se encontró una relación muy estrecha entre los tipos de eventos de TimeML y determinados marcos de FrameNet.

Cabe aclarar que muchos tipos de eventos, se relacionan con ciertas palabras. Sin embargo, esto no quiere decir que cada vez que aparece esa palabra expresa un evento de ese tipo. Es decir, las palabras pueden ser ambiguas con respecto al tipo del evento. Este problema de ambigüedad es parcialmente solucionado con el uso de marcos semánticos, ya que los marcos distinguen el sentido de las palabras.

Por ejemplo, la palabra (o Unidad Léxica en términos de FrameNet) “decir” puede pertenecer a al Frame “Spelling_and_pronouncing” (Ej: Mi pequeña sobrina no puede decir prestidigitación) o al Frame “Statement” (Ej: Evelyn dijo que no estaba lista para salir). En el primer caso el verbo decir no representaría un evento mientras que en el segundo representa un evento de tipo Reporting.

A continuación se detallan cada tipo de Eventos TimeML y como cada uno de estos se puede relacionar con determinados marcos en la jerarquía de marcos de FrameNet. En los diferentes ejemplos de marcos semánticos, aparecen determinadas partes del texto en color. Este tipo de presentación, es la usada por FrameNet en su sitio web (https://framenet.icsi.berkeley.edu/fndrupal/home) para que sea simple de entender que parte de la oración corresponde a determinado elemento de marco. Además, en los ejemplos se muestran diferentes gráficos que muestran relaciones entre Marcos de FrameNet, estos gráficos fueron obtenidos con la herramienta web provista por FrameNet (https://framenet.icsi.berkeley.edu/fndrupal/FrameGrapher).

6.2.2.1 Análisis de los tipos de eventos TimeML contra los marcos de FrameNet

6.2.2.1.1 REPORTING

Este tipo de evento coincide con la definición de los marcos Reporting y Statement.

Los eventos de tipo Reporting describen la acción de una persona u organización declarando algo, narrando un evento, informando sobre un evento, etc. Algunos ejemplos de esto pueden ser los terminos: decir, reportar, contar, explicar, establecer. Juan dijo que no hubo incidentes durante el fin de semana. Marina explicó que no había que dejar el artefacto conectado durante la noche.

Esta es la definición del marco Statement extraída del proyecto Framenet:

59

Page 60: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Este frame contiene verbos y sustantivos que comunican el acto de un Orador de dirigir un Mensaje a un Receptor usando lenguaje. Se puede usar una gran variedad de palabras tales como “declara”, “decir” o “insistir”. Ella dijo que yo llegaría tarde.

La propiedad de herencia de los frames, nos permite extender las conclusiones

obtenidas para un frame, en este caso Statement, hacia todos sus descendientes

actuales o que se vayan creando a futuro con la evolución natural del proyecto

FrameNet.

En el gráfico 6 se muestra un diagrama del frame Statement y sus hijos:

Gráfico 6 [FRAMENET02]

6.2.2.1.2 PERCEPTION

Esta clase incluye eventos que involucran la percepción física de otro evento. Estos eventos son típicamente expresados por verbos como: ver, mirar, observar, escuchar, oír. El testigo le dijo a la policía que vio un hombre corriendo.

Un marco relacionado con este tipo de evento es Perception cuya definición es:

Un Perceptor percibe un Fenómeno. El marco general Perception es un contexto heredado para todos los marcos que tienen que ver con un ser sensible que responde a cambios en el ambiente, independientemente de las modalidades sensoriales. Los marcos que heredan pueden expresar modalidades (ver, escuchar, degustar, oler), o pueden enfatizar las experiencias o actos del perceptor (ojear), o las propiedades del fenómeno percibido (traqueteo, vibrar). Yo huelo algo podrido.

La estructura de herencia del marco Perception (gráfico 7):

60

Page 61: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 7 [FRAMENET02]

6.2.2.1.3 ASPECTUAL

Esta clase de evento, se focaliza en diferenciar diferentes facetas de la historia de un evento.

1. Iniciación: empezar, comenzar, originar, iniciar 2. Reiniciación: reiniciar 3. Terminación: parar, cancelar, terminar, cesar, discontinuar, interrumpir, abandonar 4. Culminación: terminar, completar 5. Continuación: continuar, proceder, seguir, persistir, perseverar

El volcán empezó a mostrar signos de actividad en Abril por primera vez en 600 años.

Existen varios marcos que se relacionan con este tipo de evento. Por ejemplo: Process_start, Process_resume, Process_stop, Process_end, Process_continue. Como se puede ver, el paralelismo entre los eventos de tipo Aspectual y frames es muy marcado.

Es interesante analizar parte del esquema de herencia y causalidad para estos frames (gráfico 8):

61

Page 62: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 8 [FRAMENET02]

Se ve claramente como existe un marco para cada aspecto de los eventos. Además

FrameNet brinda información sobre causalidad de estos eventos (información sobre el orden). Esto último va a ser de utilidad más adelante cuando se analicen los enlaces entre eventos.

6.2.2.1.4 I_ACTION

Denota una Intensional Action (Acción Intensional). Cabe aclarar que el término “Intensional” (como opuesto de extensional) en el área de lingüística, se refiere al conjunto de rasgos o propiedades que forman el significado de un concepto [COOK01]. Los contextos en donde el valor de verdad de una proposición depende del conocimiento, son de carácter intensional.

Sin embargo, existen trabajos como el de Chrisholm [CHRISHOLM01] que establecen que los fenómenos intencionales son intensionales. Por ejemplo, los actos mentales, tales como creer o pensar, forman contextos intensionales. Esta propiedad es de gran importancia para establecer relaciones entre determinados marcos de FrameNet y el tipo de evento I_ACTION.

Un I_ACTION requiere un argumento de evento (que debe aparecer explícitamente en el texto) que describe una acción o situación sobre la que se puede inferir algo dado su relación con la I_ACTION.

Por ejemplo, los eventos pasados como argumentos de los las I_ACTION en 1 no necesariamente pasaron cuando el I_ACTION sucede.

También se incluyen en esta categoría los predicados performativos (es decir que el hecho de expresarlos, es la acción. Ej: “yo pienso ...”). Estos son los ejemplos del 5 al 9.

Algunos ejemplos en donde se marca el I_ACTION en negrita y los eventos que estos introducen subrayados:

1. tratar, luchar, probar. Israel estuvo tratando de comprar mas mascaras en el exterior.

62

Page 63: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

2. investigar, investigación, ahondar. Una nueva fuerza policial comenzó a investigar los asesinatos de los 2 estudiantes.

3. atrasar, posponer, dificultar, aplazar. Israel pedirá a los Estados Unidos posponer un ataque militar contra Irak.

4. prevenir, evitar, cancelar. Carlos evitó una discusión con Ana yéndose más temprano de la fiesta.

5. pedir, ordenar, persuadir rogar, comandar, urgir, autorizar. Les pidieron que se lleven consigo los papeles importante.

6. prometer, ofrecer, asegurar, proponer, decidir. Sahara ofreció prestar un juego de vajilla a María.

7. jurar. 8. nombrar, nominar, apuntar, declarar, proclamar.

Carlos nominó a Noelia para ocupar el puesto de gerente. 9. sugerir, alegar.

Algunos frames que se relacionan con este tipo de evento son: Intentionally_act,

Attempt, Research, Scrutiny, Change_event_time, Hindering, Avoiding, Preventing, Request, Commitment, Offering, Deciding, Name_conferral

Para ejemplificar, se puede observar el esquema de herencia de Avoiding (gráfico 9):

Gráfico 9 [FRAMENET02]

6.2.2.1.5 I_STATE

Los eventos I_STATE son similares a los de la clase anterior. Esta clase incluye estados que refieren a mundos posibles o alternativos (que se marcan con corchetes en los ejemplos) los cuales pueden ser introducidos por cláusulas subordinadas (1­2), nominalizaciones (3) o frases verbales sin conjugar (4).

63

Page 64: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

1. Juan siente [que Ana no debería ir al cine esta noche]. 2. Una vez que logren extinguirlo, ellos esperan que [los residentes comiencen a

volver a sus casas]. 3. No hay razón por la cual no estaríamos preparados para [un ataque]. 4. Alberto teme no poder [abrir la puerta del salón con esa llave].

A continuación se listan algunos ejemplos representativos:

1. creer, pensar, sospechar, imaginar, dudar, sentir, estar seguro 2. querer, desear, anhelar 3. desear, aspirar, esperar, planear 4. temer, odiar, preocupar 5. necesitar, requerir, demandar 6. estar listo, estar preparado, estar deseoso 7. estar habilitado, estar inhabilitado

Algunos frames que se pueden relacionar con estos eventos son Desiring y Purpose

(gráfico 10)

Gráfico 10 [FRAMENET02]

6.2.2.1.6 STATE

Este tipo de evento describe circunstancias en las cuales algo toma el valor de verdad. Lo interesante para esta tesis es que siempre se van a marcar los estados que son introducidos por un evento de tipo I_ACTION, I_STATE o REPORTING. Por lo que tienen una dependencia estructural que va a ser considerada por el algoritmo de aprendizaje automático.

Algunos ejemplos (el evento de tipo STATE en negrita, el evento que lo introduce subrayado):

64

Page 65: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

El medió la crisis. Saddam Husein buscó paz en otro frente. Har­Shefi contó a la policía que Rabin era un traidor. El frame que tiene que ver con este tipo de evento es State. Este frame engloba

muchos otros en su jerarquía de herencia (gráfico 11).

Gráfico 11 [FRAMENET02]

6.2.2.1.7 OCCURRENCE

Este tipo de evento incluye todos los otros tipos de eventos que describen algo que ocurre en el mundo. Algunos ejemplos:

El Ministro de Defensa dijo que hasta ahora aterrizaron 16 aviones con equipos de protección contra armas biológicas y químicas.

Dos erupciones moderadas justo antes de las 3 p.m. domingo parecieron presagiar una explosión mayor.

El frame Event es el que mejor se ajusta a este tipo de evento debido a su característica generalista.

Hasta este punto, se analizó de una manera general la estrecha relación entre los marcos de FrameNet y los tipos de evento TimeML. En la sección siguiente, se describe la aplicación del algoritmo y selección de características del texto para la generación de modelos que permiten la clasificación y reconocimiento automáticos de eventos TimeML.

6.2.3 Solución implementada y Características del texto utilizadas

Como se estableció anteriormente en la sección 6.2.1, se escogió el método de

aprendizaje CRF para la clasificación y reconocimiento de los eventos. Particularmente se usó la implementación de CRF hecha en la herramienta CRFSuite [LINKCRFSUITE1] usando el algoritmo Orthant­Wise Limited­memory Quasi­Newton (OWL­QN) que es una variante de Limited­memory Broyden­Fletcher­Goldfarb­Shanno (L­BFGS) con regularización L1 y L2 y coeficiente C1=1 y C2=1.

Este es un algoritmo de optimización de la familia de los métodos quasi­Newton que aproxima el algoritmo BFGS usando una limitada cantidad de memoria computacional.

65

Page 66: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Dado este requerimiento lineal de memoria, el algoritmo es particularmente apto para ser aplicado a problemas de optimización con un gran número de variables. Esto hace que sea “el algoritmo de elección” para ajustar modelos CRF. En la práctica, el algoritmo mejora los pesos de las características muy lentamente al principio del proceso de entrenamiento para luego converger a los valores óptimos rápidamente en el final.

Además se usó el juego de características denso, esto es que el algoritmo considera todas la posibles combinaciones de transiciones y estados.

La parte más importante de la aplicación del algoritmo CRF es la correcta elección de características del texto para usar.

Como restricción impuesta por la hipótesis de la tesis, no se usarán características propias del idioma analizado o de su morfología, ya que se quieren obtener resultados aplicables a textos independientemente del idioma (lexemas, monemas, palabra, desinencia, cantidad de letras, etc). Se espera que esto también brinde el beneficio de poder aprovechar la riqueza de recursos informáticos semánticos en otros idiomas.

Las características semánticas usadas son las brindadas por FrameNet y la herramienta que se usó para marcar el corpus de trabajo fue SEMAFOR.

A continuación se enumeran las características semánticas que se tomaron en cuenta:

esTarget: característica que determina para cada término si es el Target del Frame

o no. Coreness (FECoreness): característica que muestra para cada término su tipo de

Coreness, es decir, su relevancia dentro del Frame. Puede tener los valores: Core, Core­Unexpressed, Peripheral o Extra­Thematic

Frame (F): para cada término se obtiene el Frame de FrameNet al que pertenece si es que tiene. Como se analizó anteriormente, hay una relación importante entre los marcos de FrameNet y los Eventos de TimeML.

Frame Element (FE): el elemento de marco que corresponde al término específicamente dentro del marco al que pertenece.

Frame Padre (FP): se busca en el esquema de herencia de FrameNet al Frame padre. La motivación de esta característica es poder capturar la jerarquía de herencia de FrameNet.

Frame Padre del Padre (FPP): como la característica anterior solo que un nivel más hacia arriba.

Cantidad de Frame Elements que engloban al FE actual (cEng): se observa que una característica importante para capturar el árbol de Frames que anotan a una oración, es la cantidad de Frame Elements que engloban al FE actual.

Con esta elección de características de los términos que brinda FrameNet, se trata

de capturar no solo la información semántica sino también la estructura de jerarquía de Frames de FrameNet, que, en sí misma, también es información semántica. Esto se demuestra en el gráfico 12:

66

Page 67: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 12 [SALTO01]

67

Page 68: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

La misma oración marcada con TimeML: Qantas will almost <EVENT eid="e1" class="OCCURRENCE" stem="double">double</EVENT> its flights between Australia and India <SIGNAL sid="s57">by</SIGNAL> <TIMEX3 tid="t43" type="DATE" value="1998­08" temporalFunction="true" functionInDocument="NONE"

anchorTimeID="t41">August</TIMEX3> in the <EVENT eid="e2" class="OCCURRENCE" stem="search">search</EVENT> for new markets <EVENT eid="e27" class="STATE" stem="untouch">untouched</EVENT> by the crippling Asian financial <EVENT eid="e26" class="OCCURRENCE" stem="crisis">crisis</EVENT>. Oración obtenida del corpus de TimeBank 1.2 (APW19980213.1320)

6.2.4 Evaluación

En esta sección primero se define el corpus utilizado para las pruebas y criterios de

evaluación. Luego se muestran los resultados obtenidos. Finalmente se compara con el estado del arte en el área.

6.2.4.1 Corpus usado y criterio de evaluación

Para la evaluación se usó el corpus TimeBank 1.2 (ver sección 3.2.2 TimeBank) distribuido libremente por la Linguistic Data Consortium [LINKLDC1].

La composición de las anotaciones TimeML en TimeBank 1.2 se puede ver en el gráfico 13 y tabla 2:

68

Page 69: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 13

Tipo Anotación Instancias

EVENT 7935

MAKEINSTANCE 7940

TIMEX3 1414

SIGNAL 688

ALINK 265

SLINK 2932

TLINK 6418

Tabla 2 Para el caso que interesa ahora, se puede ver un detalle de la distribución de tipos de eventos en el gráfico 14 y tabla 3:

69

Page 70: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 14

Tipo Event Instancias

Reporting 1021

Perception 48

Aspectual 258

I_Action 673

I_State 582

State 1107

Occurrence 4192

Total 7881

Tabla 3

Para todos los casos se usó 5­fold Cross Evaluation para obtener los resultados. La

elección de este método de evaluación se hizo principalmente porque es el estándar usado en trabajos similares y por lo tanto facilita la comparación de resultados. Estas son las medidas usadas para puntuar los diferentes resultados de los modelos aplicados:

70

Page 71: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Precisión:

anotacionesCorrectastotalAnotacionesModelo

Recall:

anotacionesCorrectastotalAnotacionesCorpus

F­Measure(Fᶔ=0,5):

1,25 precisión recall* *0,25 precisión + recall*

6.2.4.2 Resultados

En la tabla 4 se muestran los resultados obtenidos tanto para reconocimiento como para clasificación. El “Mejor Fold” muestra el mejor caso de medición Fᶔ=0,5.

Precisión Recall Fᶔ=0,5 Mejor Fold

Reconocimiento 77,17% 58,13% 72,42% 79,41%

Clasificación 60,25% 34,48% 52,41% 57,35% Tabla 4

El resultado muestra un valor de F por encima de la probabilidad aleatoria que es 50%. En la tabla 5 se muestran de manera detallada los resultados para la tarea de clasificación:

Precisión Recall Fᶔ=0,5 Occurrence 60,17% 34,05% 52,17%

I_Action 85,71% 17,39% 48,00%

I_State 73,33% 40,74% 63,22%

Reporting 88,04% 90,12% 88,45%

State 64,29% 8,26% 27,28%

Aspectual 88,89% 26,67% 60,61%

Perception 36,67% 16,33% 29,36%

Tabla 5

71

Page 72: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Todos los resultados superaron la probabilidad aleatoria que es 15%. Sin embargo, hay casos en los que se obtuvieron mejores resultados que en otros.

El mejor resultado se obtuvo en el caso de Reporting (88,45%), este valor alto se puede atribuir a que la relación entre este tipo de evento y los marcos de FrameNet relacionados es muy clara. Siempre surgen bajo las palabras “decir”, “contar”, “relatar”, etc que se corresponden con el Marco Reporting, Statement y sus hijos. Además hay una gran cantidad de instancias de entrenamiento en el corpus de TimeBank 1.2.

Después hay otros resultados que están por encima del 48% como Occurrence, I_State, I_Action y Aspectual .

En el caso de Occurrence tiene a su favor la gran cantidad de instancias de aprendizaje presentes en el corpus, sin embargo al ser una categoría prácticamente de descarte que se correlaciona sólo con el marco Event y que no tiene una correlación muy fuerte con los diferentes tipos de marcos de FrameNet, hace que el resultado no sea muy alto.

En el caso de los tipos de evento Aspectual, el número bastante alto considerando la escasa cantidad de instancias de entrenamiento. Este hecho se debe a que hay una correlación muy marcada entre los marcos Process_start, Process_resume, Process_stop, Process_end, Process_continue, etc y los eventos de tipo Aspectual. Se podría considerar que es el fenómeno inverso de lo que sucedió con Occurrence.

Los casos de I_State y I_Action, sucede lo mismo que con los eventos Aspectual . Hay una fuerte correlación entre el tipo de eventos y los marcos de FrameNet.

En el caso del tipo State, el resultado es pobre en comparación con los demás. Esto se da porque en FrameNet los marcos relacionados con estados se solapan con los Frames que anteriormente se relacionaron con el tipo de evento Aspectual. Hay que destacar que State es una clase muy rica y en términos de lemas, léxico, sintaxis, etc. Sería necesario un mayor desarrollo en FrameNet para lograr mayor granularidad en este tipo de marco.

El peor caso se da con el tipo Perception, dado que el problema tiene una escasa cantidad de instancias anotadas en TimeBank para el entrenamiento. Sería necesario un mayor trabajo de anotación en TimeBank para revertir este problema. No así en FrameNet donde están bien distinguidos los marcos relacionados con la percepción.

6.2.4.3 Contribución y comparación con el estado del arte

Para medir la contribución general que logra el modelo planteado, se compara contra una línea de base. La línea de base que se plantea en la publicación de Llorens [LLORENS02] es apta para ser usada en este caso. Para obtener esta línea base, Llorens analiza TimeBank 1.2 y observa que la mayoría de los eventos están representados por verbos y a su vez estos eventos en su mayoría pertenecen al tipo Occurrence. Entonces, la línea base propuesta para comparar es la que anota todos los verbos como eventos del tipo Occurrence.

72

Page 73: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

En la tabla 6 se muestra una comparación de los resultados:

Precisión Recall Fᶔ=0,5 Reconocimiento Modelo Propuesto 77,17% 58,13% 72,43%

Clasificación Modelo Propuesto 60,25% 34,48% 52,42%

Reconocimiento Línea Base 72,50% 65,20% 70,91%

Clasificación Línea Base 46,01% 53,19% 47,29% Tabla 6

Se observa una mejora de 1,5% y 5,13% en Reconocimiento y Clasificación

respectivamente. Estos valores no son muy grandes pero considerando las limitaciones impuestas por la hipótesis de la tesis (el uso exclusivo de atributos semánticos), se los puede considerar muy buenos.

Para contrastar estos resultados, se eligió el sistema EVITA [SAURI03] que combina

técnicas estadísticas y lingüísticas. Por un lado, usa un juego de reglas creadas manualmente basadas en información morfosintáctica. Por otro lado, usa un módulo de desambiguación Bayesiano para identificar eventos. Basados en estos conceptos, se creó una implementación de EVITA llamada Sim­Evita [BETHARD01]. Los resultados obtenidos por Sim­Evita para reconocimiento y clasificación son, respectivamente, 73% y 51% para F. Que son valor comparables a los obtenidos por el modelo planteado. Considerando que la solución planteada en esta tesis es totalmente diferente y, a la vez, más restrictiva, los resultados son prometedores.

6.3 Módulo marcador de links

En esta sección se analiza la relación de los marcos de FrameNet con los diferentes

tipos de enlaces temporales reconocidos por TimeML para luego definir los parámetros necesarios de un algoritmo que permita el reconocimiento y la clasificación automática.

En la sección 3.2.1.1 se describen los tipos y subtipos de enlaces temporales que distingue TimeML. Las 3 grandes categorías en las que se dividen son:

TLINK: es un enlace temporal que representa la relación temporal mantenida entre eventos o entre un evento y un tiempo.

SLINK: es un enlace de subordinación, usado en contextos que introducen relaciones entre dos eventos o entre un evento y una señal.

ALINK: es un enlace aspectual que representa la relación entre un evento de aspecto y su evento argumento.

Un ejemplo de esta anotación:

73

Page 74: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Guillermo quiere enseñar el Lunes. Guillermo <EVENT eid="e1" class="I_STATE" tense="PRESENT" aspect="NONE"> quiere </EVENT> <MAKEINSTANCE eiid="ei1" eventID="e1"/> <SLINK eventInstanceID="ei1" subordinatedEvent="e2" relType="MODAL"/> <EVENT eid="e2" class="OCCURRENCE" tense="NONE" aspect="NONE"> enseñar </EVENT> <MAKEINSTANCE eiid="ei2" eventID="e2"/> <SIGNAL sid="s2"> el </SIGNAL> <TIMEX3 tid="t1" type="DATE" temporalFunction="true" value="XXXX­WXX­1"> Lunes </TIMEX3> <TLINK eventInstanceID="ei2" relatedToTime="t1" relType="IS_INCLUDED"/>

Una de las primeras características que se ven en las anotaciones de tipo link es

que no consumen texto, es decir son meta anotaciones que relacionan eventos entre sí y eventos con tiempo.

Otra característica, es que su rango de anotación es todo el documento en cuestión, es decir, que no están limitadas a una oración o párrafo.

Estas características hacen que los links sean muy ricos en cuanto a la información semántica temporal que brindan y a su vez los hacen muy difíciles de detectar mediante algoritmos de aprendizaje automático.

En las siguientes secciones se analizan los tipos de links y como existe una estrecha

relación con ciertas propiedades de los marcos de FrameNet. Luego se analiza el algoritmo usado para el aprendizaje automático y las características elegidas para entrenarlo. Finalmente se presentan los resultados obtenidos y a partir de estos, se plantea una serie de suposiciones que se pueden hacer para el caso de los textos históricos que podrían ser beneficiosas.

6.3.1 Tipos Links TimeML

Se revisan los diferentes tipos y subtipos de links para luego ver cómo se pueden

correlacionar con diferentes aspectos de FrameNet.

6.3.1.1 TLink

Como se explicó en secciones anteriores, el link de tipo TLink se encarga de marcar relaciones temporales entre evento y entre eventos y tiempo (Timex3). Se divide en varios tipos según el tipo de relación que marcan, estos son:

74

Page 75: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

1. Simultáneas (relType=SIMULTANEOUS): dos eventos que suceden

simultáneamente. 2. Idénticas (relType=IDENTITY): referencian al mismo evento 3. Una antes que la otra (relType=BEFORE): marca que un evento/tiempo sucede

antes que otro. 4. Una después de la otra (relType=AFTER): lo opuesto de 3. Marca que un

evento/tiempo sucede después que otro. 5. Una inmediatamente antes que la otra (relType=IBEFORE): como el caso 3 pero

inmediatamente en el tiempo. 6. Una inmediatamente después que la otra (relType=IAFTER): lo opuesto de 5. 7. Una incluye la otra (relType=INCLUES): 8. Una es incluida por el otro (relType=IS_INCLUDED): (lo opuesto de 7) 9. Una cuya duración está incluida dentro de la duración de la otra (relType=DURING): 10. Una de ellas es el principio de la otra (relType=BEGINS): 11. Una se inició por la otra (relType=BEGUN_BY): (lo opuesto de 10) 12. Una de ellas es el final de la otra (relType=ENDS): 13. Una es terminada por la otra (relType=ENDED_BY): (lo opuesto 12)

Ejemplos de un texto extraído y traducido al español del corpus TimeBank 1.2 (documento ABC19980108.1830.0711):

<TIMEX3 tid="t82" type="DATE" value="1998­01­08" temporalFunction="false"

functionInDocument="CREATION_TIME">19980108</TIMEX3> Por otro lado, está <EVENT eid="e1" class="OCCURRENCE">tornando</EVENT> ser otra muy <EVENT eid="e369" class="STATE">mala</EVENT> <TIMEX3 tid="t83"

type="DURATION" value="P1W" temporalFunction="false"

functionInDocument="NONE">semana</TIMEX3> financiera para Asia. La <EVENT eid="e3" class="OCCURRENCE">asistencia</EVENT> financiera del Banco Mundial y el Fondo Monetario Internacional no están <EVENT eid="e4" class="OCCURRENCE">ayudando</EVENT>. En <TIMEX3 tid="t85" type="DURATION" value="P1D" temporalFunction="true"

functionInDocument="NONE" anchorTimeID="t82">las últimas veinticuatro horas</TIMEX3>, el valor de la bolsa de Indonesia ha <EVENT eid="e7" class="OCCURRENCE">caído</EVENT> en un doce por ciento.

La moneda de Indonesia ha <EVENT eid="e9"

class="OCCURRENCE">perdido</EVENT> veintiséis por ciento de su valor.

En Singapur, las acciones <EVENT eid="e10"

class="OCCURRENCE">tocaron</EVENT> una baja <TIMEX3 tid="t86"

type="DURATION" value="P5Y" temporalFunction="false"

functionInDocument="NONE">de cinco años</TIMEX3>.

75

Page 76: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

En las Filipinas, una baja de <TIMEX3 tid="t87" type="DURATION" value="P4Y"

temporalFunction="false" functionInDocument="NONE">cuatro años</TIMEX3>. Y en Hong Kong, una <EVENT eid="e147" class="OCCURRENCE">caída</EVENT> de tres por ciento. Mas <EVENT eid="e153" class="OCCURRENCE">problemas</EVENT> en Hong Kong para un lugar, para una economía, que muchos expertos <EVENT eid="e11"

class="I_STATE">pensaron</EVENT> alguna vez <EVENT eid="e376" class="STATE">invencible</EVENT>.

<MAKEINSTANCE eventID="e1" eiid="ei375" tense="PRESENT"

aspect="PROGRESSIVE" polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e3" eiid="ei377" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<MAKEINSTANCE eventID="e4" eiid="ei378" tense="PRESENT"

aspect="PROGRESSIVE" polarity="NEG" pos="VERB"/>

<MAKEINSTANCE eventID="e7" eiid="ei379" tense="PRESENT"

aspect="PERFECTIVE" polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e9" eiid="ei380" tense="PRESENT"

aspect="PERFECTIVE" polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e10" eiid="ei381" tense="PAST" aspect="NONE"

polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e147" eiid="ei382" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<MAKEINSTANCE eventID="e153" eiid="ei383" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<MAKEINSTANCE eventID="e11" eiid="ei384" tense="PAST" aspect="NONE"

polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e376" eiid="ei438" tense="PAST" aspect="NONE"

polarity="POS" pos="ADJECTIVE"/>

<MAKEINSTANCE eventID="e369" eiid="ei431" tense="PRESENT" aspect="NONE"

polarity="POS" pos="ADJECTIVE"/>

<TLINK lid="l1" relType="BEFORE" eventInstanceID="ei377"

relatedToEventInstance="ei378"/>

<TLINK lid="l2" relType="INCLUDES" timeID="t85" relatedToEventInstance="ei379"/>

<TLINK lid="l3" relType="IS_INCLUDED" eventInstanceID="ei380"

relatedToTime="t85"/>

<TLINK lid="l4" relType="INCLUDES" timeID="t85" relatedToEventInstance="ei381"/>

<TLINK lid="l8" relType="IS_INCLUDED" eventInstanceID="ei382"

relatedToTime="t85"/>

<TLINK lid="l9" relType="DURING" eventInstanceID="ei383" relatedToTime="t82"/>

<TLINK lid="l6" relType="BEFORE" timeID="t87" relatedToTime="t82"/>

76

Page 77: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.1.2 SLink

El link de subordinación es usado en contextos que introducen relaciones entre dos eventos o entre un evento y una señal. Son de los siguientes tipos:

1. Modal (relType=MODAL): relación introducida en su mayoría por verbos modales (poder, deber, querer, etc.) y eventos que introducen una referencia a un mundo posible I_STATEs.

2. Factivo (relType=FACTIVE): algunos verbos introducen una implicación (o presuposición) sobre la veracidad del argumento. Algunos ejemplos son olvidar, lamentar, lograr.

3. Contrafactivo (relType=COUNTER_FACTIVE): el evento introduce una presuposición sobre la no veracidad del argumento.

4. Probatorio (relType=EVIDENTIAL): las relaciones probatorias son introducidas por eventos de tipo REPORTING o algunos de tipo PERCEPTION.

5. Probatorio Negativo (relType=NEG_EVIDENTIAL): introducidas por eventos de tipo REPORTING o algunos de tipo PERCEPTION y que transmiten una polaridad negativa.

6. Negativa (NEGATIVE): introducida solo por partículas de señales negativas (no, ni). Ejemplos de un texto extraído y traducido al español del corpus TimeBank 1.2 (documento APW19980213.1310): Las encuestas han<EVENT eid="e62" class="REPORTING">mostrado</EVENT> un <EVENT eid="e63" class="OCCURRENCE">apoyo</EVENT> del público republicano por un <EVENT eid="e64" class="OCCURRENCE">aumento</EVENT>, subiendo desde aproximadamente 35 por ciento hace varios años hasta aproximadamente 51 por ciento este año, mientras el sentimiento pro­monárquico disminuye. <MAKEINSTANCE eventID="e62" eiid="ei2049" tense="PRESENT"

aspect="PERFECTIVE" polarity="POS" pos="VERB"/>

<MAKEINSTANCE eventID="e63" eiid="ei2050" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<MAKEINSTANCE eventID="e64" eiid="ei2051" tense="PRESPART" aspect="NONE"

polarity="POS" pos="VERB"/>

<SLINK lid="l70" relType="MODAL" eventInstanceID="ei2050"

subordinatedEventInstance="ei2051"/>

77

Page 78: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

<SLINK lid="l59" relType="EVIDENTIAL" eventInstanceID="ei2049"

subordinatedEventInstance="ei2050"/>

6.3.1.3 ALink

El link aspectual representa la relación entre un evento aspectual y su evento argumento. Las relaciones codificadas por esta anotación son:

1. Iniciación (relType=INITIATES): representa una relación de inicio de un evento. 2. Culminación (relType=CULMINATES): representa una relación de culminación de un

evento 3. Terminación (relType=TERMINATES): representa una relación de terminación de un

evento 4. Continuación (relType=CONTINUES): representa una relación de continuación de un

evento 5. Reiniciación (relType=REINITIATES): representa una relación de reinicio de un

evento Ejemplos de un texto extraído y traducido al español del corpus TimeBank 1.2 (documento ABC19980108.1830.0711): <TIMEX3 tid="t196" type="DATE" value="PRESENT_REF" temporalFunction="true"

functionInDocument="NONE" anchorTimeID="t82">Ahora</TIMEX3> con nueva <EVENT eid="e26" class="OCCURRENCE">construcción</EVENT> en <EVENT eid="e27" class="ASPECTUAL">camino</EVENT>, tres de sus compradores se han <EVENT eid="e28" class="OCCURRENCE">retirado</EVENT>. <MAKEINSTANCE eventID="e27" eiid="ei396" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<MAKEINSTANCE eventID="e26" eiid="ei395" tense="NONE" aspect="NONE"

polarity="POS" pos="NOUN"/>

<ALINK lid="l46" relType="INITIATES" eventInstanceID="ei396"

relatedToEventInstance="ei395"/>

6.3.2 Relación entre FrameNet y links TimeML

6.3.2.1 Frame Elements

Al analizar las estructuras de FrameNet, se pueden ver diferentes definiciones que tienen un correlato directo con la tarea de detección de información temporal. Empezando por una de las unidades más pequeñas constructivas de los marcos de FrameNet, estos son los Frame Elements (ya explicados en mayor profundidad en la sección 4.3.1). Los elementos de marco (Frame Elements) son las entidades o propiedades que pueden estar

78

Page 79: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

presentes en cualquier instancia del marco en cuestión. En un relevamiento no exhaustivo, podemos ver algunos casos de FE que evocan relaciones temporales.

Algunos ejemplos:

Duration Period_of_iterations Duration_of_final_state Frecuency Iteration Particular_iteration Circumstances Containing_event Coordinated_event Correlated_variable Time Relative_time Whole Interval Destination_time Destination_event Salient_event Focal_time Landmark_time End_point Cause Event

Según el contexto del Frame en el que se está trabajando, cada FE tendrá su

significado y relevancia. La idea es que, mediante la correcta elección de características del texto, el algoritmo pueda captar estas relaciones y marcarlas.

6.3.2.2 Frames

Pasando al caso de los marcos, se puede ver más clara esta idea. A continuación se escogen ciertos marcos que se consideran ejemplificadores de las características que se intentan capturar mediante el sistema desarrollado y se resaltan ciertos aspectos de sus definiciones. Frame: Location_in_time Definición: Las palabras/s en este Frame detallan un momento particular en el tiempo. Este ocurre generalmente con demostrativos como “este” o “ese”. Ejemplo: Más tarde ese día, 1816, Argentina declaró la independencia.

79

Page 80: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

FE relevantes:

Focal_time [foc]: El punto temporal particular. Si hay un tiempo especificado, ese es el tiempo focal. Sino, el tiempo focal es la unidad. Si hay una expresión apositiva que especifica una entidad que no es necesariamente más grande que el target, tanto la unidad como la especificación son el FE.

Relative_time [RelT]: denota las palabras que ubican el tiempo respecto de un punto identificable en el tiempo.

Salient_event [sal_eve]: un evento asociado con un punto temporal dado.

Frame: Change_event_time

Definición: En este Frame, un Agent o Cause cambia el tiempo de un Event. El Event va a tomar lugar en un Destination_time o con respecto a un Destination_event. Esto puede ser logrado mediante ciertos Means, de cierta Manner o en cierto Degree.

Ejemplo: La lluvia demoró el partido de fútbol

FE Relevantes:

Agent: la entidad animada que produce el cambio en el tiempo del evento. Cause: la fuerza no sensible que produce el cambio en el evento del tiempo. Event: el suceso que cambia de tiempo. Degree: el grado en el que el evento cambia de tiempo. Destination_event: es la ocasión contra la cual el cambio de tiempo del evento toma

lugar. Destination_time: es el tiempo en el cual el evento realmente ocurre Manner: es la manera en la que el cambio de tiempo toma lugar. Means: describe el modo en el que el cambio de tiempo toma lugar.

Frame: Process_start

Definición: Un Event empieza en cierto Time y Place. También se puede indicar la razón.

Ejemplo: El proyecto empezó ayer

FE Relevantes:

Event: nombre del evento que ocurre. Time: cuando ocurre el evento. Place: lugar donde ocurre el evento Duration [Dur]: el periodo de tiempo durante el cual el proceso continúa luego de

empezado. Frequency [Freq]: el número de veces que el tipo de evento especificado empieza.

80

Page 81: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Existen Frames de estructura similar a este que se ocupan de los distintos momentos de un proceso:

Process_completed_state Process_continue Process_end Process_initial_state Process_pause Process_resume Process_stop Process_stopped_state Process_uncompleted_state

Frame: Temporal_collocation

Definición: se identifica un objeto o sujeto que se mueve, a través del tiempo o el espacio, que ocurre al mismo tiempo que una marca ya conocida.

Ejemplo:

Trató de hacerse cargo de eso en su ultima visita. Me gusta especialmente la sobremesa en la noche.

FE Relevantes:

Landmark_entity [LEn]: la entidad que designa el tiempo para un sujeto u objeto que se mueve en el tiempo.

Landmark_event [LEv]: el evento que designa el momento en el que el sujeto u objeto que se mueve en el tiempo ocurre.

Landmark_period [LPe]: el periodo en el que el sujeto u objeto que se mueve en el tiempo ocurre. Este periodo puede ser cíclico, y en ese caso, hay que interpretarlo con el contexto.

Trajector_entity [TEn]: la entidad que ocurre en un momento. Trajector_event [TEv]: el evento que ocurre en algún momento. Trajector_period [TPe]: el periodo que ocurre con respecto de algún momento.

Frame: Simultaneity

Definición: dos Events suceden al mismo tiempo. Esto puede ser el caso de una relación simétrica entre dos Events, o asimétrica entre un Landmark_event cuya ocurrencia conocida se usa para describir cuando un Profiled_event sucedió.

Ejemplo: Los eventos coincidieron

81

Page 82: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

FE Relevantes:

Landmark_event [Ent2] : el evento o periodo contra el cual el Profiled_event es juzgado.

Profiled_event [Ent1]: el evento que se afirma ocurre al mismo tiempo que Landmark_event

Events [Ents]: los estados de situación que se aseguran estar correlacionados.

Frame: Change_event_time Definición: en este Frame, un Agent o Cause cambia el tiempo de un Event. El Event pasará a suceder en un cierto Destination_time o con respecto a un Destination_event. Esto solo puede ser realizado con ciertos Means, de cierta Manner, o en cierto Degree.

Ejemplo: La lluvia atrasó el partido.

FE Relevantes:

Agent: es la entidad animada que hace el cambio en el tiempo del Event Cause: es la fuerza no sensible que hace el cambio en el tiempo del Event Event: es el evento que cambia de tiempo Destination_time: es el tiempo en el que el Event ocurre realmente. Destination_event: es la ocasión en la cual el tiempo del Event realmente ocurre. Means: describe los medios por los cual es el que el cambio de tiempo sucede. Manner: describe la manera en la que el cambio de tiempo sucede. Degree: describe la extensión con la cual el cambio de tiempo sucede. Time [tim]: el tiempo en el cual el retraso ocurre.

Algunos otros frames que brindan mucha información temporal:

Change_event_duration Temporary_stay Calendric_unit Cause_Impact Event Event_instance Temporal_subregion Holding_off_on Waiting Location_in_time

Esta lista no es exhaustiva pero sirve para ejemplificar el tipo de información

temporal que brinda FrameNet. De hecho, casi todos los Frames tienen algun FE que hace referencia al Tiempo o a algún tipo de periodicidad o frecuencia.

82

Page 83: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

A continuación se analiza el último caso, que es el de las relaciones entre Frames (ver sección 4.3.1).

6.3.2.3 Relaciones entre Frames FrameNet distingue seis tipos de relaciones entre Frames:

Herencia Perspectiva sobre Uso Submarco Precede Causa de Incoativo

Analizando la definición de cada una de estas relaciones, se concluyó que hay

cuatro de ellas que brindan información de relaciones temporales entre eventos. Estas son:

Submarco: esta relación no es necesariamente temporal pero muchas veces lo es ya que divide un evento complejo en eventos más pequeños. Esto suele coincidir con el ordenamiento temporal de estos eventos o relaciones de inclusión. Por ejemplo el caso del Frame Activity tiene como submarcos a Activity_abandoned_state, Activity_done_state, Activity_finish, Activity_ongoing, Activity_pause, Activity_paused_state, Activity_prepare, Activity_ready_state, Activity_resume, Activity_start, Activity_stop

Precede: esta relación siempre especifica un ordenamiento temporal. Por ejemplo (gráfico 15) los siguientes Frames

Gráfico 15

Las flechas representan las relaciones de precedencia.

Causa de: relación que describe la causalidad entre dos marcos. Es generalmente mapeable a una relación temporal. Por ejemplo, el Frame Giving tiene una relación de causalidad con el Frame Getting. Es decir, esta relación guarda la información de que “dar” es causante de “obtener”.

83

Page 84: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Incoativo de: viene del aspecto verbal que expresa el comienzo de una acción. Por definición del aspecto incoativo, esta relación siempre implica una relación temporal. Por ejemplo, el Frame Getting es Incoativo del Frame Possession.

6.3.3 Modelo de aprendizaje supervisado: Support Vector Machines

Para crear los modelos de clasificación de links, se usó SVM (Support Vector

Machines) [CORTES01]. Los SVMs son modelos de aprendizaje supervisado con algoritmos de aprendizaje asociados que analizan datos y reconocen patrones, y son usados para clasificación y análisis de regresión. Dado un juego de ejemplos de aprendizaje, cada uno marcado con una de dos categorías, un algoritmo de entrenamiento SVM construye un modelo que asigna los nuevos ejemplos a una u otra categoría, haciéndolo un clasificador binario lineal no probabilístico.

Un modelo SVM es la representación de los ejemplos como puntos en un espacio, mapeados de modo que los ejemplos de diferentes categorías son separados por una división clara lo más grande posible. Los nuevos ejemplos son mapeados en el mismo espacio prediciendo que pertenecen a una categoría según el lado de la brecha en el que caigan.

Además de lograr una clasificación lineal, los SVMs pueden lograr eficientemente

una clasificación no lineal usando lo que se conoce como kernel trick, esto es implícitamente mapeando sus entradas en espacios de características de varias dimensiones.

6.3.4 Proceso de generación de datos para entrenamiento

Como se explicó en secciones anteriores, las relaciones de Link se dan entre

Eventos y/o Timex a lo largo de todo el documento. A continuación se detalla la mecánica elegida para generar los datos de entrenamiento.

Se parte de un archivo marcado con Events y Timex3 además de los Frames semánticos de FrameNet. Se crean posibles relaciones entre todos estos Events/Timex3. Para poder referenciar a las dos partes de estas posibles relaciones, se optó por llamarlas Parte A y Parte B.

Para cada una de estas relaciones se hacen explícitas ciertas características con las cuales el algoritmo SVM hará el modelo para categorizar entre LINK y NO_LINK (reconocimiento) y luego clasificar entre los diferentes tipos de LINK.

Uno de los primeros problemas que surgen para entrenar los modelos, es el gran desbalance de datos que se genera ya que la mayoría de las posibles relaciones generadas terminan siendo NO_LINK. Este es un problema que suele aparecer en este tipo de métodos de aprendizaje automático explicado en el artículo de He [HE01]. Una de las posibles soluciones que se plantea para este tipo de problemas es el de hacer under sampling, es decir que en el proceso de muestreo se recolectan menos muestras de los casos negativos. Esa es la solución que se aplicó en este caso.

En la siguiente sección, se explica cada una de las características elegidas de cada relación para el entrenamiento.

84

Page 85: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.5 Características elegidas para entrenar el algoritmo

Distancia_oraciones: este valor es la distancia (en oraciones) entre la parte A y la

parte B de la relación. Puede ser 0 (en la misma oración), 1 (oraciones contiguas) o 2 (una oración de separación). Obviamente las relaciones pueden estar a más distancia, pero analizando los datos se observa que la mayoría de las relaciones temporales suceden en ese rango de distancia. Además al usar un mayor rango de distancia, la cantidad de relaciones posibles crece exponencialmente (así como también crecen la cantidad de casos negativos) haciendo el problema de clasificación y reconocimiento inmanejable.

FrameA: el Frame que gobierna a la parte A de la relación. FrameB: el Frame que gobierna a la parte B de la relación. FramePadreA: el Frame padre del Frame que gobierna la parte A. Para capturar la

estructura de jerarquías de FrameNet. FramePadreB: el Frame padre del Frame que gobierna la parte B. Para capturar la

estructura de jerarquías de FrameNet. FramePadrePadreA: idem FramePadreA pero un nivel más. FramePadrePadreB: idem FramePadreB pero un nivel más. CompartenFrame: puede tomar el valor “SI” en caso de que la parte A y B estén

gobernadas por el mismo Frame. Toma el valor “NO” en caso contrario. LabelA: el nombre Frame Element de la parte A. LabelB: el nombre Frame Element de la parte B. CorenessLabelA: puede tomar los valores Core, Core­Unexpressed, Peripheral o

Extra­Thematic. Es el Coreness del FE de A. CorenessLabelB: puede tomar los valores Core, Core­Unexpressed, Peripheral o

Extra­Thematic. Es el Coreness del FE de B. Relacion: si es que la parte A y B tienen Frames y estos son diferentes y además

hay una relación entre ellos, esta característica toma ese valor. Puede ser Inheritance, ReFraming_Mapping, Using, Inchoative_of, See_also, Precedes, Subframe, Causative_of o Perspective_on.

RelRolA: según el tipo de relación que exista entre el Frame de la parte A y B, cada parte cumplirá un rol dentro de esta relación. Este toma el valor del rol de la parte A.

RelRolB: según el tipo de relación que exista entre el Frame de la parte A y B, cada parte cumplirá un rol dentro de esta relación. Este toma el valor del rol de la parte B.

TipoParteA: especifica de qué tipo es la parte A. Puede ser algún tipo de Evento o un Timex.

TipoParteB: especifica de qué tipo es la parte B. Puede ser algún tipo de Evento o un Timex.

AEnglobadoPorB: para capturar la estructura de cómo se relacionan las partes de la relación en cuanto a inclusión dentro de Frame Elements. Puede valer SI o NO.

BEnglobadoPorA: para capturar la estructura de cómo se relacionan las partes de la relación en cuanto a inclusión dentro de Frame Elements. Puede valer SI o NO.

A continuación se detallan las diferentes pruebas hecha para la detección y

clasificación de LINKS.

85

Page 86: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.6 Evaluación de los resultados

6.3.6.1 Corpus usado para las pruebas

Al igual que en el caso de los eventos, para la evaluación se usó el corpus TimeBank 1.2 (ver sección 3.2.2 TimeBank). La composición de las anotaciones de Links TimeML en TimeBank 1.2 se muestra en la tabla 7 y gráfico 16: Subtipo Subtotal Total

ALINK_CONTINUES 69

ALINK_CULMINATES 30

ALINK_INITIATES 91

ALINK_REINITIATES 14

ALINK_TERMINATES 54 258

SLINK_CONDITIONAL 45

SLINK_COUNTER_FACTIVE 47

SLINK_EVIDENTIAL 1140

SLINK_FACTIVE 394

SLINK_MODAL 1261

SLINK_NEG_EVIDENTIAL 6 2893

TLINK_AFTER 879

TLINK_BEFORE 1375

TLINK_BEGINS 61

TLINK_BEGUN_BY 66

TLINK_DURING 298

TLINK_DURING_INV 1

TLINK_ENDED_BY 161

TLINK_ENDS 73

TLINK_IAFTER 38

TLINK_IBEFORE 34

TLINK_IDENTITY 721

TLINK_INCLUDES 571

TLINK_IS_INCLUDED 1334

TLINK_SIMULTANEOUS 660 6272

Tabla 7

86

Page 87: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Gráfico 16

6.3.6.2 Método de evaluación utilizado

Para todos los casos se uso 10­fold Cross Evaluation para obtener los resultados. La elección de este método de evaluación se basa en que es el método usado por trabajos similares por lo que se facilita la comparación de resultados.

Estas son las medidas usadas para puntuar los diferentes resultados de los modelos aplicados: Precisión:

anotacionesCorrectastotalAnotacionesModelo

87

Page 88: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Recall:

anotacionesCorrectastotalAnotacionesCorpus

F­Measure(Fᶔ=1):

precisión + recall2 precisión recall* *

Los casos 1 ­ 3, son de detección y clasificación de links con una distancia de

oraciones de hasta 2.

Luego, pensando en el problema de la detección de información temporal en fragmentos de textos históricos reducidos se limita la distancia de oraciones a 0. Es decir, se evalúa la detección y clasificación de LINKS dentro de una misma oración. Además se hace una segunda suposición considerando el caso de los textos históricos cortos. Se observa que en esos textos, hay una predominante cantidad de información temporal, por lo que podemos suponer que todos los links que pueden generarse son efectivamente algún tipo de link. Es decir se reduce la tarea simplemente a la de clasificar. Estos son los casos 4 ­ 5.

6.3.6.3 Detección LINK y NO_LINK a través de diferentes oraciones (caso 1)

Precisión Recall Fᶔ=1

LINK 92,90% 94,30% 93,60%

NO_LINK 67,50% 62,10% 64,70%

Tabla 8

6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones (caso 2)

Precisión Recall Fᶔ=1

SLINK 71,70% 69,10% 70,40%

TLINK 74,20% 74,80% 74,50%

ALINK 51,00% 41,00% 45,50%

NO_LINK 65,40% 69,60% 67,40%

Tabla 9

88

Page 89: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.6.5 Detección y clasificación de todos los tipos de Link a través de diferentes oraciones (caso 3)

Precisión Recall Fᶔ=1

SLINK_MODAL 51,60% 81,40% 63,20%

TLINK_IS_INCLUDED 48,20% 74,60% 58,60%

NO_LINK 66,30% 69,00% 67,60%

TLINK_DURING 50,00% 0,50% 0,90%

SLINK_FACTIVE 40,50% 24,10% 30,20%

TLINK_BEFORE 25,40% 22,70% 24,00%

TLINK_INCLUDES 0,00% 0,00% 0,00%

TLINK_IDENTITY 33,10% 16,30% 21,80%

SLINK_EVIDENTIAL 63,50% 84,20% 72,40%

TLINK_SIMULTANEOUS 24,40% 14,30% 18,00%

SLINK_COUNTER_FACTIVE 76,90% 22,20% 34,50%

TLINK_AFTER 24,80% 29,40% 26,90%

ALINK_TERMINATES 42,90% 28,60% 34,30%

TLINK_IAFTER 0,00% 0,00% 0,00%

TLINK_ENDED_BY 42,40% 9,20% 15,10%

SLINK_NEG_EVIDENTIAL 0,00% 0,00% 0,00%

ALINK_CULMINATES 44,80% 52,00% 48,10%

TLINK_BEGUN_BY 0,00% 0,00% 0,00%

ALINK_INITIATES 51,80% 42,60% 46,80%

ALINK_CONTINUES 34,30% 34,30% 34,30%

SLINK_CONDITIONAL 100,00% 6,70% 12,50%

TLINK_BEGINS 0,00% 0,00% 0,00%

TLINK_IBEFORE 0,00% 0,00% 0,00%

TLINK_ENDS 0,00% 0,00% 0,00%

ALINK_REINITIATES 100,00% 25,00% 40,00%

TLINK_DURING_INV 0,00% 0,00% 0,00%

Tabla 10

89

Page 90: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.6.6 Clasificación entre TLINK, SLINK y ALINK misma oración (caso 4)

Precisión Recall Fᶔ=1

TLINK 80,20% 81,50% 80,80%

SLINK 75,40% 74,70% 75,00%

ALINK 47,80% 37,50% 42,00%

Tabla 11

90

Page 91: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

6.3.6.7 Clasificación de todos los tipos de Link a través de diferentes oraciones (caso 5)

Precisión Recall Fᶔ=1

SLINK_EVIDENTIAL 76,30% 78,60% 77,40%

TLINK_INCLUDES 0,00% 0,00% 0,00%

TLINK_IS_INCLUDED 55,60% 80,60% 65,80%

SLINK_MODAL 52,90% 82,10% 64,30%

TLINK_DURING 0,00% 0,00% 0,00%

TLINK_BEFORE 20,80% 37,00% 26,60%

SLINK_FACTIVE 21,70% 8,00% 11,70%

TLINK_SIMULTANEOUS 19,00% 10,30% 13,40%

TLINK_AFTER 21,30% 18,50% 19,80%

SLINK_COUNTER_FACTIVE 71,40% 11,10% 19,20%

TLINK_IDENTITY 38,10% 17,90% 24,40%

TLINK_ENDED_BY 40,00% 6,80% 11,60%

ALINK_TERMINATES 40,00% 33,30% 36,40%

TLINK_IAFTER 0,00% 0,00% 0,00%

SLINK_NEG_EVIDENTIAL 0,00% 0,00% 0,00%

ALINK_CULMINATES 55,00% 44,00% 48,90%

TLINK_BEGUN_BY 0,00% 0,00% 0,00%

ALINK_INITIATES 44,60% 37,30% 40,70%

ALINK_CONTINUES 30,00% 26,50% 28,10%

TLINK_BEGINS 0,00% 0,00% 0,00%

SLINK_CONDITIONAL 0,00% 0,00% 0,00%

TLINK_IBEFORE 0,00% 0,00% 0,00%

TLINK_ENDS 0,00% 0,00% 0,00%

ALINK_REINITIATES 0,00% 0,00% 0,00%

TLINK_DURING_INV 0,00% 0,00% 0,00%

Tabla 12

En el caso 1 es muy simple, pero relevante, ya que es la distinción entre LINK y NO_LINK, sin importar tipos o subtipos de estos. Se pueden observar muy buenos resultados.

En el caso 2 hay una granularidad mayor ya que distingue entre ALINK, TLINK, SLINK y NO_LINK. En este caso también los resultados son buenos (comparando contra una línea base de probabilidad aleatoria del 25%), ya que se obtuvo una medida F de más de 65% para todos los casos excepto para ALINK que se obtuvo 45%. Esta diferencia se da

91

Page 92: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

debido a que la cantidad de casos de ALINKs en el corpus es bastante menor a los demás, por lo tanto el modelo obtenido para la detección no es tan bueno para estos casos.

En el caso 3 hay una muy alta granularidad ya que distingue entre tipos y subtipos de links. En este caso los resultado son dispares. Existen casos en los que se obtiene 0%, esto se debe a que la cantidad de instancias de esos casos son tan escasas que no llega a detectar ninguna en el corpus de prueba. Sin embargo hay muy buenos resultados en los casos de SLINK_MODAL (63%), TLINK_IS_INCLUDED (58%), NO_LINK (67%) y SLINK_EVIDENTIAL (72%). Los demás casos superan la línea base del 4% (que es el modelo aleatorio), por lo que se los puede considerar aceptables.

En el caso 4, que es el caso en donde solamente se clasifica entre TLINK, ALINK y SLINK, se obtuvieron muy buenos resultados que superan la línea base del 33% (modelo aleatorio). Un 80% de medida F para TLINK y un 75% para SLINK. La medida para ALINK no fue tan alta por la misma razón que en el caso 2.

En el caso 5, que es el caso de clasificación pero con muy alta granularidad de tipos, aplica el mismo análisis que en el caso 3.

En conclusión, los mejores resultados de detección y clasificación se obtienen para una granularidad media (TLINK, SLINK, ALINK y NO_LINK). Esto se debe principalmente a que al aumentar mucho la granularidad de tipos, los casos en el corpus se hacen muy escasos haciendo que el modelo generado no sea tan bueno. Sin embargo, considerando esta alta granularidad y que se usó solamente la información semántica brindada por FrameNet para armar los modelos, estos resultados son muy buenos.

6.3.6.8 Comparación con otros productos

Como se detalló en la sección 3.2.3, la herramienta más usada para la detección de información temporal incluyendo enlaces temporales es el TARSQI Toolkit. Dentro de este juego de herramientas de detección temporal, hay tres que son usadas para la detección de enlaces: GutenLink, Slinket y Sputlink (explicados en con mas detalle en las secciones 3.2.3.3, 3.2.3.4 y 3.2.3.5 respectivamente).

La herramienta GutenLink está dedicada a detectar relaciones de tipo TLINK usando reglas sintácticas y lexicográficas creadas a mano y solo maneja tres tipos de casos.

La herramienta SLinket es usada para detectar relaciones de tipo SLINK y también

está basada en reglas y para ciertos casos.

Finalmente la herramienta SputLink se dedica a derivar nuevas relaciones temporales (TLINKs) basándose en reglas de álgebra de intervalos de James Allen [ALLEN04]

92

Page 93: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Como se puede ver son herramientas limitadas a ciertos casos y con reglas prefijadas, lo que las hacen bastante rígidas. La medida F que reportan es de 75%. Además, es importante remarcar que ninguna se dedica al caso de detección de tipos de enlace ALINK. Por lo que la aproximación elegida, usando un método totalmente diferente y más flexible, entra dentro del rango de estas herramientas.

6.3.7 Conclusión sobre detección de links

La detección de links es compleja por el problema de la dispersión de datos. Este es

un problema que se les presenta en otras herramientas y en la propia generada para esta tesis. Sin embargo, el método semántico desarrollado en conjunto con técnicas para trabajar el desbalance de datos, obtuvo muy buenos resultados tanto para detección como para clasificación.

Además como se va a explicar en la siguiente sección, muchos de estos problemas se simplifican al trabajar con el caso particular de los copetes de textos históricos argentinos del siglo XVIII y XIX.

93

Page 94: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

7. El caso de los textos históricos

Una de las primeras características que se observan en los copetes de textos históricos es su limitada extensión (una o dos oraciones). Esta característica, en un primer análisis puede parecer que juega en contra del objetivo de esta tesis que es el de detectar información temporal haciendo uso de la información semántica (hay poca información, por lo tanto hay poca información semántica). Sin embargo, al analizar los textos, se puede ver que estos son muy estructurados (todos los copetes tienen una fecha exacta asociada), su información es fuertemente orientada a lo temporal y las oraciones son cortas, simples y precisas.

Todas estas características permiten hacer suposiciones tales como que:

­ Todos los eventos que aparecen en las oraciones tienen algún enlace temporal entre si. Esto resuelve el problema de dispersión al convertir el problema en uno de clasificación.

­ Cuando no hay un TIMEX en la oración, se puede usar la fecha que está explícita en el documento.

­ Al ser pocas oraciones y simples, se limita aún más el problema de la dispersión de datos cuando se consideran las relaciones entre oraciones.

Debido a la falta de herramientas de anotación automática semántica para textos en

español, se pasa a ejemplificar con un caso anotado manualmente que se obtuvo del Apéndice C: Documento 2.­Benito Nazar a Wenceslao Paunero. Relación de la actuación de su

regimiento en la batalla de Pavón. Derrota de la artillería enemiga. Manifestaciones de

Bartolomé Mitre. Mención del Comandante Alsina. Actuación de un escuadrón de

caballería. Comportamiento del Cap. Ramón Muñíz al Subteniente Zenón Nazar. Toma

de una bandera enemiga. San Nicolás de los Arroyos, 20 de setiembre de 1861. F. 2 y 3. Anotado semánticamente (algunas oraciones de relevancia para el ejemplo): Oración 1: Relación de la actuación de su regimiento en la batalla de Pavón. FRAME: Intentionally_act FEs: Agent, Place Relación de la actuación de su regimiento en la batalla de Pavón. FRAME: Statement FEs: Message

94

Page 95: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

En este caso, el módulo de anotación de eventos marca “actuación” como un evento de tipo OCCURRENCE y “relación” como un evento de tipo REPORTING.

Seguidamente, el módulo de anotación de links crea un TLINK entre el evento “Relación” y el DCT (Document Creation Time = 20 de setiembre de 1861) y un SLINK entre los eventos “relación” y “actuación”. Oración 2: Derrota de la artillería enemiga. FRAME: beat_opponent FEs:Loser

En este caso el módulo de anotación de eventos anota a “Derrota” como un evento de tipo OCCURRENCE y el módulo de links crea un link entre el evento “Derrota” y el DCT. Este ultimo link no es del todo correcto ya que la fecha de la derrota no es la misma que la de creación del documento, pero es una aproximación aceptable. Oración 3: Toma de una bandera enemiga. FRAME: Conquering FEs:Theme

En este caso el módulo de anotación de eventos anota a “Toma” como un evento de tipo OCCURRENCE y el módulo de links crea un link entre el evento “Toma” y el DCT. Este ultimo link no es del todo correcto por el mismo motivo que en la oración anterior.

Las anotaciones TimeML mencionadas en los ejemplos anteriores quedan del siguiente modo en el texto: Benito Nazar a Wenceslao Paunero. <EVENT eid="e1" class="REPORTING">Relación</EVENT> de la <EVENT eid="e2" class="OCCURRENCE">actuación</EVENT> de su regimiento en la batalla de Pavón. <EVENT eid="e3" class="OCCURRENCE">Derrota</EVENT> de la artillería enemiga. Manifestaciones de Bartolomé Mitre. Mención del Comandante Alsina. Actuación de un escuadrón de caballería. Comportamiento del Cap. Ramón Muñíz al Subteniente Zenón Nazar. <EVENT eid="e4" class="OCCURRENCE">Toma</EVENT> de una bandera enemiga. San Nicolás de los Arroyos, <TIMEX3 tid="t0" TYPE="DATE" functionInDocument="CREATION_TIME" value="1861­0920">20 de setiembre de 1861</TIMEX3>. <MAKEINSTANCE eiid="ei1" eventID="e1"/>

<MAKEINSTANCE eiid="ei2" eventID="e2"/>

95

Page 96: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

<MAKEINSTANCE eiid="ei3" eventID="e3"/>

<MAKEINSTANCE eiid="ei4" eventID="e4"/>

<TLINK lid=”l1” eventInstanceID="ei1" relatedToTime="t0" relType="IS_INCLUDED"/>

<TLINK lid=”l2” eventInstanceID="ei3" relatedToTime="t0" relType="IS_INCLUDED"/>

<TLINK lid=”l3” eventInstanceID="ei4" relatedToTime="t0" relType="IS_INCLUDED"/>

<SLINK lid=”l4” eventInstanceID="ei1" subordinatedEventInstance="ei2"

relType="EVIDENTIAL"/>

Otro ejemplo, tomado del anexo B: Para ejemplificar las relaciones temporales entre Frames, se toma el siguiente copete: Documento 14.­ Testimonio de Ignacio de Ezaurdi: refiere que la lancha que ha sido

propiedad de don F. Biscaya fue apresada junto a otras en lo arroyos de Gualeguay

por el Cte Samaniego. Fue rematada adquiriéndola Don Antonio del Texo. 29 de agosto de 1814. Entonces, anotando semánticamente: Oración 1: Refiere que la lancha que ha sido propiedad de don F. Biscaya fue apresada junto a otras en lo arroyos de Gualeguay por el Cte Samaniego. FRAME: Pre_transfer FEs:Theme, Donor Oración 2: Fue rematada adquiriéndola Don Antonio del Texo. FRAME: Transfer FEs:Theme, Recipient

Haciendo foco solamente en estos dos frames (Pre_transfer y Transfer), el módulo de marcado de eventos genera dos eventos de tipo OCCURRENCE, uno para “apresada” y otro para “adquiriéndola”.

Luego, el módulo de marcado de Links crea un link de tipo TLINK de subtipo BEFORE denotando que el evento de “apresada” sucedió antes que el de “adquiriéndola”.

Este tipo de información semántica está modelada por las relaciones entre frames de FrameNet. En este caso particular es la relación “Precedes” que indica que el frame “Pre_transfer” sucede antes que el frame “Transfer”.

96

Page 97: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Las anotaciones TimeML mencionadas en el último ejemplo quedan del siguiente modo en el texto: Testimonio de Ignacio de Ezaurdi: refiere que la lancha que ha sido propiedad de don F. Biscaya fue <EVENT eid="e1" class="OCCURRENCE">apresada</EVENT> junto a otras en lo arroyos de Gualeguay por el Cte Samaniego. Fue rematada <EVENT eid="e2"

class="OCCURRENCE">adquiriéndola</EVENT> Don Antonio del Texo. 29 de agosto de 1814. <MAKEINSTANCE eiid="ei1" eventID="e1"/>

<MAKEINSTANCE eiid="ei2" eventID="e2"/>

<TLINK eventInstanceID="ei1" relatedToEvent="ei2" relType="BEFORE"/>

97

Page 98: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

8. Conclusiones

La hipótesis que se planteo para esta tesis es que la información temporal se manifiesta en el plano semántico y, por lo tanto, al usar información semántica para su detección se pueden lograr mejores resultados.

Para probar esta hipótesis, su usó la información semántica brindada por FrameNet dando muy buenos resultados, además de mostrar un enfoque distinto para una tarea en la que hasta el momento se usaron herramientas de reglas fijas o bien basadas en la información morfosintáctica del texto. Estos enfoques, si bien llegan a buenos resultados, muchas veces consideran pocos casos o dejan de lado muchas entidades y relaciones temporales debido a que los conceptos temporales tienen una complejidad conceptual que no es correctamente representada en el nivel morfológico o sintáctico.

Para el caso particular de los textos históricos, al poder contextualizar temporalmente los textos, permite que una herramienta de digitalización automática trate con precisión ciertos términos del texto haciendo que disminuya el error y haciendo más rápida la tarea del revisor humano. Por ejemplo, si la referida herramienta de digitalización detecta que una palabra puede ser “Pavón” o “Perón”, mediante la contextualización histórica podría determinar en forma precisa con “Pavón” situando el texto en el periodo de septiembre de 1861. Este es un ejemplo simple, pero se puede aplicar también para modismos o formas de palabras que cambiaron su sintaxis con el tiempo.

Además, la detección de información temporal en textos históricos, crea la posibilidad de indexar estas bases de datos de textos históricos usando información temporal. De este modo se le da al investigador una herramienta mucho más poderosa en el momento de consultar y relacionar hechos históricos.

Otra conclusión importante, es que este enfoque genera modelos de detección de

información temporal que no están atados al idioma en el que está redactado el texto en cuestión. Además, permite que diferentes avances en el área de anotación semántica en diferentes lenguajes (creación de corpus, anotación automática, etc.) colaboren para mejorar el resultado de las ideas aplicadas en esta tesis.

98

Page 99: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

9. Trabajo futuro

En este trabajo se demostró que el uso de información semántica para la detección de información temporal es una alternativa posible, el trabajo a futuro puede enfocarse en dos grandes ejes.

El primero, y más importante, es la necesidad de aumentar la cantidad de recursos semánticos disponibles en la comunidad. Los resultados de esta tesis demuestran que vale la pena dedicar tiempo al desarrollo y/o mejora de anotadores automáticos semánticos tales como SEMAFOR, LTH, Shalmaneser, TARSQI, etc. Siguiendo esta línea, es importante aumentar la dimensión y la cobertura de corpus relacionados con la semántica e información temporal como Propbank, FrameNet, FrameNet en otros idiomas, TimeBank, etc. Toda mejora e innovación en este tipo de recursos, impactarán positivamente en los resultados obtenidos en este trabajo.

Otro de los grandes ejes de trabajo futuro es el de la profundización del análisis temporal de los textos históricos. Dentro de esta tarea se pueden incluir el desarrollo de herramientas de precisión de términos basadas en el periodo histórico en el que se ubica el texto. Otro análisis posible, es la indexación de textos históricos basándose en su contenido temporal para facilitar su consulta.

99

Page 100: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

10. Referencias [ALEMBIC01] Max Planck Institute for Psycholinguistics (2012, January 11th). Alembic Workbench. The Language Archive, Max Planck Institute for Psycholinguistics, https://tla.mpi.nl/tools2/tooltype/annotation/alembic­workbench­2/, Accedido 03/11/2015 [ALLEN01] Allen, J., Manshadi, M., Dzikovska, M., & Swift, M. (2007, June). Deep linguistic processing for spoken dialogue systems. Proceedings of the Workshop on Deep Linguistic Processing. Association for Computational Linguistics. 49­56. [ALLEN02] Allen, J. F., Swift, M., & De Beaumont, W. (2008, September). Deep semantic analysis of text. Proceedings of the 2008 Conference on Semantics in Text Processing. Association for Computational Linguistics.343­354 [ALLEN03] Allen, J. F., & Ferguson, G. (1994). Actions and events in interval temporal logic. Journal of logic and computation, 4(5), 531­579. [ALLEN04] Allen, J. F. (1983). Maintaining knowledge about temporal Intervals. Communications of the ACM, 26(11), 832­843. [AONE01] Aone, C., & Ramos­Santacruz, M. (2000, April). REES: a large­scale relation and event extraction system. Proceedings of the sixth conference on Applied natural language processing. Association for Computational Linguistics. 76­83. [BAKER01] Collin F. Baker, Charles J. Fillmore, and John B. Lowe. (1998). The Berkeley FrameNet project. Proceedings of the COLING­ACL 1998, Montreal, Canada. [BETHARD01] Bethard, S., & Martin, J. H. (2006, July). Identification of event mentions and their semantic class. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. 146­154 [BITTAR01] Bittar, A., Amsili, P., Denis, P., & Danlos, L. (2011). French TimeBank: an ISO­TimeML annotated reference corpus. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (short papers). 130­134. [BOGURAEV01] Boguraev, Branimir, & Rie Kubota Ando. (2007). Effective use of TimeBank for TimeML analysis. Annotating, extracting and reasoning about time and events. Springer Berlin Heidelberg. 41­58. [BRANTS01] Brants, T. & O. Plaehn. (2000). Interactive Corpus Annotation. Proceedings of LREC 2000. [BRFRAMENET01] Universidad Federal Juiz de Fora. (2009). FrameNet Brasil. Laboratorio de Lexicografía Computacional, Universidad Federal Juiz de Fora. http://www.ufjf.br/framenetbr/, Accedido 12/03/2016

100

Page 101: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

[CASELLI01] Caselli, T., Lenzi, V. B., Sprugnoli, R., Pianta, E., & Prodanof, I. (2011, June). Annotating Events, Temporal Expressions and Relations in Italian: the It­Timeml Experience for the Ita­TimeBank. In Linguistic Annotation Workshop. 143­151. [CHOMSKY01] Noam Chomsky. (1965). Aspects of the Theory of Syntax. MIT Press, Cambridge. [CHRISHOLM01] Chisholm, C. R. (1967). Article on ‘Intentionality’. P. Edwards (ed.), The Encyclopedia of Philosophy. [COLLINS01] Collins, Michael. (1999). Head­Driven Statistical Models for Natural Language Parsing. Ph.D. thesis, University of Pennsylvania, Philadelphia. [CONGMIN01] Min, C., Srikanth, M., & Fowler, A. (2007, June). LCC­TE: a hybrid approach to temporal relation identification in news text. Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics. 219­222. [COOK01] Cook, Roy T. (2009). Intensional Definition. In A Dictionary of Philosophical Logic. Edinburgh: Edinburgh University Press. 155. [CORTES01] Cortes, C., & Vapnik, V. (1995). Support­vector networks. Machine learning,20(3), 273­297. [DAVIS01] Anthony Davis.(2001). Linking by Types in the Hierarchical Lexicon. CSLI Publications, Stanford. [DIK01] Simon C. Dik. (1987). Concepts of case. Chapter Some Principles of Functional Grammar. Number 3. Gunter Narr Verlag Tubingen. [DILLON01] G.L. Dillon. (1977) Introduction to Contemporary Linguistic Semantics. Prentice­Hall, New Jersey. [DIPAJAN01] Das, Dipajan., Schneider, N., Chen, D., & Smith, N. A. (2010). SEMAFOR 1.0: A probabilistic frame­semantic parser. Language Technologies Institute, School of Computer Science, Carnegie Mellon University. [DOWTY01] David Dowty. (1991).Thematic proto­roles and argument selection. Language, 67(3):547­619. [ERK01] Erk, K., & Pado, S. (2006). Shalmaneser–a toolchain for shallow semantic parsing. Proceedings of LREC (Vol. 6). [ERK02] Erk, K., Kowalski,A., Pado, S., & Pinkal, M. (2003) Towards a resource for lexical semantics: A large German corpus with extensive semantic annotation. Proceedings of ACL­03, Sapporo.

101

Page 102: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

[FERRO01] Ferro, L., Mani, I., Sundheim, B. & Wilson, G. (2001). TIDES Temporal Annotation Guidelines. Version 1.0.2 MITRE Technical Report, MTR 01W0000041 [FILATOVA01] Filatova, E., & Hovy, E. (2001, July). Assigning time­stamps to event­clauses. Proceedings of the workshop on Temporal and spatial information processing­Volume 13.. Association for Computational Linguistics. 13. [FILLMORE01] Fillmore, Charles J, & Baker, C. (2010). A frames approach to semantic analysis. The Oxford handbook of linguistic analysis, 313­339. [FILLMORE02] Fillmore, Charles J. (1982). Frame semantics: Linguistics in the morning calm. 111­137. [FILLMORE03] Fillmore, Charles J. (1976). Frame semantics and the nature of language*. Annals of the New York Academy of Sciences 280.1: 20­32. [FILLMORE04] Fillmore, Charles J. (1968). The case for case. In Bach and Harms, editors, Universals in Linguistic Theory. Holt, Rinehart, and Winston, New York.1–88. [FILLMORE05] Fillmore, Charles J. (1985). Frames and the semantics of understanding. Quaderni di Semantica, 6.2:222­254. [FRAMENET01] FrameNet Project. (1997). Frame Index. FrameNet Project, International Computer Science Institute, Berkeley, California. https://framenet.icsi.berkeley.edu/fndrupal/frameIndex, Accedido 09/03/2016 [FRAMENET02] FrameNet Project. (1997). Frame Grapher. FrameNet Project, International Computer Science Institute, Berkeley, California. https://framenet.icsi.berkeley.edu/fndrupal/index.php?q=FrameGrapher, Accedido 09/03/2016 [FRAWLEY01] W. Frawley. (1992). Linguistic Semantics. Hillsdale, NJ: Lawrence Erlbaum Associates. [GAIZAUSKAS01] Gaizauskas, R., & Wilks, Y. (1998). Information extraction: Beyond document retrieval. Journal of documentation, 54(1), 70­105. [GRUBER01] Jeffrey Gruber. (1965). Studies in lexical relations. PhD thesis, MIT. [HE01] He, H., & Garcia, E. A. (2009). Learning from imbalanced data. Knowledge and Data Engineering, IEEE Transactions on, 21(9), 1263­1284. [ISO01] ISO 8601:2004 Data elements and interchange formats ­­ Information interchange ­­ Representation of dates and times.

102

Page 103: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

[JACKENDOFF01] Ray Jackendoff. (1990). Semantic structures. MIT Press, Cambridge, Massachusetts. [JPNFRAMENET01] Keio University. (2002). Japanese FrameNet Project. Keio University, Japan. http://jfn.st.hc.keio.ac.jp/, Accedido 12/03/2016 [JURAFSKY01] Gildea, D., & Jurafsky, D. (2002). Automatic labeling of semantic roles. Computational linguistics, 28(3), 245­288. [KATZ01] Katz, G., & Arosio, F. (2001, July). The annotation of temporal information in natural language sentences. Proceedings of the workshop on Temporal and spatial information processing­Volume 13. Association for Computational Linguistics. 15. [KIPPER01] Kipper, K., Dang, H. T., & Palmer, M. (2000, July). Class­based construction of a verb lexicon. In AAAI/IAAI. 691­696. [KIPPER02] Kipper, K., Korhonen, A., Ryant, N., & Palmer, M. (2006, June). Extending VerbNet with novel verb classes. Proceedings of LREC Vol. 2006, No. 2.2. 1. [LAFFERTY01] Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. [LEVIN01] Levin, B. (1993). English verb classes and alternations: A preliminary investigation. Vol. 348. Chicago: University of Chicago press. [LING01] Ling, X., & Weld, D. S. (2010, March). Temporal Information Extraction. AAAI, Vol. 10. 1385­1390. [LINKCRFSUITE1] Okazaki,N. (2011). CRFSuite. Electrical Engineering and Applied Physics, Sendai, Japan. http://www.chokkan.org/software/crfsuite/, Accedido 12/09/2015 [LINKLDC1] Linguistic Data Consortium. (1992).Linguistic Data Consortium. University of Pennsylvania, USA. www.ldc.upenn.edu, Accedido 12/09/2015 [LINKLTH1] Lund University. (2007). The LTH System for Frame­Semantic Structure Extraction. Dept. of Computer Science, Lund University, Sweden. http://nlp.cs.lth.se/software, Accedido 12/09/2015 [LINKSEMAFOR1] Das,D., Thomson,S., Kshirsagar, M., Martins, A., Schneider, N., Chen, D., & Smith,N. (2010). SEMAFOR Software. Carnegie Mellon University, Pittsburgh, USA. http://www.ark.cs.cmu.edu/SEMAFOR, Accedido 12/09/2015 [LINKSHAL1] University of Saarlandes. (2007). Shalmaneser: A Shallow Semantic Parser. Computational Linguistics and Phonetics,University of Saarlandes, Saarbrücken, Germany. http://www.coli.uni­saarland.de/projects/salsa/shal , Accedido 12/09/2015.

103

Page 104: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

[LLORENS01] Llorens, H. (2012). A Semantic Approach to Temporal Information Processing. Procesamiento del Lenguaje Natural, 48, 115­118. [LLORENS02] Llorens, H., Saquete, E., & Navarro­Colorado, B. (2010, August). TimeML events recognition and classification: learning CRF models with semantic roles. Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics. 725­733. [LLORENS03] Llorens, H., Navarro, B., & Saquete, E. (2009). From Semantic Roles to Temporal Information Representation. In MICAI 2009: Advances in Artificial Intelligence. Springer Berlin Heidelberg. 124­135. [LLORENS04] Llorens, H., Navarro, B., & Saquete, E. (2009, September). Using Semantic Networks to Identify Temporal Expressions from Semantic Roles. RANLP. 219­224. [LONNEKER01] Lönneker­Rodman, B., & Baker, C. F. (2009). The FrameNet model and its applications. Natural Language Engineering, 15(03), 415­453. [MANI01] Mani, I., Schiffman, B., & Zhang, J. (2003, May). Inferring temporal ordering of events in news. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: companion volume of the Proceedings of HLT­NAACL 2003­­short papers­Volume 2. Association for Computational Linguistics. 55­57. [MILLER01] Miller, George A.(1995). WordNet: a lexical database for English. Communications of the ACM 38.11. 39­41. [PALMER01] Palmer, M., Gildea, D., & Kingsbury, P. (2005). The proposition bank: An annotated corpus of semantic roles. Computational linguistics, 31(1), 71­106. [PIANTA01] Pianta, E., Bentivogli, L. & Girardi, C. (2002). MultiWordNet. developing an aligned multilingual database. Proceedings of the 1st International WordNet Conference, Mysore, India. [POLLARD01] Pollard, C., & Sag, I. A. (1994). Head­driven phrase structure grammar. University of Chicago Press. [PUSTEJOVSKY01] Pustejovsky, J., Castano, J. M., Ingria, R., Sauri, R., Gaizauskas, R. J., Setzer, A., ... & Radev, D. R. (2003). TimeML: Robust specification of event and temporal expressions in text. New directions in question answering, 3, 28­34. [PUSTEJOVSKY02] Pustejovsky, J., Hanks, P., Sauri, R., See, A., Gaizauskas, R., Setzer, A., ... & Lazo, M. (2003, March). The timebank corpus. Corpus linguistics, Vol. 2003. 40. [QUINLAN01] Quinlan, R. (2014). C5. 0 release 2.07 GPL Edition [software]. Data Mining Tools, RuleQuest Research, Australia. https://www.rulequest.com/download.html . Accedido

104

Page 105: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

15/04/2016. [RUPPENHOFER01] Ruppenhofer, J., Ellsworth, M., Petruck, M. R., Johnson, C. R., & Scheffczyk, J. (2006). FrameNet II: Extended theory and practice. Berkeley, California, USA. [SALTO01] University of Saarlandes. (2007). The SALSA tool [software]. Computational Linguistics and Phonetics,University of Saarlandes, Saarbrücken, Germany. http://www.coli.uni­saarland.de/projects/salsa/page.php?id=software [SAURI01] Saurii, R., Littman, J., Knippen, B., Gaizauskas, R., Setzer, A., & Pustejovsky, J. (2005). TimeML annotation guidelines. http://timeml.org/publications/specs.html , Accedido 13/04/2016. [SAURI02] Saurí, R., Batiukova, O., & Pustejovsky, J. (2009). Annotating Events in Spanish. TimeML Annotation Guidelines. Version TempEval­2010. [SAURI03] Saurí, R., Knippen, R., Verhagen, M., & Pustejovsky, J. (2005, October). Evita: a robust event recognizer for QA systems. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics. 700­707 [SCHILDER01] Schilder, F., & Habel, C. (2001, July). From temporal expressions to temporal information: Semantic tagging of news messages. Proceedings of the workshop on Temporal and spatial information processing­Volume 13. Association for Computational Linguistics. 9. [SETZER01] Setzer, A. (2001). Temporal Information in Newswire Articles: an Annotation Scheme and Corpus Study, PhD dissertation, University of Sheffield. [SETZER02] Setzer, A., & Gaizauskas, R. (2001, July). A pilot study on annotating temporal relations in text. Proceedings of the workshop on Temporal and spatial information processing­Volume 13. Association for Computational Linguistics. 11. [SUBIRATS01] Subirats­Rüggeberg. (2012) La integración de la semántica de marcos y la semántica de simulación: aplicaciones al procesamiento semántico automático del español. [SUBIRATS02] Subirats­Rüggeberg, C. (2009). FrameNet Español: un análisis cognitivo del léxico del español. Terminología y sociedad del conocimiento. 309­320. [SUBIRATS03] Subirats­Rüggeberg, C. & Petruck, M. R. L.. (2003). Surprise: Spanish FrameNet! In Workshop on Frame Semantics, International Congress of Linguists, Prague, Czech Republic. [SWEFRAMENET01] Ahlberg, M., Borin, L., Dannélls, D., Forsberg, M., Gronostaj, M.T., Heppin, K.F., Johansson,R., Kokkinakis, D., Olsson, L. & Uppström,J. (2011). Swedish FrameNet++. University Of Gothenburg, Sweden. http://spraakbanken.gu.se/eng/swefn,

105

Page 106: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Accedido 12/03/2016 [TERQAS01] TimeML. (2002). Time and Event Recognition for Question Answering Systems. ARDA Workshop on Advanced Question Answering Technology. http://www.timeml.org/terqas/index.html , Accedido 12/09/2015 [TREEBANK01] University of Pennsylvania. (1992). Penn TreeBank. LINC Laboratory, Computer and Information Science Department, University of Pennsylvania, USA. http://www.cis.upenn.edu/~treebank/, Accedido 12/09/2015 [UZZAMAN01] UzZaman, N., & Allen, J. F. (2010, July). TRIPS and TRIOS system for TempEval­2: Extracting temporal information from text. Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics. 276­283. [UZZAMAN02] UzZaman, N., & Allen, J. F. (2010, May). TRIOS­TimeBank Corpus: Extended TimeBank Corpus with Help of Deep Understanding of Text. LREC 2010. [VALIN01] Van Valin Jr, R. D. (2005). Exploring the syntax­semantics interface. Cambridge University Press. [VERHAGEN01] Verhagen, M., Mani, I., Sauri, R., Knippen, R., Jang, S. B., Littman, J., ... & Pustejovsky, J. (2005, June). Automating temporal annotation with TARSQI. Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics. 81­84. [VOSSEN01] Vossen, P. (1999). EuroWordnet general document (Version 3–Final). University of Amsterdam. EuroWordNet LE2­4003, LE4­8328. [WILSON01] Wilson, G., Mani, I., Sundheim, B., & Ferro, L. (2001, July). A multilingual approach to annotating and extracting temporal information. Proceedings of the workshop on Temporal and spatial information processing­Volume 13. Association for Computational Linguistics. 12. [WILSON02] Wilson, G. & Mani, I., (2000, October). Robust temporal processing of news. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics. 69­76. [WONSEVER01] Wonsever, D., Rosá, A., Malcuori, M., Moncecchi, G., & Descoins, A. (2012). Event annotation schemes and event recognition in spanish texts. In Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg. 206­218. [WONSEVER02] Wonsever, D., Malcuori, M., & Rosá, A. (2008). Sibila: esquema de anotación de eventos. Technical Report, Biblioteca InCo PEDECIBA. 8–11

106

Page 107: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

11. Apéndices

Apéndice A: Relaciones entre Frames extraídas del corpus de FrameNet

con una herramienta que se construyó especialmente para este trabajo

El motivo de la creación de esta herramienta, fue que el tipo de relación entre frames

es una de las características usadas en el momento de entrenar el modelo de clasificación de LINKs. Relación: Precedes Later=Quitting, Earlier=Being_employed Later=Being_employed, Earlier=Get_a_job Later=Post_lose_possession, Earlier=Lose_possession Later=Lose_possession, Earlier=Pre_lose_possession Later=Activity_abandoned_state, Earlier=Activity_stop Later=Activity_done_state, Earlier=Activity_finish Later=Activity_resume, Earlier=Activity_paused_state Later=Activity_stop, Earlier=Activity_ongoing Later=Activity_finish, Earlier=Activity_ongoing Later=Activity_paused_state, Earlier=Activity_pause Later=Activity_pause, Earlier=Activity_ongoing Later=Activity_ongoing, Earlier=Activity_start Later=Activity_start, Earlier=Activity_ready_state Later=Activity_ready_state, Earlier=Activity_prepare Later=Post_giving, Earlier=Giving Later=Giving, Earlier=Pre_giving Later=Post_getting, Earlier=Getting Later=Getting, Earlier=Pre_getting Later=Post_transfer, Earlier=Transfer Later=Transfer, Earlier=Pre_transfer Later=Receiving, Earlier=Pre_receiving Later=Post_receiving, Earlier=Receiving Later=Bail_decision, Earlier=Entering_of_plea Later=Entering_of_plea, Earlier=Notification_of_charges Later=Altered_phase, Earlier=Change_of_phase Later=Verdict, Earlier=Jury_deliberation Later=Jury_deliberation, Earlier=Court_examination Later=Change_of_state_endstate, Earlier=Event Later=Event, Earlier=Change_of_state_initial_state Later=Criminal_process, Earlier=Criminal_investigation Later=Criminal_investigation, Earlier=Committing_crime Later=Arriving, Earlier=Departing Later=Sentencing, Earlier=Trial Later=Trial, Earlier=Arraignment

107

Page 108: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Later=Arraignment, Earlier=Arrest Later=Success_or_failure, Earlier=Attempt Later=Getting_up, Earlier=Being_awake Later=Waking_up, Earlier=Sleep Later=Sleep, Earlier=Fall_asleep Later=Being_awake, Earlier=Waking_up Later=Fall_asleep, Earlier=Being_awake Later=Process_continue, Earlier=Process_resume Later=Process_resume, Earlier=Process_stopped_state Later=Process_stopped_state, Earlier=Process_stop Later=Process_stop, Earlier=Process_continue Later=Process_start, Earlier=Process_initial_state Later=Process_continue, Earlier=Process_start Later=Process_end, Earlier=Process_continue Later=Process_completed_state, Earlier=Process_end Later=Meet_with, Earlier=Assemble Later=Labor_product, Earlier=Text Later=Death, Earlier=Being_born Later=Dying, Earlier=Being_born Later=Dying, Earlier=Birth Later=Death, Earlier=Birth Later=Death, Earlier=Dying Later=Existence, Earlier=Coming_to_be Later=Out_of_existence, Earlier=Ceasing_to_be Later=Ceasing_to_be, Earlier=Existence Later=Resolve_problem, Earlier=Confronting_problem Later=Repel, Earlier=Invading Later=Conquering, Earlier=Invading Later=Employment_end, Earlier=Employment_continue Later=Employment_continue, Earlier=Employment_start Later=Firing, Earlier=Employing Later=Employing, Earlier=Hiring Later=Visit_host_departure, Earlier=Visit_host_stay Later=Visit_host_stay, Earlier=Visit_host_arrival Later=Visiting_scenario_departing, Earlier=Visiting_scenario_stay Later=Visiting_scenario_stay, Earlier=Visiting_scenario_arrival Later=Visitor_departure, Earlier=Visiting Later=Visiting, Earlier=Visitor_arrival Later=Hit_or_miss, Earlier=Aiming Later=Placing, Earlier=Removing Later=Process_stopped_state, Earlier=Process_pause Later=Process_pause, Earlier=Process_continue Later=Process_uncompleted_state, Earlier=Process_stop Later=Activity_paused_state, Earlier=Activity_stop Later=Activity_ongoing, Earlier=Activity_resume

108

Page 109: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Relación: Causative_of Inchoative/state=Getting, Causative=Giving Inchoative/state=Being_dry, Causative=Cause_to_be_dry Inchoative/state=Corroding, Causative=Corroding_caused Inchoative/state=Make_noise, Causative=Cause_to_make_noise Inchoative/state=Process_end, Causative=Cause_to_end Inchoative/state=Ground_up, Causative=Grinding Inchoative/state=Purpose, Causative=Eventive_cognizer_affecting Inchoative/state=Leadership, Causative=Change_of_leadership Inchoative/state=Posture, Causative=Change_posture Inchoative/state=Being_in_operation, Causative=Change_operational_state Inchoative/state=Fluidic_motion, Causative=Cause_fluidic_motion Inchoative/state=Eclipse, Causative=Hiding_objects Inchoative/state=Take_place_of, Causative=Replacing Inchoative/state=Expansion, Causative=Cause_expansion Inchoative/state=Amalgamation, Causative=Cause_to_amalgamate Inchoative/state=Come_together, Causative=Gathering_up Inchoative/state=Being_obligated, Causative=Imposing_obligation Inchoative/state=Progress, Causative=Cause_to_make_progress Inchoative/state=Becoming_detached, Causative=Detaching Inchoative/state=Death, Causative=Killing Inchoative/state=Change_of_phase, Causative=Cause_change_of_phase Inchoative/state=Become_silent, Causative=Silencing Inchoative/state=Being_named, Causative=Name_conferral Inchoative/state=Undergo_change, Causative=Cause_change Inchoative/state=Process_start, Causative=Cause_to_start Inchoative/state=Change_of_consistency, Causative=Cause_change_of_consistency Inchoative/state=Emanating, Causative=Emitting Inchoative/state=Inchoative_attaching, Causative=Attaching Inchoative/state=Change_position_on_a_scale, Causative=Cause_change_of_position_on_a_scale Inchoative/state=Inchoative_change_of_temperature, Causative=Cause_temperature_change Inchoative/state=Absorb_heat, Causative=Apply_heat Inchoative/state=Moving_in_place, Causative=Cause_to_move_in_place Inchoative/state=Proliferating_in_number, Causative=Cause_proliferation_in_number Inchoative/state=Perception_body, Causative=Cause_bodily_experience Inchoative/state=Breaking_apart, Causative=Cause_to_fragment Inchoative/state=Rotting, Causative=Cause_to_rot Inchoative/state=Used_up, Causative=Exhaust_resource Inchoative/state=Perception_experience, Causative=Cause_to_perceive Inchoative/state=Experiencer_focus, Causative=Cause_emotion Inchoative/state=Process_resume, Causative=Cause_to_resume Inchoative/state=Being_wet, Causative=Cause_to_be_wet Inchoative/state=Process_pause, Causative=Interrupt_process Inchoative/state=Becoming_separated, Causative=Separating

109

Page 110: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Inchoative/state=Success_or_failure, Causative=Thwarting Inchoative/state=State_continue, Causative=Cause_to_continue Inchoative/state=Process_continue, Causative=Cause_to_continue Inchoative/state=Being_at_risk, Causative=Endangering Inchoative/state=Recovery, Causative=Cure Relación: Inchoative_of Stative=Remembering_information, Inchoative=Memorization Stative=Membership, Inchoative=Becoming_a_member Stative=Getting, Inchoative=Possession Stative=Dead_or_alive, Inchoative=Death Stative=Awareness, Inchoative=Coming_to_believe Stative=Existence, Inchoative=Coming_to_be Stative=Personal_relationship, Inchoative=Forming_relationships Stative=Being_up_to_it, Inchoative=Rising_to_a_challenge Stative=Being_detached, Inchoative=Becoming_detached Stative=Process_continue, Inchoative=Process_start Stative=Temperature, Inchoative=Inchoative_change_of_temperature Stative=Being_attached, Inchoative=Inchoative_attaching Stative=Position_on_a_scale, Inchoative=Change_position_on_a_scale Stative=Aggregate, Inchoative=Come_together Stative=Altered_phase, Inchoative=Cause_change_of_phase Stative=Shapes, Inchoative=Go_into_shape Relación: Subframe Component=Removing, Complex=Cause_motion Component=Placing, Complex=Cause_motion Component=Activity_resume, Complex=Activity Component=Success_or_failure, Complex=Attempting_scenario Component=Attempt, Complex=Attempting_scenario Component=Being_awake, Complex=Sleep_wake_cycle Component=Getting_up, Complex=Sleep_wake_cycle Component=Halt, Complex=Motion Component=Quitting_a_place, Complex=Intentional_traversing Component=Getting_underway, Complex=Motion Component=Setting_out, Complex=Travel Component=Arriving, Complex=Traversing Component=Departing, Complex=Traversing Component=Quitting_a_place, Complex=Self_motion Component=Having_commercial_agreement, Complex=Commerce_scenario Component=Commercial_transaction, Complex=Commerce_scenario Component=Altered_phase, Complex=Change_of_phase_scenario Component=Change_of_phase, Complex=Change_of_phase_scenario Component=Post_receiving, Complex=Receiving_scenario Component=Receiving, Complex=Receiving_scenario Component=Pre_receiving, Complex=Receiving_scenario

110

Page 111: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Component=Post_getting, Complex=Getting_scenario Component=Getting, Complex=Getting_scenario Component=Pre_getting, Complex=Getting_scenario Component=Post_transfer, Complex=Transfer_scenario Component=Transfer, Complex=Transfer_scenario Component=Pre_transfer, Complex=Transfer_scenario Component=Post_giving, Complex=Giving_scenario Component=Giving, Complex=Giving_scenario Component=Pre_giving, Complex=Giving_scenario Component=Firing, Complex=Employer's_scenario Component=Employing, Complex=Employer's_scenario Component=Hiring, Complex=Employer's_scenario Component=Quitting, Complex=Employee's_scenario Component=Being_employed, Complex=Employee's_scenario Component=Get_a_job, Complex=Employee's_scenario Component=Employment_end, Complex=Employment_scenario Component=Employment_continue, Complex=Employment_scenario Component=Employment_start, Complex=Employment_scenario Component=Court_examination, Complex=Trial Component=Being_born, Complex=Cycle_of_life_and_death Component=Death, Complex=Cycle_of_life_and_death Component=Dead_or_alive, Complex=Cycle_of_life_and_death Component=Out_of_existence, Complex=Cycle_of_existence_scenario Component=Ceasing_to_be, Complex=Cycle_of_existence_scenario Component=Existence, Complex=Cycle_of_existence_scenario Component=Coming_to_be, Complex=Cycle_of_existence_scenario Component=Repel, Complex=Invasion_scenario Component=Invading, Complex=Invasion_scenario Component=Conquering, Complex=Invasion_scenario Component=Food_gathering, Complex=Agriculture Component=Planting, Complex=Agriculture Component=Hunting, Complex=Hunting_scenario Component=Hunting_success_or_failure, Complex=Hunting_scenario Component=Committing_crime, Complex=Crime_scenario Component=Criminal_investigation, Complex=Crime_scenario Component=Criminal_process, Complex=Crime_scenario Component=Have_visitor_over, Complex=Receive_visitor_scenario Component=Drop_in_on, Complex=Visit_host Component=Visit_host_departure, Complex=Visitor_and_host Component=Visit_host_stay, Complex=Visitor_and_host Component=Visit_host_arrival, Complex=Visitor_and_host Component=Visiting_scenario_stay, Complex=Visiting_scenario Component=Visiting_scenario_departing, Complex=Visiting_scenario Component=Visiting_scenario_arrival, Complex=Visiting_scenario Component=Visitor_departure, Complex=Visitor_scenario Component=Visiting, Complex=Visitor_scenario

111

Page 112: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Component=Visitor_arrival, Complex=Visitor_scenario Component=Historic_event, Complex=Individual_history Component=Hit_or_miss, Complex=Attempt_distant_interaction_scenario Component=Aiming, Complex=Attempt_distant_interaction_scenario Component=Purpose, Complex=Attempting_scenario Component=Causation, Complex=Causation_scenario Component=Jury_deliberation, Complex=Trial Component=Verdict, Complex=Trial Component=Impact, Complex=Cause_impact Component=Sleep, Complex=Sleep_wake_cycle Component=Process_stopped_state, Complex=Process Component=Process_stop, Complex=Process Component=Process_start, Complex=Process Component=Process_resume, Complex=Process Component=Process_initial_state, Complex=Process Component=Process_end, Complex=Process Component=Process_continue, Complex=Process Component=Commerce_goods­transfer, Complex=Commercial_transaction Component=Commerce_money­transfer, Complex=Commercial_transaction Component=Lose_possession, Complex=Lose_possession_scenario Component=Pre_lose_possession, Complex=Lose_possession_scenario Component=Post_lose_possession, Complex=Lose_possession_scenario Component=Arrest, Complex=Criminal_process Component=Change_of_state_endstate, Complex=Change_of_state_scenario Component=Change_of_state_initial_state, Complex=Change_of_state_scenario Component=Event, Complex=Change_of_state_scenario Component=Activity_start, Complex=Activity Component=Activity_paused_state, Complex=Activity Component=Activity_done_state, Complex=Activity Component=Activity_abandoned_state, Complex=Activity Component=Activity_stop, Complex=Activity Component=Activity_pause, Complex=Activity Component=Activity_prepare, Complex=Activity Component=Activity_ready_state, Complex=Activity Component=Waking_up, Complex=Sleep_wake_cycle Component=Process_completed_state, Complex=Process Component=Activity_ongoing, Complex=Activity Component=Activity_finish, Complex=Activity Component=Building_subparts, Complex=Buildings Component=Fall_asleep, Complex=Sleep_wake_cycle Component=Entering_of_plea, Complex=Arraignment Component=Notification_of_charges, Complex=Arraignment Component=Bail_decision, Complex=Arraignment Component=Trial, Complex=Criminal_process Component=Arraignment, Complex=Criminal_process Component=Sentencing, Complex=Criminal_process

112

Page 113: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Component=Precipitation, Complex=Weather Component=Finish_competition, Complex=Competition Component=Process_pause, Complex=Process Component=Process_uncompleted_state, Complex=Process

Apéndice B: Causa judicial por desembargo de la Goleta Nuestra Señora

de la Candelaria (1812­1816)

Transcripción de los copetes que describen a los documentos históricos

correspondientes al archivo “Causa judicial por desembargo de la Goleta Nuestra Señora de la Candelaria (1812­1816)” que suministró el Instituto de Historia Argentina y Americana “Dr. Emilio Ravignani” y que se usaron en la presente tesis: Expediente instruido con motivo de la captura de un navío que participó de las

actividades de corso en el Río de la Plata durante la guerra de la

independencia y las disputas en torno a su propiedad.

Documento 2.­ El Gobierno Superior Provicional de las Provincias Unidas del Rio de la Plata concede licencia de navegación y tráfico a la Goleta Nuestra Señora de la Candelaria, desde los Cabos de San Antonio y Santa María hasta el interior del Rio de la plata. Buenos Aires 1 de febrero de 1812. Documento 3.­ Antonio Biscaya al Superior Gobierno: solicita se le restituya la goleta de su propiedad que fue apropiada por las fuerzas militares de Gualeguaychu. Reseña las peripecias de su viaje.Sin fecha. Documento 4.­ Dictamen del Asesor titular desestimando el pedido pues la goleta fue apresada con otros buques armados que hostilizaban las costas entrerrianas de las Provincias Unidas. Buenos Aires, 29 de julio de 1814. Documento 5.­ Informe sobre la carga del Buque Nuestra Señora del Rosario. Buenos Aires, 6 de agosto de 1814. Documento 6.­ Entrega del buque al Don Pablo José de Ezeiza e inventario de la nave. Buenos Aires, 8 de agosto de 1814. Documento 7.­ Declaración de Juan Pereyra Viana. Buenos Aires, 13 de marzo de 1813. Documento 8.­ Declaración de Pedro Pascual Delgado, Buenos Aires, 31 de marzo de 1813. Documento 9.­ Declaración de Hilario Avalos. Buenos Aires, 2 de abril de 1813.

113

Page 114: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Documento 10.­ Presentación de Francisco de Salez Nuñez: Señala que es el unico propietario tanto del buque como de la carga embargados. Menciona sus servicios a la revolución y los perjuicios que ha sufirdo. Solicita se citen testigos para recabar testimonios. Documento 11.­ Señala que es el unico propietario tanto del buque como de la carga embargados. Menciona sus serviciso a la revolución y los perjuicios que ha sufirdo. Solicita se citen testigos para recabar testimonios. Documento 12.­ Requerimiento de Julián de Gregorio Espinsoa: solicita se le entregue el cargamento de cueros que le fueron remitidos en la lancha Nuestra Señora de la Candelaria. Sin fecha. Documento 13.­ Escrito presentado por Francisco de Sales Nuñez: Reitera la solicitud de restitución de del Buque y su cargamento por ser de su propiedad .y considera que debe tomar posesión de los mismos hasta tanto se resuelva la causa judicial. Sin fecha. Documento 14.­ Testimonio de Ignacio de Ezaurdi: refiere que la lancha que ha sido propiedad de don F. Biscaya fue apresada junto a otras en lo arroyos de Gualeguay por el Cte Samaniego. Fue rematada adquiriéndola Don Antonio del Texo. 29 de agosto de 1814. Documento 15.­ Presentación de Francisco de Salez Nuñez: reitera su requerimiento de que le sea restituido su buque y cargamento. Alega sus servicos a la causa revolucionario, la prisión sufrida en Montevideo. Recusa al asesor letrado Angel Marinao de Elía que entiende en la causa. Buenos Aires, 1 de setiembre de 1814 Documento 16.­ Se admite la recusación y se nombra a Asesor General a Félix Frías. Buenos Aires, 2 de setiembre de 1814. Documento 17.­ Declaración de Ignacio de Elzuardi. Buenos Aires, 24 de setiembre de 1814. Documento 18.­ Declaración de Francisco Villaris. Buenos Aires, 24 de setiembre de 1814. Documento 19.­ Declaración de Felizardo Fernández. Buenos Aires, 24 de setiembre de 1814. Documento 20.­ Declaración de Francisco Martínez de Haedo. Buenos Aires, 27 de setiembre de 1814. Documento 21.­ Declaración de Juan Carlos Wright, Tte Cnl del escuadrón de milicias regladas del Gualeguay. Buenos Aires, 27 de setiembre de 1814. Documento 22.­ Dictamen del Asesor Frías pidiendo se de audiencia al reclamante Francisco de Sales Nuñez y se pase el expediente al Gobernador Intentendente para que resuelva y de cuenta de su resolución. Buenos Aires, 14 de octubre de 1914

114

Page 115: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Documento 23.­ Presentación de Francisco de Sales Nuñez. hace referencia al embargo de parte de la carga del buque. Manifiesta su disposición a pagar una fianza por su valor para que se le entregue la carga y protesta por los perjuicios que sufre. Buenos Aires, 20 de octubre de 1814. Documento 24.­ Presentación de los apresadores de la Goleta Nuestra Señora del Rosario José Gutiérrez, José Gregorio Samaniego, José Ignacio González, José Marcelino Peláez, Pablo José León, Nazario Gómez, Felipe Rodríguez y José Elías Peñalva confiriendo poder a Pablo José de Ezeiza en la demanda y cobro de la mencionada goleta que bajo coacción fueron obligados a vender a Don Antonio Texo. Aunque se la habían cedido ya a Ezeyza debieron entregarsela al mencionado Texo por temor de los jefes de quienes venía recomendado (José Artigas y Otorgues). Asimismo facultamos a Ezeiza para que anule aquel acto y accione en representación de sus personas en el juicio. 16 de agosto de 1814. Documento 25.­ Presentación de Pablo José de Ezeiza al Gobernador Intendente: presenta poder y solicita se le reconozca como parte legítima en la causa Documento 26.­ Presentación de Isabel de Alzaga al Supremo Director. Siendo esposa legítima de Angle Mariano Elía solicita se le restituyan las marquetas de sebo y otros efectos se se hallaban en la Goleta Nuestra Señora del Rosairo. Dichos efectos fueron sustraidos de su estancia y las marquetas llevan la marca de su propiedad. Documento 27.­ Pedro Jose de Elía a Antonio Texo: Se hace referencia a la venta de unos efectos. Documento 28.­ Presentación de Francisco Paulino de Sales Nuñez. Presenta documento que certifica la venta de cueros y marquetas de sebo por parte de Angel Mariano Elía a Antonio José Texo y que prueba la legitima posesión que tiene de esos y otros efectos. S/f. Documento 29.­ Escrito de Isabel de Alzaga en nobre de su marido Angel Mariano Elía al Supremo Director: Manifiesta que nadie ha tenido facultad de hacer las ventas mencionadas por Texo ni su marido ha comunicado orden para ellas. Accede a que se le entreguen esos efectos a Nuñez bajo fianza y en calidad de responder de su valor a los precios corrientes siempre que se justifique la sustracción de la marquetas. Documento 30.­ Decreto del Gobernador Intendente disponiendo la entrega de los efectos embargados a Francisco Paulino de Sales Nuñez. Buenos Aires, 22 de noviembre de 1814. Documento 31.­ Presentación de Francisco Paulino de Sales Nuñez al Gobernador Intendente: Presenta fianza para que se le entreguen los efectos embargados segun lo dispuesto por el Decreto del 22 de noviembre. Buenos Aires, 23 de noviembre de 1814. Documento 32.­ Francisco Paulino de Sales Nuñez certifica ante el Escribano Mayor de Gobierno la recepción de los efectos según lo dispuesto por el Gobernador Intendente. Buenos Aires, 26 de noviembre de 1814.

115

Page 116: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Documento 33.­ Requerimiento del Comandante Gregorio Samaniego: Manifiesta que la goleta apresada en un hecho de armas fue legitimamente subastada de acuerdo con los interesados, y licitamente adquirida por el comprador. Objeta presentaciones hechas en la causa y solicita se intime a Francisco Paulino de Sales Nuñez para que le abone el valor de dicha embarcación para aliviar las necesidades que está atravesando. Menciona su servicios. Campamento del Tala, noviembre 21 de 1814. Documento 34.­ Francisco Paulino de Sales Nuñez confiere poder a Julián Gregorio Espinosa para que lo represente en todo tipo de operaciones comerciales, ante los tribunales y en especial en la causa que se sigue por la goleta Nuestra Señora del Rosario conocida también por de la Candelaria o de Biscaya. Buenos Aires, 23 de diciembre de 1814. Documento 35.­ Presentación de Julián de Gregorio Espinosa, apoderado de Francisco Paulino de Sales Nuñez: solicita se haga comparecer en la causa a Antonio José del Texo a quien su poderdante a comprado el buque. Buenos Aires, 4 de marzo de 1815. Documento 36.­ Presentación del Cnl de milicias Pablo Ezeiza al Gobernador Intendente: Manifiesta que habiendo reclamdo el buque bajo la personería de los vecinos de Gualeguaychu que lo habían apresado y se lo habían cedido, con el poder de los mismos impugno la venta que del buque habia hecho Antonio José del TExo a Paulino de Sales Nuñez por haberlo aquel comprado con vicios de notoria nulidad. Vistas las complicaciones del juicio y los perjuicios que sufre admite que la lancha pase a poder de Sales Nuñez en las mismas condiciones y responsabilidades que la posee actualmente él, hasta la resolución de la causa. Documento 37.­ Presentación de Antonio José del Texo al Gobernador Intendente. Desestima la solicitud de Francisco Paulino de Sales Nuñez en que solicita responda por el despojo de que se siente victima por parte de Pablo Jose de Ezeiza. Buenos Aires, 11 de mayo de 1815. Documento 38.­ Decreto del Gobernador Intendente José María Soler: Ordena la restitución bajo inventario la lanca Nuestra Señora del Rosaro o Candelaria a Francisco Paulino de Sales Nuñez, a quein se reserva de derecho para que contra quien pueda y deba accione por los daños y perjuicios causadospor el embargo de dicho buque. Buenos Aires, 11 de mayo de 1815. Documento 39.­ Francisco Salez Nuñez revoca el poder conferido a Julián Gregorio Espinosa y lo confiere a Antonio José del Texo para que lo represente en la causa civil que tiene pendiente ante el Gobernador Intendente contra Pablo José de Ezeiza por los perjuicios sufridos como consecuencia del embargo de la lancha Nuestra Señora de la Candelaria y su cargamento. Buenos Aires, 29 de abril de 1815. Documento 40.­ Antonio José del Texo al Gobernador Intendente: Como apoderado de Francisco de Salez Nuñez, solicita ordene al Capitan del puerto Martín Thompson le

116

Page 117: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

entregue la embarcación de acuerdo a lo resuelto por el Gobernador Intendente. Buenos Aires, 13 de mayo de 1815. Documento 41.­ Manuel Mutis al Capitán del Puerto: Comunica entrega de la embarcación con inventario a Antonio José del Texo. Buenos Aires, 15 de mayo de 1815. Documento 42.­ Certificación de los maestros mayores calafates y carpinteros del puerto por orden del Capitán Martín Thompson y a solicitud de Antonio José del Texo sobre el estado de la goleta. Informan que la embarcación no está en condiciones de navegar. Detallan las refacciones necesarias y su costo. Buenos Aires, 19 de mayo de 1815. Documento 43.­ El Cnl de milicias Pablo José de Ezeiza al Gobernador Intendente: Comunica que ha desistido de los poderes que se le habian otorgado para litigar en la causa y aun cuando la lancha sobre la que se está litigando le fue donada por sus poderdantes su intervención en los autos ha sido solo en condición de apoderado por lo cual no corresponde responda por los perjuicios que se mencionan. A la vez informa que por las convulsiones politicas en el litoral y la persecución de ARtigas ha perdido todo contacto con sus poderdantes, alguno de los cuales han sido emigrado y otros han sufrido la pena capital. solicita se desestimen por improcedentes los requerimeintos efectuados por Antonio José del Texo. S/f Documento 44.­ Antonio José del Texo al Gobernador Intendente: solicita se desestime la presentación de Pablo José de Ezeiza. Menciona que el mencionado Ezeiza ha ganado muchos miles con el robo del referido buque y se ha constadado el deterioro en que ha entregado la embarcación. Documento 45.­ Auto del Gobernador Intendente Manuel Luis de Oliden: aclara que el auto del 11 de mayo anterior que reserva el derecho de la parte de Salez Nuñez para que accione por daños y perjucios contra quien pueda y deba, no adjudica responsabilidad al Cnl Pablo José de Ezeiza. Buenos Aires, 22 de juno de 1815. Documento 46.­ Declaración de Francisco Paulino de Salez Nuñez: Refiere diversos incidentes relacionados con la causa y su tramitación. Manifiesta tener un buen concepto de Pablo José de Ezeiza y no tener reclamo alguno contra su persona. Señala que hace esta declaración para evitar males mayores y en objeto a la justicia. Documento 47.­ Pablo José de Ezeiza y Francisco de Sales Nuñez al Gobernador Intendente: presentación del documento anterior, en virtud de la cual dan por concluida cualquier gestión entre los firmantes. Documento 48.­ Decreto del Gobernador Intendente declarando sobreseida la causa y libre de toda responsabilidad el Cnl Pablo José de Ezeiza Documento 49.­ Tasación de las costas causadas por los autos. Buenos Aires, 16 de agosto de 1815.

117

Page 118: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Documento 50.­ Candelaria Pardo al Gobernador Indente: Como consorte legítima y apoderada de Antonio José Texo solicita los autos de la causa. Buenos Aires, 22 de diciembre de 1815. Documento 51.­ Presentación del Cnl de Milicias Pablo José de Ezeiza al Gobernador Intendente: Solicita que se revoque la vista de autos requerida por la apoderada de Antonio Jose del Texto por haber conluido la causa. Documento 52.­ Decreto del Gobernador Intendente Manuel Luis de Oliden. Buenos Aires, 23 de enero de 1816. Dispone que habiendo concluida la causa y realizada la tasación y conluida la causa por decreto del 3 de agosto de 1815, esta fenecida la representación que Antonio José del Texto ejercía en nombre de Francisco de Sales Nuñez. y se declara no parte a Candelaria Pardo para promover acción alguna en relación con la causa. Se revoca la vista de autos. Documento 53.­ Declaración de Francisco de Salez Nuñez. Concepción del Uruguay, 26 de agosto de 1815. Documento 54.­ Candelaria Pardo, mujer legítima y apoderada de Antonio de Salez Nuñez al Gobernador Intendente: solicita se revise el decreto por el cual se declara concluida la causa, e inhabilitado su esposo para promover acciones en la misma. Detalla las injusticias de que ha sido victima su esposo. Documento 55.­ Decreto del Gobernador Intendente. Buenos Aires, 14 de febrero de 1816. Documento 56.­ El Cnl de milicias Pablo José de Ezeiza al Gobernador Intendente: señala que por un deceto anterior ha sido declarado no parte en la causa. Apreciaciones sobre el desarrollo del juicio y la actitud de los otros involucrados en el juicio. S/f. Documento 57.­ El gobernador Intendente autoriza la vista de los autos por parte de Candelaria Pardo. Buenos Aires, 12 de marzo de 1816. Documento 58.­ El gobernador Intendente autoriza la vista de los autos por parte de Candelaria Pardo. Buenos Aires, 12 de marzo de 1816. Documento 59.­ Pablo José de Ezeiza al Gobernador Intendente: Señala que un decreto anterior lo ha desvinculado de la causa. Consecuentemente solicita se suspenda el testimonio que se le pide hasta tanto se citen las partes que verdaderamente se consideren legítimas en el asunto. Buenos Aires, 18 de abril de 1816 ­ Decreto del Gobernador Intendente dispone que se cumpla el decreto del 26 de abril de 1815.

Apéndice C: Partes militares de la Batalla de Pavón (1861)

118

Page 119: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Transcripción de los copetes que describen a los documentos históricos correspondientes al archivo “Partes militares de la Batalla de Pavón (1861)” que suministró el Instituto de Historia Argentina y Americana “Dr. Emilio Ravignani” y que se usaron en la presente tesis: Se trata de los informes presentados por los jefes y oficiales del ejército del

Estado de Buenos Aires (A. Alsina, M. de Gainza, L. Aguero, E. Mitre, J.

Arredondo, etc.), sobre las acciones de las tropas bajo su mando, así como

del informe presentado por W. Paunero (Jefe del Estado Mayor) a Bartolomé

Mitre (Gobernador de Buenos Aires). También incluye una carta de Justo J. de

Urquiza en la que explica a las autoridades de la Confederación Argentina las

razones por las que se retira a su provincia. Esta colección se compone de 21

documentos, entre manuscritos e impresos, con un total de 73 folios útiles

(101 imágenes).

Documento 1.­Juan Ayala al Cnl. Julio García. Comunica que le remite el parte general y los parciales referentes a la batalla de Pavón. Buenos Aires, 15 de setiembre de 1891. F. 1. Documento 2.­Benito Nazar a Wenceslao Paunero. Relación de la actuación de su regimiento en la batalla de Pavón. Derrota de la artillería enemiga. Manifestaciones de Bartolomé Mitre. Mención del Comandante Alsina. Actuación de un escuadrón de caballería. Comportamiento del Cap. Ramón Muñíz al Subteniente Zenón Nazar. Toma de una bandera enemiga. San Nicolás de los Arroyos, 20 de setiembre de 1861. F. 2 y 3. Documento 3.­Benito Nazar a Wenceslao Paunero. Informa acerca de la artillería y municiones tomadas al enemigo en la batalla de Pavón. Campamento de Cariaga, 23 de setiembre de 1861. F. 4 y 5. Documento 4.­Wenceslao Paunero a Bartolomé Mitre. Informe detallado de las operaciones realizadas por el Ejército de Buenos Aires desde su salida del campamento de Rojas hasta el día de la batalla de Pavón. Campamento de Cariaga, 27 de setiembre de 1861. F. 6 a 13. Documento 5.­Luis Arguero a Emilio Mitre. Le informa de las acciones que libraron las tropas que estaban bajo su mando durante la batalla de Pavón. Campamento General de San Nicolás, 20 de setiembre de 1861. F. 14 y 15. Documento 6.­Luis Arguero a Emilio Mitre. Refiere la destacada actuación de algunos de los hombres bajo su mando. Campamento General de San Nicolás, 20 de setiembre de 1861. F. 16 y 17. Documento 7.­Emilio Mitre a Wenceslao Paunero. Le adjunta los partes de los Jefes de Brigada, con las operaciones realizadas por cada uno de ellos, durante la batalla de Pavón. Incluye el suyo en donde da detalles de las acciones que libraron las tropas que estaban bajo su mando, así como el número de heridos, bajas y prisioneros. Campamento de Cariaga, 22 de setiembre de 1861. F. 18 a 20.

119

Page 120: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

Documento 8.­Pablo Díaz a Wenceslao Paunero. Da cuenta de lo ocurrido en Pavón. Adjunta los partes de los jefes que tenía a sus órdenes (Ctes. Emilio Castro, Adolfo Alsina, Julián Murga). Campamento de Cariaga, 20 de setiembre de 1861. F. 21 a 30 vta. Documento 9.­N. Fació a Luis María Arguero. Informa acerca de las operaciones efectuadas por las tropas a su mando en la batalla de Pavón. Campamento de San Nicolás. F. 31 y 32. Documento 10.­José Arredondo a Luis María Arguero. Informa acerca de las operaciones efectuadas por las tropas a su mando en la batalla de Pavón. Campamento de San Nicolás. F. 33 y 34. Documento 11.­A. Galván a Luis María Arguero. Informa acerca de las operaciones efectuadas por las tropas a su mando en la batalla de Pavón. Campamento de San Nicolás. F. 35 y 36. Documento 12.­Ignacio Rivas a Emilio Mitre. Eleva la lista de los heridos y muertos de los cuerpos que formaron la división de su mando en la batalla de Pavón. Campamento de San Nicolás, 20 de setiembre de 1861. F. 37 a 38. Documento 13.­Martín de Gainza a Ignacio Rivas. Informa acerca de las operaciones efectuadas por las tropas a su mando en la batalla de Pavón. Campamento de San Nicolás. F. 39 y 40. Documento 14.­Partes de los Jefes Gainza, Arredondo, Fraga, Landa, Aldecoa y Roseti en los que se detallan los Jefes, Oficiales y tropa del Ejército de la Confederación tomados prisioneros en la batalla de Pavón. San Nicolás, 20 de setiembre de 1861. F. 41 a 51. Documento 15.­Urquiza al Ministro de Guerra y Marina Pascual Echagüe. Parte de la batalla de Pavón. Hace referencias a la falta de hombres, armamentos y municiones del ejército. Falencias en el arma de infantería. Planes previos a la batalla. Dispositivo de sus fuerzas, detalle de la batalla. Causas de su retirada. Comentarios sobre su estado de ánimo. Señala que careció de órdenes para operar sobre la Provincia de Buenos Aires. Menciona a Jefes capaces de proseguir la lucha ante su mal estado de salud. Necesidad de que se logre la paz. Diamante, 20 de setiembre de 1861. F. 52 a 61 vta. Documento 16.­El Ministro de Guerra y Marina Pascual Echagüe a Urquiza. Acusa recibo del parte de la batalla de Pavón. Reconocimiento del Gobierno a los Jefes, oficiales y tropas por su comportamiento. Heroísmo de las divisiones entrerrianas. Pesar por el deterioro de su salud. Paraná, 30 de setiembre de 1861. F. 62 a 65. Documento 17.­Resolución del Ministerio de Guerra y Marina. Se hace referencia al decreto del Presidente Derqui, ascendiendo a varios Jefes militares que actuaron en la batalla de Pavón, y al parte del combate. Paraná, 28 de setiembre de 1861. F. 66. Documento 18.­El Presidente Derqui al Ministro de Guerra y Marina, Pascual Echagüe. Informa de su establecimiento en Rosario y de su resolución de ponerse al frente de las

120

Page 121: FACULTAD DE INGENIERÍA UNIVERSIDAD DE BUENOS AIRESmaterias.fi.uba.ar/7500/Abate.pdf · 6.3.6.4 Detección y clasificación TLINK, SLINK, ALINK NO_LINK a través de diferentes oraciones

operaciones. Reorganización de las fuerzas confederadas. Actitud de la población rosarina. Actuación de la caballería y la infantería. Valor y lealtad de los generales Francia, López Jordán, y Saá. Justifica sus ascensos. Medidas para reunir las fuerzas dispersas. Abandono del campo de batalla de Urquiza. Designación de Benjamín Virasoro como Jefe del Ejército de Operaciones. Necesidad de comunicar los hechos al Vice­Presidente Pedernera. Paraná, 28 de setiembre de 1861. F. 67 a 70. Documento 19.­Impreso del Presidente Derqui. Ascenso de varios jefes. Monte de Flores, 20 de setiembre de 1861. F. 71. Documento 20.­Impreso del presidente Derqui. Nombramiento de Benjamín Virasoro como Jefe del Ejército de Operaciones. Alude a la enfermedad de Urquiza. Necesidad de continuar con las operaciones. Rosario, 22 de setiembre de 1861. F. 72. Documento 21.­Impresos. Parte oficial de la Batalla de Pavón remitido por Benjamín Virasoro del 20 de setiembre de 1861. Decretos del Presidente Derqui relacionados con la organización del ejército de los días 20 y 21 de setiembre de 1861. F. 73.

121