12
Treebank y Treebank y anotación anotación semántica en semántica en euskara euskara Grupo Ixa, UPV-EHU Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis KNOW. Workshop de sintaxis Mayo, 2007 Mayo, 2007

Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Embed Size (px)

Citation preview

Page 1: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank y Treebank y anotación anotación

semántica en semántica en euskara euskara

Grupo Ixa, UPV-EHUGrupo Ixa, UPV-EHUKNOW. Workshop de sintaxisKNOW. Workshop de sintaxis

Mayo, 2007Mayo, 2007

Page 2: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

EsquemaEsquema

Treebank:Treebank: Principios de anotaciónPrincipios de anotación MetodologíaMetodología Datos y mediaDatos y media

Anotación semánticaAnotación semántica Euskal wordnet / EuSemcorEuskal wordnet / EuSemcor Roles (Euskal propbank) Roles (Euskal propbank)

Page 3: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. Principios de Treebank. Principios de anotaciónanotación

Punto de partida:Punto de partida: Corpus anotado manualmente a nivel de Corpus anotado manualmente a nivel de

segmentación segmentación (cat. subcat., det., num., caso), (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones y con MLWs, Entidades y posposiciones complejascomplejas

Etiquetado superficial, pero más Etiquetado superficial, pero más completo: completo: árbol completo de aquellos árbol completo de aquellos elementos presentes en el textoelementos presentes en el texto -> -> No se No se marcan:marcan:

la elipsisla elipsis PRO/proPRO/pro

Page 4: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. Principios de Treebank. Principios de anotaciónanotación

Unidad de tratamiento: oraciónUnidad de tratamiento: oración De punto (o principio de párrafo) a puntoDe punto (o principio de párrafo) a punto De punto (o principio de párrafo) a signo de De punto (o principio de párrafo) a signo de

interrogacióninterrogación De punto (o principio de párrafo) a signo de De punto (o principio de párrafo) a signo de

exclamaciónexclamación De punto (o principio de párrafo) a dos puntosDe punto (o principio de párrafo) a dos puntos

Cabeza de sintagma: elemento con Cabeza de sintagma: elemento con significado léxico -> punto de vista significado léxico -> punto de vista semánticosemántico

Los Los cimientoscimientos principales de la principales de la casacasa vieja vieja

Page 5: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. Principios de Treebank. Principios de anotaciónanotación

Una sola etiqueta para cada Una sola etiqueta para cada elemento de dependencia. elemento de dependencia. Excepción: las conjunciones Excepción: las conjunciones coordinantes coordinantes

28 etiquetas de dependencia, con la 28 etiquetas de dependencia, con la siguiente jerarquía (basada en siguiente jerarquía (basada en Carroll Carroll et al.et al., 1998b, 1999, 1998b, 1999))

Page 6: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

osagarriak

predikatiboak

juntagailuak,lokaikuak,

puntuazio-ikurrak

modifikatzaileak

laguntzailea

ez perpausa

perpausa

determinatzailea

ez perpausa

perpausa

jokatua

perpausjokatugabea

ncsubj

nczobjncobj

ncmod

jokatua

jokatugabea

detmod

xcomp_obj

xmod

xcomp_subj

cmod

ccomp_objccomp_subj

ncpred

lot

auxmod

xpred

aponcmod

apocmod

apoxmod

gradmod

prtmod

itjmod

galdemod

xcomp_zobj

jokatugabea

ez perpausa

lokailuak

root(aditza)

lotat

perpausa

ez perpausa

aposizioa

graduatzailea

partikula

interjekzioa

jokatua

jokatugabea

indartzaileak

perpausa

haos, postos,menos, entios

Haul-, postposizio-,menderagailu- etaentitate-osagaiak

Page 7: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. MetodologíaTreebank. Metodología

Fase de prueba: 2 meses (abril-Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadoresmayo). Todos los etiquetadores Familiarización con la herramienta Familiarización con la herramienta

informática (Abar-Hitz)informática (Abar-Hitz) Ajustes de la herramientaAjustes de la herramienta Formación lingüisticaFormación lingüistica

Etiquetado masivo:Etiquetado masivo: Equipo de trabajo:Equipo de trabajo:

2 etiquetadores (a tiempo parcial)2 etiquetadores (a tiempo parcial) 1 revisor (a tiempo parcial) 1 revisor (a tiempo parcial) 2 técnicos informáticos de la herramienta 2 técnicos informáticos de la herramienta

(a tiempo parcial)(a tiempo parcial)

Page 8: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. MetodologíaTreebank. Metodología

Elección de oraciones:Elección de oraciones:Partiendo de la lista de verbos por frecuencia, Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos plantea etiquetar empezando por los menos frecuentesfrecuentes

Etiquetado:Etiquetado: Un etiquetador por arriba y otro por abajo.Un etiquetador por arriba y otro por abajo.

El revisor va guardando los ficheros en una El revisor va guardando los ficheros en una carpeta (revisados)carpeta (revisados)

No se etiquetan aquella oraciones que:No se etiquetan aquella oraciones que: son errores gramaticalesson errores gramaticales no están bien delimitadasno están bien delimitadas son demasiado largas (a posteriori sí) son demasiado largas (a posteriori sí)

Page 9: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Treebank. Datos y mediaTreebank. Datos y media

Hasta ahora se han etiquetado 55.000 Hasta ahora se han etiquetado 55.000 palabraspalabras

Media en el etiquetado masivo: 200 Media en el etiquetado masivo: 200 palabras / h palabras / h

Se ha hecho un manual de anotaciónSe ha hecho un manual de anotación En un futuro se prevé que:En un futuro se prevé que:

no haya revisor y éste comience a no haya revisor y éste comience a etiquetaretiquetar

se incorpore otro etiquetadorse incorpore otro etiquetador

Page 10: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Semántica: Euskal Wordnet / Semántica: Euskal Wordnet / EuSemcorEuSemcor

EuSemcorEGINDA EGINGABE GUZTIRA

Hitzak Agerpenak Hitzak Agerpenak Hitzak Agerpenak

Polisemikoak 442 39.208 2.888 29.663 3.330 68.871

Monosemikoak 192 7.281 1.618 9.325 1.810 16.606

EusWN-en ez daude

83 487 10.987 39.449 11.070 39.936

Guztira 717 46.976 15.493 78.437 16.210 125.413

Euskal WordnetGuztira Izenak Aditzak

Adierak 50.670 41.160 9.510

Lemak 26.565 26.069 3.496

Synset-ak 32.456 28.705 3.751

Hutsune lexikalak 2.499 2.198 301

Izen bereziak 722 722 0

Page 11: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Semántica: roles (Euskal Semántica: roles (Euskal Propbank)Propbank)

Se ha hecho un estudio preliminar Se ha hecho un estudio preliminar para la validación del modelo para la validación del modelo Propbank en euskera:Propbank en euskera:

Agirre et al. 2006. Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank.A Preliminary Study for Building the Basque PropBank. In Proceedings of the 5th International Conference on Language Resources and In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC)Evaluations (LREC)

http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_Prhttp://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdfopBank.pdf

En este estudio: En este estudio: se ha establecido una metodología de trabajose ha establecido una metodología de trabajo se han etiquetado tres verbos: se han etiquetado tres verbos: esan esan (‘decir’)(‘decir’), ,

adierazi adierazi (‘expesar’)(‘expesar’), eskatu, eskatu (‘pedir’)(‘pedir’) se ha demostrado que Propbank es un modelo se ha demostrado que Propbank es un modelo

válido para el euskeraválido para el euskera se han establecido estrategias de etiquetado se han establecido estrategias de etiquetado

semiautomático semiautomático

Page 12: Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Semántica: roles (Euskal Semántica: roles (Euskal Propbank)Propbank)

Se preve empezar con el Se preve empezar con el etiquetado semántico después del etiquetado semántico después del etiquetado sintáctico, y etiquetado sintáctico, y dependiendo de los recursosdependiendo de los recursos