45
Experiencias con Tecnologías de Web Semántica Biblioteca del Congreso Nacional 1st Annual Workshop and School on efficient extraction of semantic web data Center for Semantic Web Research Francisco Cifuentes Silva [email protected] 12 de enero de 2014

Experiencias con tecnologías de Web Semántica en la Biblioteca del Congreso Nacional

Embed Size (px)

Citation preview

Experiencias con Tecnologías de Web Semántica

Biblioteca del Congreso Nacional

1st Annual Workshop and School on efficient extraction of semantic web data

Center for Semantic Web Research

Francisco Cifuentes Silva

[email protected]

12 de enero de 2014

¿Qué es la Biblioteca del Congreso Nacional?

Poderes del estado

Poder Ejecutivo Poder Judicial Poder Legislativo

- Órgano “autónomo” del Poder Legislativo

- Apoya al Parlamento y presta servicios a la Ciudadanía.

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 2

Por qué Web Semántica en la BCN

• Se identifica el potencial tecnológico para generación de nuevos productos

• Provee mecanismos de interoperabilidad

• Se ajusta a la idea de información pública

• Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica)

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 3

Web Semántica en la BCN

Inicial

Ley Chile

2008

Open Data, Normas Legales en XML

2015

Fig: http://www.w3.org/DesignIssues/LinkedData.html

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 4

Fase inicial (2008-2011)

http://www.leychile.cl

Publicación de normas

Legales actualizadas

Interoperabilidad con organismos públicos:

•Poder Judicial

•Contraloría

•SAG

•Entre más de cien otros.

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 5

Fase inicial (2008-2011)

XML de la Ley 20.000 en http://www.leychile.cl

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 6

Fase inicial (2008-2011): Social, Servicios Web y API

http://llevatelo.bcn.cl

Conjunto de serviciosde información que dan acceso a contenidospublicados por BCN para ser integrados por fuentes externas

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 7

Web Semántica en la BCN

Inicial Exploración

Ley Chile

Ontología +

Datos +

visualizaciones

2008 2011 2015

Linked Open Data

Normas Legales en RDF

Fig: http://www.w3.org/DesignIssues/LinkedData.html

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 8

Fase exploratoria (2011-2012)

Publicación de las primeras ontologías y datasets 5 estrellas: Normas legales (cerca de 300.000 normas en RDF)

Parlamentarios

Localidades geográficas

Portal de datos enlazados

Visualizaciones (validación y uso

de los datos)

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 9

Fase exploratoria (2011-2012)

Publicación de grafos

de normas

Modelado de URIs para normas

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 10

Fase exploratoria (2011-2012): Ontologías y datasets

Diagrama de representación de la ontología

Ontología de Normas PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#>

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 11

Fase exploratoria (2011-2012): Ontologías y Datasets

Endpoint SPARQLhttp://datos.bcn.cl/sparql

Vista de recurso RDF en HTML

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 12

Salida HTML+RDFa Archivo de configuración

Fase exploratoria (2011-2012): Herramientas

Linked Data Frontend con negociación de contenido HTTP

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 13

Fase exploratoria (2011-2012): Visualizaciones I

http://datos.bcn.cl/visualizaciones/normas-por-comuna/

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 14

Fase exploratoria (2011-2012): Visualizaciones II

http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 15

Fase exploratoria (2011-2012): Visualizaciones III

http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 16

Web Semántica en la BCN

Inicial Exploración Explotación

Ley Chile

Ontología +

Datos +

visualizaciones

Producción de datos +

productos

2008 2011 2012 2015

Prueba de concepto satisfactoria

=

Paso a producción de tecnología12 de Enero de 2014 Francisco Cifuentes Silva - BCN 17

Web Semántica en Producción

Proyecto Labor Parlamentaria (LP):

Obtener intervenciones de parlamentarios en el Congreso de manera histórica ycategorizada de manera automática

Proyecto Historia de la Ley (HL):

Obtener todos los cambios de una ley y sus justificaciones desde que fue proyectohasta que se publicó, también de manera automática

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 18

Complejidades HL y LP

• Se cuenta con documentos legislativos como diarios de sesión, informes de comisión, oficios, etc. a nivel histórico

• Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)

• Algunos documentos solo en Word

• Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué habla

• Se debe detectar la estructura y articulado de un proyecto de ley (además su estructura esrecursiva)

• Normas de redacción varían levemente en distintos periodos

• Se debe poder extraer información para luego consultar

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 19

LP y HL, el cómo

XMLStorage

Congreso Nacional Documentos legislativos en:•OCR•Documentos Word•XML desde opendata.congreso.cl

Herramientas

Workflow de producción

Extracción desde XML

LinkedOpen Data

OLAPDatabase

12 de Enero de 2014 Francisco Cifuentes Silva - BCN

Proceso de marcaje automático

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 21

Textoplano

Reconocimiento de Entidades nombradas

Asignación de URI

Marcaje estructural

Traducción Akoma-NtosoXMLAKN

Marcadorautomático XML

Proceso de marcaje automático

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 22

Textoplano

Reconocimiento de Entidades nombradas

Asignación de URI

Marcaje estructural

Traducción Akoma-NtosoXMLAKN

Marcadorautomático XML

Reconocedor de Entidades Nombradas (NER)

- Se necesita identificar entidades en el texto (personas, organismos, lugares, roles, fechas, documentos)

- Se está utilizando una versión adaptada al español del Stanford NER

- El clasificador fue entrenado con documentos grandes (aprox. 100 páginas), logrando sobre un 80% de efectividad en reconocimiento de entidades

http://nlp.stanford.edu/software/CRF-NER.shtml

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 23

Marcaje automático

Reconocedor de Entidades Nombradas (NER)

Fragmento de output del servicio

Escrito en Java y disponible como servicio XML HTTP

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 24

Proceso de marcaje automático

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 25

Textoplano

Reconocimiento de Entidades nombradas

Asignación de URI

Marcaje estructural

Traducción Akoma-NtosoXMLAKN

Marcadorautomático XML

Mediador

Permite asignar una única URI a una entidad reconocida en el texto

- Conecta a un endpoint SPARQL e indexa entidades

- Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label, skos:prefLabel, skos:altLabel)

- Selecciona la etiqueta más similar y devuelve la URI del recurso

Mediador

Indexar LOC entities

Colección tuplasURI/Label

GET URI para “Chile”

200 OKhttp://datos.bcn.cl/recurso/pais/chile

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 26

Mediador

Más características

• Conexión directa a Endpoint SPARQL

• Indexa y resuelve distintos tipos de entidad

• Permite establecer información de contexto

• Heurísticas por tipo de entidad (Solución para cuando consulto “Allende”)

• Implementa conjunto de servicios Web HTTP

• Ìndice Apache Lucene en memoria

• Escrito en Java

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 27

Proceso de marcaje automático

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 28

Textoplano

Reconocimiento de Entidades nombradas

Asignación de URI

Marcaje estructural

Traducción Akoma-NtosoXMLAKN

Marcadorautomático XML

Marcaje Estructural en XML

- El problema es detectar secciones estructurales

- Combinación de métodos

- Expresiones regulares

- Algoritmos para diferencias y detectar secuencias

- Mezcla de reglas y algoritmos

- Cada combinación depende del tipo de documento

- Finalmente, una representación de objeto similar a DOM es transformada a

XML

- Escrito en Java

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 29

Proceso de marcaje automático

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 30

Textoplano

Reconocimiento de Entidades nombradas

Asignación de URI

Marcaje estructural

Traducción Akoma-NtosoXMLAKN

Marcadorautomático XML

Traducción a XML final

- Para documentos legislativos el estándar XML es el Akoma-Ntoso

- AKN es un esquema demasiado amplio y complejo por lo que XSLT es

complejo por si solo

- La mejor solución fue desarrollar un servicio Web traductor de XML

- Escrito en Java

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 31

Publicación y extracción

• Una vez almacenado el XML enriquecido es momento de extraer información

• Para ello se desarrolló un servicio capaz de distinguir el tipo de documento yextraer su información

• La información se extrae en un modelo de objetos que se traduce a LOD, comotambién a nuestra tabla de Hechos para consulta

• Los content deliverys podrán consultar indistintamente datos en LOD como a la tabla de hechos mediante servicios Web

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 32

Generación de XML enriquecido

Triplestore RDF

Endpoint SPARQL

TXT

Marcador Automático

XML

Extracción(XML a RDF)

AnalistasEditor XML

NERMarcaje

Estructural

TransformaciónAkoma-Ntoso

Mediador

Akoma-Ntoso

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 33

Publicación y extracción

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 34

Publicación y extracción

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 35

Visualización del contenido

Labor Parlamentaria

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 36

Visualización del contenido

Labor Parlamentaria

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 37

Visualización del contenido

Labor Parlamentaria

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 38

Visualización del contenido

Historia de La Ley

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 39

Visualización del contenido

Historia de La Ley

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 40

Visualización del contenido

Historia de La Ley

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 41

Conclusiones en la práctica

• Se probó utilización de clasificadores para marcaje estructural sin obtener buenosresultados, texto muy variado

• El esquema de marcaje permite integrar diversos formatos XML de salida

• Para los Content Delivery, se probaron distintos esquemas para consultascomplejas usando LOD:– Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban

– Datos en RDF + Datos inferidos precargados = promedio de tiempos inaceptable

– Datos en tabla de Hechos para consulta = Siempre listo

• Utilización de URIs es excepcionalmente útil para interoperabilidad• URIs para documentos legales

• URIs para metadata

• URIs para entidades nombradas

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 42

Conclusiones en la práctica

Reducción de tiempos de generación de producto utilizando este esquema

Gráfico: Horas necesarias para generar una Historia de la Ley en distintos escenarios

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 43

Datasets actualmente disponibles

• Normas de Leychile (RDF, XML)

• Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas)– Diarios de sesiones

– Informes de comisión

– Mociónes

– Proyectos de Ley

• Biografías parlamentarias (RDF, RDFa)

• Localidades geográficas, Cargos, Persona, Organismos (RDF)

Visiten

http://datos.bcn.cl

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 44

Gracias por su atención

12 de Enero de 2014 Francisco Cifuentes Silva - BCN 45

fcifuentes <at> bcn <dot> cl

twitter.com/fcifuentes

www.slideshare.net/francisco.cifuentes

www.linkedin.com/in/fcifuentes

Si necesitan contactarme: