Upload
francisco-cifuentes-silva
View
275
Download
1
Tags:
Embed Size (px)
Citation preview
Experiencias con Tecnologías de Web Semántica
Biblioteca del Congreso Nacional
1st Annual Workshop and School on efficient extraction of semantic web data
Center for Semantic Web Research
Francisco Cifuentes Silva
12 de enero de 2014
¿Qué es la Biblioteca del Congreso Nacional?
Poderes del estado
Poder Ejecutivo Poder Judicial Poder Legislativo
- Órgano “autónomo” del Poder Legislativo
- Apoya al Parlamento y presta servicios a la Ciudadanía.
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 2
Por qué Web Semántica en la BCN
• Se identifica el potencial tecnológico para generación de nuevos productos
• Provee mecanismos de interoperabilidad
• Se ajusta a la idea de información pública
• Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica)
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 3
Web Semántica en la BCN
Inicial
Ley Chile
2008
Open Data, Normas Legales en XML
2015
Fig: http://www.w3.org/DesignIssues/LinkedData.html
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 4
Fase inicial (2008-2011)
http://www.leychile.cl
Publicación de normas
Legales actualizadas
Interoperabilidad con organismos públicos:
•Poder Judicial
•Contraloría
•SAG
•Entre más de cien otros.
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 5
Fase inicial (2008-2011)
XML de la Ley 20.000 en http://www.leychile.cl
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 6
Fase inicial (2008-2011): Social, Servicios Web y API
http://llevatelo.bcn.cl
Conjunto de serviciosde información que dan acceso a contenidospublicados por BCN para ser integrados por fuentes externas
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 7
Web Semántica en la BCN
Inicial Exploración
Ley Chile
Ontología +
Datos +
visualizaciones
2008 2011 2015
Linked Open Data
Normas Legales en RDF
Fig: http://www.w3.org/DesignIssues/LinkedData.html
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 8
Fase exploratoria (2011-2012)
Publicación de las primeras ontologías y datasets 5 estrellas: Normas legales (cerca de 300.000 normas en RDF)
Parlamentarios
Localidades geográficas
Portal de datos enlazados
Visualizaciones (validación y uso
de los datos)
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 9
Fase exploratoria (2011-2012)
Publicación de grafos
de normas
Modelado de URIs para normas
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 10
Fase exploratoria (2011-2012): Ontologías y datasets
Diagrama de representación de la ontología
Ontología de Normas PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#>
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 11
Fase exploratoria (2011-2012): Ontologías y Datasets
Endpoint SPARQLhttp://datos.bcn.cl/sparql
Vista de recurso RDF en HTML
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 12
Salida HTML+RDFa Archivo de configuración
Fase exploratoria (2011-2012): Herramientas
Linked Data Frontend con negociación de contenido HTTP
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 13
Fase exploratoria (2011-2012): Visualizaciones I
http://datos.bcn.cl/visualizaciones/normas-por-comuna/
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 14
Fase exploratoria (2011-2012): Visualizaciones II
http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 15
Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 16
Web Semántica en la BCN
Inicial Exploración Explotación
Ley Chile
Ontología +
Datos +
visualizaciones
Producción de datos +
productos
2008 2011 2012 2015
Prueba de concepto satisfactoria
=
Paso a producción de tecnología12 de Enero de 2014 Francisco Cifuentes Silva - BCN 17
Web Semántica en Producción
Proyecto Labor Parlamentaria (LP):
Obtener intervenciones de parlamentarios en el Congreso de manera histórica ycategorizada de manera automática
Proyecto Historia de la Ley (HL):
Obtener todos los cambios de una ley y sus justificaciones desde que fue proyectohasta que se publicó, también de manera automática
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 18
Complejidades HL y LP
• Se cuenta con documentos legislativos como diarios de sesión, informes de comisión, oficios, etc. a nivel histórico
• Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)
• Algunos documentos solo en Word
• Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué habla
• Se debe detectar la estructura y articulado de un proyecto de ley (además su estructura esrecursiva)
• Normas de redacción varían levemente en distintos periodos
• Se debe poder extraer información para luego consultar
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 19
LP y HL, el cómo
XMLStorage
Congreso Nacional Documentos legislativos en:•OCR•Documentos Word•XML desde opendata.congreso.cl
Herramientas
Workflow de producción
Extracción desde XML
LinkedOpen Data
OLAPDatabase
12 de Enero de 2014 Francisco Cifuentes Silva - BCN
Proceso de marcaje automático
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 21
Textoplano
Reconocimiento de Entidades nombradas
Asignación de URI
Marcaje estructural
Traducción Akoma-NtosoXMLAKN
Marcadorautomático XML
Proceso de marcaje automático
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 22
Textoplano
Reconocimiento de Entidades nombradas
Asignación de URI
Marcaje estructural
Traducción Akoma-NtosoXMLAKN
Marcadorautomático XML
Reconocedor de Entidades Nombradas (NER)
- Se necesita identificar entidades en el texto (personas, organismos, lugares, roles, fechas, documentos)
- Se está utilizando una versión adaptada al español del Stanford NER
- El clasificador fue entrenado con documentos grandes (aprox. 100 páginas), logrando sobre un 80% de efectividad en reconocimiento de entidades
http://nlp.stanford.edu/software/CRF-NER.shtml
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 23
Marcaje automático
Reconocedor de Entidades Nombradas (NER)
Fragmento de output del servicio
Escrito en Java y disponible como servicio XML HTTP
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 24
Proceso de marcaje automático
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 25
Textoplano
Reconocimiento de Entidades nombradas
Asignación de URI
Marcaje estructural
Traducción Akoma-NtosoXMLAKN
Marcadorautomático XML
Mediador
Permite asignar una única URI a una entidad reconocida en el texto
- Conecta a un endpoint SPARQL e indexa entidades
- Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label, skos:prefLabel, skos:altLabel)
- Selecciona la etiqueta más similar y devuelve la URI del recurso
Mediador
Indexar LOC entities
Colección tuplasURI/Label
GET URI para “Chile”
200 OKhttp://datos.bcn.cl/recurso/pais/chile
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 26
Mediador
Más características
• Conexión directa a Endpoint SPARQL
• Indexa y resuelve distintos tipos de entidad
• Permite establecer información de contexto
• Heurísticas por tipo de entidad (Solución para cuando consulto “Allende”)
• Implementa conjunto de servicios Web HTTP
• Ìndice Apache Lucene en memoria
• Escrito en Java
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 27
Proceso de marcaje automático
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 28
Textoplano
Reconocimiento de Entidades nombradas
Asignación de URI
Marcaje estructural
Traducción Akoma-NtosoXMLAKN
Marcadorautomático XML
Marcaje Estructural en XML
- El problema es detectar secciones estructurales
- Combinación de métodos
- Expresiones regulares
- Algoritmos para diferencias y detectar secuencias
- Mezcla de reglas y algoritmos
- Cada combinación depende del tipo de documento
- Finalmente, una representación de objeto similar a DOM es transformada a
XML
- Escrito en Java
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 29
Proceso de marcaje automático
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 30
Textoplano
Reconocimiento de Entidades nombradas
Asignación de URI
Marcaje estructural
Traducción Akoma-NtosoXMLAKN
Marcadorautomático XML
Traducción a XML final
- Para documentos legislativos el estándar XML es el Akoma-Ntoso
- AKN es un esquema demasiado amplio y complejo por lo que XSLT es
complejo por si solo
- La mejor solución fue desarrollar un servicio Web traductor de XML
- Escrito en Java
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 31
Publicación y extracción
• Una vez almacenado el XML enriquecido es momento de extraer información
• Para ello se desarrolló un servicio capaz de distinguir el tipo de documento yextraer su información
• La información se extrae en un modelo de objetos que se traduce a LOD, comotambién a nuestra tabla de Hechos para consulta
• Los content deliverys podrán consultar indistintamente datos en LOD como a la tabla de hechos mediante servicios Web
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 32
Generación de XML enriquecido
Triplestore RDF
Endpoint SPARQL
TXT
Marcador Automático
XML
Extracción(XML a RDF)
AnalistasEditor XML
NERMarcaje
Estructural
TransformaciónAkoma-Ntoso
Mediador
Akoma-Ntoso
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 33
Visualización del contenido
Labor Parlamentaria
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 36
Visualización del contenido
Labor Parlamentaria
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 37
Visualización del contenido
Labor Parlamentaria
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 38
Visualización del contenido
Historia de La Ley
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 39
Visualización del contenido
Historia de La Ley
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 40
Visualización del contenido
Historia de La Ley
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 41
Conclusiones en la práctica
• Se probó utilización de clasificadores para marcaje estructural sin obtener buenosresultados, texto muy variado
• El esquema de marcaje permite integrar diversos formatos XML de salida
• Para los Content Delivery, se probaron distintos esquemas para consultascomplejas usando LOD:– Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban
– Datos en RDF + Datos inferidos precargados = promedio de tiempos inaceptable
– Datos en tabla de Hechos para consulta = Siempre listo
• Utilización de URIs es excepcionalmente útil para interoperabilidad• URIs para documentos legales
• URIs para metadata
• URIs para entidades nombradas
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 42
Conclusiones en la práctica
Reducción de tiempos de generación de producto utilizando este esquema
Gráfico: Horas necesarias para generar una Historia de la Ley en distintos escenarios
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 43
Datasets actualmente disponibles
• Normas de Leychile (RDF, XML)
• Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas)– Diarios de sesiones
– Informes de comisión
– Mociónes
– Proyectos de Ley
• Biografías parlamentarias (RDF, RDFa)
• Localidades geográficas, Cargos, Persona, Organismos (RDF)
Visiten
http://datos.bcn.cl
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 44
Gracias por su atención
12 de Enero de 2014 Francisco Cifuentes Silva - BCN 45
fcifuentes <at> bcn <dot> cl
twitter.com/fcifuentes
www.slideshare.net/francisco.cifuentes
www.linkedin.com/in/fcifuentes
Si necesitan contactarme: