Upload
daniel-vila-suero
View
274
Download
3
Tags:
Embed Size (px)
DESCRIPTION
Seminario impartido el 12 de Julio de 2013 para la Biblioteca Nacional y el Ministerio de Cultura de Colombia
Citation preview
Datos enlazados para instituciones
culturales Daniel Vila Suero [email protected]
Ontology Engineering Group, Universidad Politécnica de Madrid Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano,
Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others)
Seminario para la Biblioteca Nacional de Colombia Viernes 12 de Julio de 2013
This work is funded by the Spanish Project TIN2010-17550 for the BabeLData project, and by BNE
Principios básicos
2
Datos enlazados para LAM
• LAM (Library, Archives and Museums)
• Datos enlazados para bibliotecas, archivos y museos.
• ¿Qué? Publicar los datos de estas instituciones siguiendo los principios de Linked Data.
• ¿Cuáles son esos principios y cómo se transladan al dominio de patrimonio cultural e histórico?
3
Recordatorio: Los 4 Principios (1) Utilizar URIs para identificar las cosas (en la Web)
(2) Utilizar HTTP URIs para que se puedan recuperar sus descripciones (en la Web)
(3) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL)
(4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos
4
Principios 1 y 2
(1, 2) Utilizar HTTP URIs para identificar y permitir recuperar nuestros objetos (en la Web)
Cada objeto, recurso, activo relevante tiene su propio identificador en la Web: HTTP URI.
Por ejemplo: - Personas: Gabriel García Márquez ! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
- Obras: Cien años de soledad = h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad=
5
Buenas prácticas HTTP URIs • Cool URI's don't change:
- Las URIs deben ser estables, no deben cambiar en el tiempo pues son el punto de acceso a nuestros recursos. El dominio y los servidores deben estar manejados por nuestra institución
- URIs bien estructuradas y predecibles: • /personas/ID: todas las URIs que siguen este patrón
son Personas
- Omitir detalles de la tecnología utilizada, fechas, etc.: • MAL: http://datos.bibliotecanacional.gov.co/index.php?
persona=Garcia_Marquez
- Las HTTP URIs son principalmente para ser manejadas por las máquinas, si existe un ID único en los datos de origen se debería utilizar. Por ejemplo el 001 de MARC 21
6
(Paréntesis) • Formato compacto para las URIs CURIEs (Compact
URIs) • Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!ID: Gabriel_García_Márquez
= = =
7
(Paréntesis) • Formato compacto para las URIs CURIEs (Compact
URIs) • Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!ID: Gabriel_García_Márquez
= = =
8
bncPersona:Gabriel_García_Márquez
(Paréntesis)
9
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
(Paréntesis)
10
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
Principio 3
(2) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL)
Describimos: - Mediante tripletas RDF los atributos de nuestros
recursos. - Utilizando clases y propiedades de
vocabularios o ontologías (FRBR, ISBD, etc)
11
Principio 3
12
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a García Márquez
Principio 3
13
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a García Márquez
Sujeto
Predicado
Objeto
Principio 3
14
bncPersona:Gabriel_García_Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Tripleta describiendo a García Márquez
Sujeto
Predicado
Objeto
Principio 3
15
frbr:fechaDeNacimiento
Reutilizar vocabularios estándar: FRBR, RDA, ISBD..
frbr:esCreadorDe
isbd:HtuloPropiamenteDicho
foaf:Person
Básicamente: - Clases: Definen el tipo de recurso (Persona, obra,etc) - Propiedades: Definen carácterísticas del recurso (fechas, título, nombre, etc.)
Buenas prácticas Vocabularios • Reutilizar vocabularios ampliamente utilizados,
estables y soportados por una comunidad
- ¿Cómo?
• Recomendación 1: Análisis de otros conjuntos de datos del mismo dominio (Bibliotecas, Museos, etc.)
• Recomendación 2: Buscar conceptos en repositorios de vocabularios. El más recomendable es LOV (Linked Open Vocabularies) de la Open Knowledge Foundation
h"p://lov.okfn.org/=16
Linked Open Vocabularies: Library
17
Resultado de aplicar principios 1, 2 y 3
18
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Grafo de URIs describiendo a Gabriel García-Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Frbr:lugarDeNacimiento "Colombia"
Linked Open Vocabularies
19
Búsqueda y ranking de términos (Person, Work, etc.)
= = = Person
Principio 4
(4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos
Tiene 2 vertientes que permiten aumentar/enriquecer las descripciones:
1- Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: Usar la URI de Colombia en DBpedia frente a utilizar la
cadena "Colombia"
2 - Incluir enlaces a la mismo recurso descrito en otro conjunto de datos: Enlaces a García Márquez en VIAF, BNE, etc
20
Vertiente 1
21
bncPersona:Gabriel_García_Márquez
"Colombia" no permite recuperar más información acerca del lugar de
nacimiento, solo el nombre
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:
Vertiente 1 Enlaces
22
bncPersona:Gabriel_García_Márquez
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:
X dbpedia:Colombia V Dbpedia:imagenBandera
Ampliamos la red de conocimiento
Vertiente 2 Enlaces: sameAs
23
bncPersona:Gabriel_García_Márquez
owl:sameAs
Enlaces al mismo recurso en otros conjuntos de datos enlazados
bne:Gabriel_García_Márquez
Ampliamos la red de conocimiento sobre
García Márquez en la BNC (Obras
catalogadas en la BNE, descripciones en VIAF, etc.)
owl:sameAs
viaf:Gabriel_García_Márquez
Buenas prácticas Enlazado • Enlazar con conjuntos de datos relevantes dentro
de una comunidad determinado
- ¿Cómo?
• Recomendación 1: Recursos como VIAF, BNE o DBpedia contienen numersos enlaces a otros recursos similares. Centrarse inicialmente en estos para maximizar el resultado
• Recomendación 2: Buscar otros conjuntos de datos dentro del area. En repositorios como:
h"p://datahub.io= 24
datos.bne.es
25
Especificación
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
• Registros en formato MARC 21 • 3.9 millones registros bibliográficos • 4.2 millones registros autoridad • Versión: Noviembre 2011
Modelado: FRBR
Obras
Expresiones
Manifestaciones
Obra 1
Obra 2
Obra 3
Expresión 1 Expresión 2
Manifestación1 Manifestación2
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Ontología basada en vocabularios de IFLA
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Marimba utiliza la ontología para generar RDF
BNE Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Proceso de transformación
30
• How to facilitate the mapping process to library experts? 1. Use a familiar and intuitive interface: Spreadsheets 2. Work only on what's in the database: Pre-process records
to build the spreadsheets
• 3 step-process 3 different spreadsheets
1. Classification: is it a Person? a Work? a Manifestation? 2. Annotation: name, birth date, title, language of expression 3. Relation: find relationships between entities (Person is
creator of a certain work)
Marimba: Proceso de mapping
100 $a Cervantes Saavedra, Miguel de
100 $a frbr:Person
String(100 $a $t) frbr:isCreatorOf100 $a Cervantes Saavedra, Miguel de$t Don Quijote de la Mancha
String(100 $a)
100 $a $t
frbr:titleOfWork100 $t
MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL
100 $a frbr:nameOfPerson
PRE-PROCESSING STEP
has subfield
has subfield
has heading
has heading
has content
has content
contained in
frbr:Work
Heading Class Object property Datatype/Annotation property
maps to
maps to
maps to
maps to
maps to
Librarians manually define the mappings
Variation(100$a + $t)
31
Proceso de mapping
32
Open mappings at: http://bne.linkeddata.es/mapping-marc21
Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Identificación de Entidades:
Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona.
Por ejemplo:
100 $a $d Persona (FRBR Grupo 2)
100 $a $t Obra (FRBR Grupo 1)
Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Anotación de Entidades:
Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota:
Por ejemplo:
100 $d Fecha asociada a persona
100 $t Titulo de la obra
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Relación entre Entidades:
Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y
sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2.
Por ejemplo:
Persona-Obra $t Persona es creadora de Obra
Obra-Obra $n Obra es parte de Obra
Marimba: Proceso de transformación a RDF y mappings
Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia
BNE
http://datos.bne.es/resource/XX1718747
Same As Same As
Same As
Same As
Same As
LIBRIS
http://libris.kb.se/resource/auth/45369
SUDOC
http://www.idref.fr/026774771/id
DNB
http://d-nb.info/gnd/11851993X
DBpedia
http://dbpedia.org/resource/Miguel_de_Cervantes
VIAF http://viaf.org/viaf/17220427
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia
Publicación
• Publicación de los datos
• Publicar los metadatos sobre el dataset con VOID y DCAT
• Para facilitar el descubrimiento del dataset
• Registrar el conjunto de datos en DataHub
• Generar el sitemap usando sitemap4rdf
• Cargar el sitemap en Google y Sindice
Especficación
Modelado
Generación RDF
Publicación
Generación de enlaces
Explotación
Explotación
• 2 perspectivas diferentes
- Sistemas y aplicaciones: 1. SPARQL endpoint, 2. Linked Data API
- Interfaces de usuario
• Usando tecnologías abiertas Web facilitamos la reutilización por terceros y permitimos uso de herramientas de:
- Data analytics, interfaces/APIs enriquecidas, etc.
40
Explotación: Ejemplo
41
Don Quijote de la ManchaFrench manifestations
(213)
Novelas EjemplaresSpanish manifestations
(303)
Don Quijote de la ManchaSpanish manifestations
(840)
Don Quijote de la ManchaEnglish manifestations
(247)
Don Quijote de la Manchafrbr:Work
Miguel de Cervantes
Don Quijote de la ManchaGerman manifestations
(49)
EntremesesSpanish manifestations
(86)
frbr:Work frbr:isEmbodiedIn frbr:Expression
frbr:Expression frbr:IsManifestedBy frbr:Manifestation
frbr:Person frbr:isCreatorOf frbr:Work
( ) Number of resources
Using Open-source tools: Gephi for example
http://bne.linkeddata.es/graphvis
Permitiendo el acceso a aplicaciones
42
Linked Data API: http://datos.bne.es/frontend/persons
Acceso y navegación flexible
43
Consuming Out of the box: • Search by every field • Access cluster of resources • Filtering • Paging • Serve multiple formats: XML, Turtle, JSON
Diferentes vistas sobre el mismo recurso
44
Consuming
HTML
XML
45
Interfaces de usuario
Datos enlazados abre la puerta a:
• Re-ranking resultados OPAC results • Mejor clustering, busquedas facetadas • Motores de recomendación • Enriquecimiento de datos y experiencia de usuario
Artículos sobre proceso en datos.bne.es
• Datos.bne.es: A library linked dataset. Semantic Web Journal 2013 to appear:
h#p://[email protected]/content/datosbneesAlibraryAlinkedAdataAdataset
• Daniel Vila-Suero and Elena Escolano “Linked Data at the Spanish National Library and the application of IFLA RDFS models”. ScatNews, IFLA Cataloguing news, 2011.
46
Muchas gracias! Preguntas?
Para cualquier cuestión o propuesta de colaboración
Email: [email protected] Twitter: @dvilasuero
47