47
Datos enlazados para instituciones culturales Daniel Vila Suero [email protected] Ontology Engineering Group, Universidad Politécnica de Madrid Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano, Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others) Seminario para la Biblioteca Nacional de Colombia Viernes 12 de Julio de 2013 This work is funded by the Spanish Project TIN2010-17550 for the BabeLData project, and by BNE

Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Embed Size (px)

DESCRIPTION

Seminario impartido el 12 de Julio de 2013 para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Citation preview

Page 1: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Datos enlazados para instituciones

culturales Daniel Vila Suero [email protected]

Ontology Engineering Group, Universidad Politécnica de Madrid Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano,

Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others)

Seminario para la Biblioteca Nacional de Colombia Viernes 12 de Julio de 2013

This work is funded by the Spanish Project TIN2010-17550 for the BabeLData project, and by BNE

Page 2: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principios básicos

2

Page 3: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Datos enlazados para LAM

•  LAM (Library, Archives and Museums)

•  Datos enlazados para bibliotecas, archivos y museos.

•  ¿Qué? Publicar los datos de estas instituciones siguiendo los principios de Linked Data.

•  ¿Cuáles son esos principios y cómo se transladan al dominio de patrimonio cultural e histórico?

3

Page 4: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Recordatorio: Los 4 Principios (1) Utilizar URIs para identificar las cosas (en la Web)

(2) Utilizar HTTP URIs para que se puedan recuperar sus descripciones (en la Web)

(3) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL)

(4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos

4

Page 5: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principios 1 y 2

(1, 2) Utilizar HTTP URIs para identificar y permitir recuperar nuestros objetos (en la Web)

Cada objeto, recurso, activo relevante tiene su propio identificador en la Web: HTTP URI.

Por ejemplo: - Personas: Gabriel García Márquez ! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=

- Obras: Cien años de soledad = h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad=

5

Page 6: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Buenas prácticas HTTP URIs •  Cool URI's don't change:

-  Las URIs deben ser estables, no deben cambiar en el tiempo pues son el punto de acceso a nuestros recursos. El dominio y los servidores deben estar manejados por nuestra institución

-  URIs bien estructuradas y predecibles: •  /personas/ID: todas las URIs que siguen este patrón

son Personas

-  Omitir detalles de la tecnología utilizada, fechas, etc.: •  MAL: http://datos.bibliotecanacional.gov.co/index.php?

persona=Garcia_Marquez

-  Las HTTP URIs son principalmente para ser manejadas por las máquinas, si existe un ID único en los datos de origen se debería utilizar. Por ejemplo el 001 de MARC 21

6

Page 7: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

(Paréntesis) •  Formato compacto para las URIs CURIEs (Compact

URIs) •  Mejoran la legibilidad (en general y para esta

presentación en particular):

URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=

Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!ID: Gabriel_García_Márquez

= = =

7

Page 8: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

(Paréntesis) •  Formato compacto para las URIs CURIEs (Compact

URIs) •  Mejoran la legibilidad (en general y para esta

presentación en particular):

URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=

Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!ID: Gabriel_García_Márquez

= = =

8

bncPersona:Gabriel_García_Márquez

Page 9: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

(Paréntesis)

9

bncPersona:Gabriel_García_Márquez

bncObra:Cien_años_de_soledad

Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)

Page 10: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

(Paréntesis)

10

bncPersona:Gabriel_García_Márquez

bncObra:Cien_años_de_soledad

frbr:esCreadorDe

Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)

Page 11: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 3

(2) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL)

Describimos: - Mediante tripletas RDF los atributos de nuestros

recursos. - Utilizando clases y propiedades de

vocabularios o ontologías (FRBR, ISBD, etc)

11

Page 12: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 3

12

bncPersona:Gabriel_García_Márquez

bncObra:Cien_años_de_soledad

frbr:esCreadorDe

Tripleta describiendo a García Márquez

Page 13: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 3

13

bncPersona:Gabriel_García_Márquez

bncObra:Cien_años_de_soledad

frbr:esCreadorDe

Tripleta describiendo a García Márquez

Sujeto

Predicado

Objeto

Page 14: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 3

14

bncPersona:Gabriel_García_Márquez

"6#de#Marzo#de#1927"

frbr:fechaDeNacimiento

Tripleta describiendo a García Márquez

Sujeto

Predicado

Objeto

Page 15: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 3

15

frbr:fechaDeNacimiento

Reutilizar vocabularios estándar: FRBR, RDA, ISBD..

frbr:esCreadorDe

isbd:HtuloPropiamenteDicho

foaf:Person

Básicamente: - Clases: Definen el tipo de recurso (Persona, obra,etc) - Propiedades: Definen carácterísticas del recurso (fechas, título, nombre, etc.)

Page 16: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Buenas prácticas Vocabularios •  Reutilizar vocabularios ampliamente utilizados,

estables y soportados por una comunidad

-  ¿Cómo?

•  Recomendación 1: Análisis de otros conjuntos de datos del mismo dominio (Bibliotecas, Museos, etc.)

•  Recomendación 2: Buscar conceptos en repositorios de vocabularios. El más recomendable es LOV (Linked Open Vocabularies) de la Open Knowledge Foundation

h"p://lov.okfn.org/=16

Page 17: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Linked Open Vocabularies: Library

17

Page 18: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Resultado de aplicar principios 1, 2 y 3

18

bncPersona:Gabriel_García_Márquez

bncObra:Cien_años_de_soledad

frbr:esCreadorDe

Grafo de URIs describiendo a Gabriel García-Márquez

"6#de#Marzo#de#1927"

frbr:fechaDeNacimiento

Frbr:lugarDeNacimiento "Colombia"

Page 19: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Linked Open Vocabularies

19

Búsqueda y ranking de términos (Person, Work, etc.)

= = = Person

Page 20: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Principio 4

(4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos

Tiene 2 vertientes que permiten aumentar/enriquecer las descripciones:

1- Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: Usar la URI de Colombia en DBpedia frente a utilizar la

cadena "Colombia"

2 - Incluir enlaces a la mismo recurso descrito en otro conjunto de datos: Enlaces a García Márquez en VIAF, BNE, etc

20

Page 21: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Vertiente 1

21

bncPersona:Gabriel_García_Márquez

"Colombia" no permite recuperar más información acerca del lugar de

nacimiento, solo el nombre

Frbr:lugarDeNacimiento

"Colombia"

Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:

Page 22: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Vertiente 1 Enlaces

22

bncPersona:Gabriel_García_Márquez

Frbr:lugarDeNacimiento

"Colombia"

Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:

X dbpedia:Colombia V Dbpedia:imagenBandera

Ampliamos la red de conocimiento

Page 23: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Vertiente 2 Enlaces: sameAs

23

bncPersona:Gabriel_García_Márquez

owl:sameAs

Enlaces al mismo recurso en otros conjuntos de datos enlazados

bne:Gabriel_García_Márquez

Ampliamos la red de conocimiento sobre

García Márquez en la BNC (Obras

catalogadas en la BNE, descripciones en VIAF, etc.)

owl:sameAs

viaf:Gabriel_García_Márquez

Page 24: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Buenas prácticas Enlazado •  Enlazar con conjuntos de datos relevantes dentro

de una comunidad determinado

-  ¿Cómo?

•  Recomendación 1: Recursos como VIAF, BNE o DBpedia contienen numersos enlaces a otros recursos similares. Centrarse inicialmente en estos para maximizar el resultado

•  Recomendación 2: Buscar otros conjuntos de datos dentro del area. En repositorios como:

h"p://datahub.io= 24

Page 25: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

datos.bne.es

25

Page 26: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Especificación

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

•  Registros en formato MARC 21 •  3.9 millones registros bibliográficos •  4.2 millones registros autoridad •  Versión: Noviembre 2011

Page 27: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Modelado: FRBR

Obras

Expresiones

Manifestaciones

Obra 1

Obra 2

Obra 3

Expresión 1 Expresión 2

Manifestación1 Manifestación2

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Page 28: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Ontología basada en vocabularios de IFLA

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Page 29: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Marimba utiliza la ontología para generar RDF

BNE Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Page 30: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Proceso de transformación

30

•  How to facilitate the mapping process to library experts? 1.  Use a familiar and intuitive interface: Spreadsheets 2.  Work only on what's in the database: Pre-process records

to build the spreadsheets

•  3 step-process 3 different spreadsheets

1.  Classification: is it a Person? a Work? a Manifestation? 2.  Annotation: name, birth date, title, language of expression 3.  Relation: find relationships between entities (Person is

creator of a certain work)

Page 31: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Marimba: Proceso de mapping

100 $a Cervantes Saavedra, Miguel de

100 $a frbr:Person

String(100 $a $t) frbr:isCreatorOf100 $a Cervantes Saavedra, Miguel de$t Don Quijote de la Mancha

String(100 $a)

100 $a $t

frbr:titleOfWork100 $t

MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL

100 $a frbr:nameOfPerson

PRE-PROCESSING STEP

has subfield

has subfield

has heading

has heading

has content

has content

contained in

frbr:Work

Heading Class Object property Datatype/Annotation property

maps to

maps to

maps to

maps to

maps to

Librarians manually define the mappings

Variation(100$a + $t)

31

Page 32: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Proceso de mapping

32

Open mappings at: http://bne.linkeddata.es/mapping-marc21

Page 33: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A MAPPING B MAPPING C

Page 34: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A MAPPING B MAPPING C

Mapping Identificación de Entidades:

Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona.

Por ejemplo:

100 $a $d Persona (FRBR Grupo 2)

100 $a $t Obra (FRBR Grupo 1)

Marimba: Proceso de transformación a RDF y mappings

Page 35: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A MAPPING B MAPPING C

Mapping Anotación de Entidades:

Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota:

Por ejemplo:

100 $d Fecha asociada a persona

100 $t Titulo de la obra

Page 36: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A MAPPING B MAPPING C

Mapping Relación entre Entidades:

Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y

sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2.

Por ejemplo:

Persona-Obra $t Persona es creadora de Obra

Obra-Obra $n Obra es parte de Obra

Marimba: Proceso de transformación a RDF y mappings

Page 37: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia

BNE

http://datos.bne.es/resource/XX1718747

Same As Same As

Same As

Same As

Same As

LIBRIS

http://libris.kb.se/resource/auth/45369

SUDOC

http://www.idref.fr/026774771/id

DNB

http://d-nb.info/gnd/11851993X

DBpedia

http://dbpedia.org/resource/Miguel_de_Cervantes

VIAF http://viaf.org/viaf/17220427

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Page 38: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia

Page 39: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Publicación

• Publicación de los datos

• Publicar los metadatos sobre el dataset con VOID y DCAT

• Para facilitar el descubrimiento del dataset

•  Registrar el conjunto de datos en DataHub

•  Generar el sitemap usando sitemap4rdf

•  Cargar el sitemap en Google y Sindice

Especficación

Modelado

Generación RDF

Publicación

Generación de enlaces

Explotación

Page 40: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Explotación

•  2 perspectivas diferentes

-  Sistemas y aplicaciones: 1.  SPARQL endpoint, 2.  Linked Data API

-  Interfaces de usuario

•  Usando tecnologías abiertas Web facilitamos la reutilización por terceros y permitimos uso de herramientas de:

-  Data analytics, interfaces/APIs enriquecidas, etc.

40

Page 41: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Explotación: Ejemplo

41

Don Quijote de la ManchaFrench manifestations

(213)

Novelas EjemplaresSpanish manifestations

(303)

Don Quijote de la ManchaSpanish manifestations

(840)

Don Quijote de la ManchaEnglish manifestations

(247)

Don Quijote de la Manchafrbr:Work

Miguel de Cervantes

Don Quijote de la ManchaGerman manifestations

(49)

EntremesesSpanish manifestations

(86)

frbr:Work frbr:isEmbodiedIn frbr:Expression

frbr:Expression frbr:IsManifestedBy frbr:Manifestation

frbr:Person frbr:isCreatorOf frbr:Work

( ) Number of resources

Using Open-source tools: Gephi for example

http://bne.linkeddata.es/graphvis

Page 42: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Permitiendo el acceso a aplicaciones

42

Linked Data API: http://datos.bne.es/frontend/persons

Page 43: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Acceso y navegación flexible

43

Consuming Out of the box: • Search by every field • Access cluster of resources • Filtering • Paging • Serve multiple formats: XML, Turtle, JSON

Page 44: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Diferentes vistas sobre el mismo recurso

44

Consuming

HTML

XML

Page 45: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

45

Interfaces de usuario

Datos enlazados abre la puerta a:

•  Re-ranking resultados OPAC results •  Mejor clustering, busquedas facetadas •  Motores de recomendación •  Enriquecimiento de datos y experiencia de usuario

Page 46: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Artículos sobre proceso en datos.bne.es

•  Datos.bne.es: A library linked dataset. Semantic Web Journal 2013 to appear:

h#p://[email protected]/content/datosbneesAlibraryAlinkedAdataAdataset

•  Daniel Vila-Suero and Elena Escolano “Linked Data at the Spanish National Library and the application of IFLA RDFS models”. ScatNews, IFLA Cataloguing news, 2011.

46

Page 47: Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

Muchas gracias! Preguntas?

Para cualquier cuestión o propuesta de colaboración

Email: [email protected] Twitter: @dvilasuero

47