32
1 AGREGACIÓN DE CONTENIDOS EN EUROPEANA Andrés Viedma Peláez Coordinador Dpto. Informática TRANSFORMACIONES Y MAPEOS DE LOS DATOS

Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

  • Upload
    digibis

  • View
    3.017

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

1

AGREGACIÓN DE CONTENIDOS

EN EUROPEANA

Andrés Viedma Peláez

Coordinador Dpto. Informática

TRANSFORMACIONES Y MAPEOS

DE LOS DATOS

Page 2: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

2

• Inicio del proyecto

– OAI-PMH + Dublin Core (dc + dcterms)

• Fase Rhin (Verano 2010)

– ESE: Europeana Semantic Elements

• Fase Danubio (Verano 2011)

– EDM: Europeana Data Model

Formatos intercambio Europeana

Page 3: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

3

• type: text, image, video, sound

• object: fichero del que extraer la imagen en miniatura

• isShownAt / By: enlaces a la web original

• provider: Repositorio del que se han recolectado los datos - se fomenta la existencia de agregadores: Hispana

Formato ESE

Page 4: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

4

• ESE 3.3

– dataProvider: biblioteca digital original

– rights: mejor control de derechos de las obras

• ESE 3.4

– Más elementos requeridos (3.3)

• Normalizaciones de campos DC

– language, date...

Formato ESE: nuevas versiones

Page 5: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

5

Formato ESE: ejemplo

<europeana:record> <dc:title>[Commentaria in Apocalipsin libri XII] [Manuscrito]</dc:title> <dcterms:alternative>Summa dicendorum</dcterms:alternative> <dc:date>1050</dc:date> <dc:creator>Beato de Liébana, Santo</dc:creator> <dc:contributor>Jerónimo, Santo (ca. 345-420)</dc:contributor> <dc:contributor>Apringio de Beja</dc:contributor> <dc:type>Manuscritos</dc:type> <dc:language>lat</dc:language> <dc:format>image/jpeg</dc:format> <dc:subject>Códices</dc:subject> <dcterms:extent>282 h. (2 col.)</dcterms:extent> <europeana:object> http://bvpb.mcu.es/i18n/catalogo_imagenes/imagen_id.cmd?idImagen=1350585 </europeana:object> <europeana:provider>Hispana</europeana:provider> <europeana:type>TEXT</europeana:type> <europeana:dataProvider>BV del Patrimonio Bibliográfico</europeana:dataProvider> <europeana:isShownAt> http://bvpb.mcu.es/es/catalogo_imagenes/grupo.cmd?path=8524 </europeana:isShownAt> <europeana:rights>http://creativecommons.org/publicdomain/mark/1.0/ </europeana:rights> </europeana:record>

Page 6: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

6

• Obliga a bibliotecas a adaptar continuamente su software

• Cambios muy rápidos

– Software “open source” americano no lo genera

– Plugin dSpace de Vangelis Banos

– Complicado de instalar: DIGIBÍS ha proporcionado unas instrucciones que faciliten la instalaciónhttp://www.digibis.com/index.php?option=com_content&view=article&id=9&Itemid=15

Formato ESE: problemática para las bibliotecas

Page 7: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

7

Formato EDM: La llegada

“Miré, y vi un caballo bayo. El que lo montaba tenía por

nombre Muerte, y el Hades lo seguía: y les fue dada potestad

sobre la cuarta parte de la tierra, para matar con espada, con hambre, con mortandad y

con las fieras de la tierra”

Apocalipsis 6,8

Page 8: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

8

• Número tan alto de registros difícil de manejar para el usuario

– Fácil perderse, difícil encontrar lo que realmente se quiere

• Datos de origen estructurados. Esto permite:

– Relacionar lo mejor posible los registros

– Distinguir valores comunes: autores, materias, lugares, épocas... aunque sean términos diferentes o estén escritos en idiomas distintos

– Distinguir duplicados: varias copias digitales de una misma obra

EDM: ¿Por qué?

Page 9: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

9

EDM: Linked Data

Prácticas y técnicas que permiten publicar, compartir y conectar elementos de

información en la Web Semántica usando URIs y RDF

Se trata de crear “redes” de información que permitan conectar los elementos de

forma directa o indirecta

Page 10: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

10

EDM: Datos sin relacionar

Quijote(BIDICAM)

Quijote(BV Andalucía)

Quijote(BD Castilla y

León)

Publisher: FundaciónIgnacio Larramendi

La culturaliteraria deMiguel deCervantes

Creator: Miguel deCervantes

Creator: Miguel deCervantes Saavedra

Creator: Cervantes deSaavedra, Miguel

Búsqueda: “Miguel de Cervantes”

Aparecen muchos registros con copiasde la misma obra (por ejemplo el Quijote)

Este registro no aparece (nombre diferente)

Aparecen registros que contienen la cadena en algún campo pero que no son lo que se

buscaba de origen

Page 11: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

11

EDM: Datos relacionados

Miguel deCervantesSaavedra

Quijoteedición A

Quijoteedición B

Quijotecopia digital A1

(BIDICAM)

Quijotecopia digital A2(BV Andalucía)

FundaciónIgnacio

Larramendi

Quijotecopia digital B1(BD Castilla y

León)

El Quijote Parodia deNovelas decaballería

La culturaliteraria deMiguel deCervantes

MenéndezPelayo

Novelas decaballería

Tirant loBlanc

= “Cervantes de Saavedra, Miguel”

Page 12: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

12

• El modelo base es el formato ESE

• Separa en distintas entidades:

– Objeto original

– Metadatos del objeto original proporcionados por una biblioteca (título, autor...)

– Metadatos de la copia digital (formato, enlace a la miniatura...)

• Uso de agregaciones OAI-ORE para crear entidades separadas

EDM: Varias entidades para un objeto digital

Page 13: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

13

• Autores, materias, lugares, épocas... EDM define clases específicas para estas entidades, para:

– Enlazar con conjuntos de datos (datasets) conocidos, para facilitar la identificación de estas entidades

– Conectar obras a través de las relaciones entre las entidades contextuales, sobre todo a través de relaciones de equivalencia (owl:isSameAs, skos:closeMatch)

– Enriquecer la información de una obra, añadiendo información de sus autores o de sus épocas

– Obtener todas las etiquetas equivalentes para una entidad, con lo que se mejoran las búsquedas

• A esto se le llama enriquecimiento de datos

EDM: Entidades contextuales

Page 14: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

14

• Agent: personas ó instituciones (grupos)

• Event: sobre todo para datos de museos

• Concept (SKOS)

• Place

• TimeSpan

• PhysicalThing

EDM: Entidades contextuales

Page 15: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

15

EDM: SKOS Concept

• Simple Knowledge Organization System: vocabulario genérico que permite definir “conceptos”

• Permite dar varias etiquetas al concepto: prefLabel, altLabel

• Permite establecer relaciones entre las materias

– exactMatch, closeMatch: concepto equivalente en otro espacio de datos

– narrower, broader: concepto más genérico / más específico

– related: otras relaciones

Page 16: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

16

EDM: SKOS Concept - Materias

Problema multi-idioma: se necesitan entidades

intermedias que mapeen el concepto en español con el

concepto de la LCSHEl MCU está trabajando en obtener las Listas

de Encabezamientos de Materias para bibliotecas públicas en un formato descargable

por el usuario (MARC21, SKOS), enlazadas con las LCSH

LCSH está enlazado con Rameau

Page 17: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

17

EDM: Agent

Basado en SKOS, FOAF, DC y los RDA

Group 2 Elements

rdaGr2:dateOfBirthrdaGr2:dateOfDeathrdaGr2:dateOfEstablishmentrdaGr2:dateOfTerminationrdaGr2:genderrdaGr2:professionOrOccupationrdaGr2:biographicalInformation

VIAF no completamente enlazado con Dbpedia (algunos registros sí)

Page 18: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

18

EDM: Place

GeoNames más internacional

GeoLinked Data más completo para lugares que no sean entidades administrativas: pozos,

rías, caminos, barrancos...

Basado en SKOS, DC y WGS84 para

coordenadas espaciales

GeoLinked Data tiene enlaces a GeoNames,

cuando la entidad existe

Page 19: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

19

• EDM: Modelo interno Modelo de intercambio

• Usar RDF como modelo interno: NO

• Publicar datos como Linked Data (URI propia): SÍ (si relaciones)

• Diferenciar duplicados: Conveniente, si los hay (muchas bibliotecas virtuales no los tendrán)

• Enriquecimiento realizado por el proveedor de datos (enlaces con URIs de registros en datasets externos) : DESEABLE

– Complicado para modelos de datos “planos” que no tienen ya creadas entidades secundarias - ej.: DC

– Muy factible para modelos de datos más ricos en los que existen conceptos de autoridades: ej. MARC 21

EDM: ¿Qué implica para los proveedores?

Page 20: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

20

EDM: Registros aislados

Page 21: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

21

• 100 / 110 (no autor-título, no subdivisión): Agent

• 111: Event

• 100 / 110 / 111 con subdivisión: Concept

• 150 / 155: Concept

• 148: TimeSpan

• 151: Place

MARC 21 a EDM: Autoridades

Page 22: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

22

• 024: “Other standard identifier” - URI Linked Data - skos: closeMatch

• Autoridad con subdivisión: skos:broader a autoridad aceptada, dcterms:hasPart a subdivisión

• 1xx: skos:prefLabel, 4xx: skos:altLabel

• 5xx: skos:related, skos:narrower, skos:broader

• 7xx: skos:closeMatch

• Otros campos mapeables a notas y otros campos informativos (por ejemplo, los campos de información RDA de personas)

MARC 21 a EDM: Campos especiales

Page 23: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

23

• Filosofía WEMI (Obra-Expresión-Manifestación-Item) de FRBR / RDA facilita la detección de duplicados

• Diferenciación entre registros bibliográficos y registros de holdings facilita la separación entre metadatos del objeto original y del objeto digital

• Si no, los datos del objeto digital se pueden extraer al menos del campo 856

MARC 21 a EDM: Objeto físico <> digital

Page 24: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

24

EDM: ¿Qué permite? - Autocompletar

Auto-completar inteligente: mientras escribes, identifica de forma independiente personas,

lugares, conceptos... que encajen en los términos de

búsqueda

Page 25: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

25

EDM: ¿Qué permite? - Resultados organizados

Al identificar “leonardo” como una persona, se agrupan las obras según el resultado sea una obra del autor, una obra acerca del autor, una obra de algún autor relacionado, etc.

Page 26: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

26

EDM: ¿Qué permite? - Contextualización

Al identificar “darwin” como una persona, se muestra la

información de la Wikipedia sobre esa persona

Esta idea de la contextualización es también una de las líneas

maestras de la BV de la Fundación Ignacio Larramendi

Page 27: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

27

EDM: ¿Qué permite? - Contenido relacionado

Los “contenidos relacionados” se pueden obtener con mucha mayor precisión. Incluso, se

podrían categorizar según el tipo de relación que tengan

(temática, temporal, mismo autor, etc.)

Page 28: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

28

• Mapa temporal / espacial: restringir temporal y espacialmente y ver registros de esos rangos

• Representación de objetos jerárquicos: agrupar por “padres” comunes, ir al siguiente / anterior en una secuencia => por ejemplo, números de una publicación periódica

• Sólo estamos empezando...

EDM: ¿Qué permite? - Otros

Page 29: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

29

• ESE v3.4 - http://version1.europeana.eu/web/guest/technical-requirements/

– ESE specifications

– Metadata mapping and normalisation Guidelines

• EDM - http://version1.europeana.eu/web/europeana-project/technicaldocuments/

– EDM Data Model Primer

– EDM Data Model Definition 5.2

– Aún NO se ha definido un esquema EDM en XML para que lo proporcionen los proveedores de datos

Europeana: estado actual formatos

Page 30: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

30

• Content checker

– Portal “de prueba”, copia de Europeana

– Permite al usuario recolectar nuevos datos (ingestor) y luego consultarlos (portal)

– No está preparado para repositorios OAI-PMH, sólo recolecta ficheros con metadatos

– Aún no recolecta EDM, sólo ESE

– http://contentchecker.isti.cnr.it:8080/ingestor/http://contentchecker.isti.cnr.it:8080/portal/

• The Aggregator’s Handbookhttp://version1.europeana.eu/c/document_library/get_file?uuid=94bcddbf-3625-4e6d-8135-c7375d6bbc62&groupId=10602

Europeana: enviar datos

Page 31: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

31

• Europeana proyecto aún en evolución

• Cambios constantes en los formatos de metadatos

• Las bibliotecas virtuales y digitales tienen que hacer un esfuerzo para adaptarse a esos cambios

• La recompensa será la visibilidad que otorga Europeana (y la que otorgará en el futuro)

• Si se entra “a medias” se corre el riesgo de “casi no estar”

Conclusión

Page 32: Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

32

Agregación de contenidos en EuropeanaTransformaciones y mapeos de los datos

FINGRACIAS POR LA ATENCIÓN

Andrés Viedma PeláezCoordinador Departamento de Informática