Author
davis
View
20
Download
0
Tags:
Embed Size (px)
DESCRIPTION
A Common Multimedia Annotation Framework for Cross Linking Cultural Heritage Digital Collections. Hennie Brugman MPI for Psycholinguistics, Nijmegen, Netherlands Véronique Malaisé Free University, Amsterdam, Netherlands Laura Hollink Free University, Amsterdam, Netherlands. - PowerPoint PPT Presentation
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
A Common Multimedia Annotation Framework for Cross Linking Cultural Heritage Digital Collections
LREC 2008, Marrakech, Morocco
Hennie BrugmanMPI for Psycholinguistics, Nijmegen, Netherlands Véronique MalaiséFree University, Amsterdam, Netherlands
Laura HollinkFree University, Amsterdam, Netherlands
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Overview
– The CATCH programme and its annotation requirements– Existing models– Annotation Meta Model (AMM) and its application to CATCH cases– Software and infrastructure– Conclusions
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
CATCH – Continuous Access To Cultural Heritage
– Dutch research program funded by NWO– Apply state of the art methods to the construction and
exploitation of digital collections of large Cultural Heritage institutions
– Currently 10 projects, hosted by Cultural Heritage institutions– Rijksmuseum Amsterdam, Dutch National Archive, Dutch National Library, Netherlands
Institute for Sound and Vision, etc
– Results and software applicable across institutions and collections
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
• Objectives:
- Cross media, cross collection, cross institution annotation of digital objects and segments of objects
- Add new layers of annotation to existing annotations
- Centralize storage and exploitation of annotations generated by CATCH projects
- Apply and showcase annotation recommendation modules/services from several CATCH projects
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“some text description”Resource
Primitive value (string, date, number,…)
http://www.beeldengeluid.nl/GTAA#Subject_kunst_
Semantic value
property
property
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“Abraham van Beijeren”
Resource
• complete resource
• catalog, metadata
• resource types
• images
• text
• html, xml
• audio
• video
artist
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“very much”Resource segment – sound-video
choral:transcription
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“roemer”
Resource segment - image
racm-glass:Shape
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“boven eener verloting te Amsterdam”
Resource segment – scanned handwriting
scratch:transcription
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“boven eener verloting te Amsterdam”
Resource segment – text
scratch:transcription
http://geonames.org/NL/Amsterdam
choice:location
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“boven eener verloting te Amsterdam”
Resource segment – text
http://geonames.org/NL/Amsterdam
“bommenwerpers boven de hoofdstad”
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
“boven eener verloting te Amsterdam”
Resource segment – text
http://geonames.org/NL/Amsterdam
“bommenwerpers boven de hoofdstad”
http://TGN/Amsterdamhttp://TGN/NL
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotations in CATCH
– Further requirements for the annotation formalism– Project and media specific extensions– Predefined annotation schemes– Generic and specific queries possible– Expressive and simple– Reuse or include existing annotation models or vocabularies
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Existing annotation models
– Semantic web community– Focus on (semantic) annotation values– Anchoring mainly to complete resources or web pages
– Linguistic annotation community– Anchoring to text or time series– Usually no semantic values
– Media industry (e.g. MPEG-7)
– Objections– Not all media types covered– Too complex or specialized– Hardly ever annotation of annotations, and of segments of annotation
values
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotation Meta Model (AMM) – why RDF?
– RDF, RDFS and OWL seem good modeling languages for the domain of annotation - graphs versus hierarchies
– Some of our requirements automatically met:– Class and property inheritance– Constraints (e.g. domains and ranges for properties)– Integration of semantic values– Classes and instances for annotation schemes and annotation
resp.– General and specific queries
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
hasCoordinates
anchorsTo
feature
hasUnit
AnnotatableObject rdfs:type
AnnotatableObject rdfs:type
Unit rdfs:type
Coordinates rdfs:type
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
hasCoordinates
anchorsTo
feature
hasUnit
AnnotatableObject rdfs:type
AnnotatableObject rdfs:type
Unit rdfs:type
Coordinates rdfs:type
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
hasCoordinates
anchorsTo
feature
hasUnit
AnnotatableObject rdfs:type
AnnotatableObject rdfs:type
Unit rdfs:type
Coordinates rdfs:type
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
hasCoordinates
anchorsTo
feature
hasUnit
AnnotatableObject rdfs:type
AnnotatableObject rdfs:type
Unit rdfs:type
Coordinates rdfs:type
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
hasCoordinates
anchorsTo
feature
hasUnit
AnnotatableObject rdfs:type
AnnotatableObject rdfs:type
Unit rdfs:type
Coordinates rdfs:type
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Core model
AnnotatableObject
Coordinates
TimeSeriesObjectTextObject ImageObject
TimeSegmentRegion2DTextSpan
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Scanned handwriting case
ann
“in Amsterdam is het alle dagen feest”
image1 amm:addressesRegion
amm:anchorsTo
(454,107,110,204)
“handwriting.jpg”
text1
text2
amm:anchorsTo
(beginNode, endNode)
http://www.geonames.org/places#Amsterdam
amm:addressesTextSpan
hasText
image2 dc:title
hw:transcription
hw:location “Amsterdam”
hasText
“pixels” amm:hasUnit
AnnotatableObject
Coordinates
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Scanned handwriting case
ann
“in Amsterdam is het alle dagen feest”
image1 amm:addressesRegion
amm:anchorsTo
(454,107,110,204)
“handwriting.jpg”
text1
text2
amm:anchorsTo
(beginNode, endNode)
http://www.geonames.org/places#Amsterdam
amm:addressesTextSpan
hasText
image2 dc:title
hw:transcription
hw:location “Amsterdam”
hasText
“pixels” amm:hasUnit
AnnotatableObject
Coordinates
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Scanned handwriting case
ann
“in Amsterdam is het alle dagen feest”
image1 amm:addressesRegion
amm:anchorsTo
(454,107,110,204)
“handwriting.jpg”
text1
text2
amm:anchorsTo
(beginNode, endNode)
http://www.geonames.org/places#Amsterdam
amm:addressesTextSpan
hasText
image2 dc:title
hw:transcription
hw:location “Amsterdam”
hasText
“pixels” amm:hasUnit
AnnotatableObject
Coordinates
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Scanned handwriting case
ann
“in Amsterdam is het alle dagen feest”
image1 amm:addressesRegion
amm:anchorsTo
(454,107,110,204)
“handwriting.jpg”
text1
text2
amm:anchorsTo
(beginNode, endNode)
http://www.geonames.org/places#Amsterdam
amm:addressesTextSpan
hasText
image2 dc:title
hw:transcription
hw:location “Amsterdam”
hasText
“pixels” amm:hasUnit
AnnotatableObject
Coordinates
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Scanned handwriting case
ann
“in Amsterdam is het alle dagen feest”
image1 amm:addressesRegion
amm:anchorsTo
(454,107,110,204)
“handwriting.jpg”
text1
text2
amm:anchorsTo
(beginNode, endNode)
http://www.geonames.org/places#Amsterdam
amm:addressesTextSpan
hasText
image2 dc:title
hw:transcription
hw:location “Amsterdam”
hasText
“pixels” amm:hasUnit
AnnotatableObject
Coordinates
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
AMM – Other cases
– Semantic annotations of segments of text documents– Manually annotated image regions– Complex linguistic annotation of co-occurring speech and gesture– Syntactic annotation of text
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Software and infrastructure
– RDF repository, wrapped with AMM web service– Stores AMM model, project-specific annotation schemes and annotation data
– Java API, defining and implementing this web service– Clients:
– [email protected] documentalist support system– Integrated multimedia and web based “Annotation and
Recommendation” demonstrator for CATCH
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
CHOICE Documentalist Support System
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Annotation and Recommendation demonstrator
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Conclusions
– All requirements seem to be met– Applicable to a wide range of very different cases– Repository works efficiently, however not yet tested with a large
number of AnnotatableObjects (so far, approx. 50.000)– Highlights:
– Layered annotation– All media types are or can be supported– Annotation with multimedia objects or object segments possible
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Thank you
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Instances: CHOICE text annotation
“http://www.beeldengeluid.nl/Thesaurus/GTAASkosv7.owl#”
“Subject”
a1addressesTextSpan
partOf
(n1, n2)
“AndereTijdenGemmeker.txt”
apoldaSubject
apoldaOntology
Subject_bevelhebbers_
apoldaIdentifier
r1dc:title
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Instances: video/audio annotation
“dit is gesproken tekst”
a1
addressesTimeInterval
partOf
t1
“gesturing_people.mpg”
transcription
textObjecta2partOf
partOfSpeech(beginNode, endNode)
http://www.isodatcats.org/part-of-speech#Noun
t2
hasTime
hasTime
“3521”
“4692”
addressesTextSpan
“some gesture description”
a3addressesTimeInterval
partOf
t3
“gesturing_people.mpg”
t4
hasTime
hasTime
“3854”
“5290”
handshape
http://www.mpi.nl/myShapes#fist
next
dc:description
dc:title
dc:title
Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Instances: syntax tree on text
a1
addressesTextSpan
partOf
(n0, n3)
“german sentence 1”r1dc:title
“Der Mann geht schnell”hasText
a2
a3
a4
partOf
partOfpartOf
“Der”hasText
“Mann”
hasText
(n4, n8)
(n9, n13)
(n14, n21)
addressesTS
addressesTS
addressesTS
“geht”
“schnell”
syntaxD
syntax
N syntax
V
syntax
Adv
NP1
VP1
S1
anchorsToanchorsToNP
SVP
anchorsTo
anchorsTo anchorsToanchorsTo
syntax
syntax
syntax