37
Het Verrijkt Koninkrijk NIOD Lunchlezing 08/01/2013 (UvA) Vict

Vk niod jan_2013

Embed Size (px)

DESCRIPTION

Verrijkt Koninkrijk presentation given at the NIOD lunch meeting

Citation preview

Page 1: Vk niod jan_2013

Het Verrijkt Koninkrijk

NIOD Lunchlezing 08/01/2013

Johan van Doornik (UvA) Victor de Boer (VUA)

Page 2: Vk niod jan_2013

The Kingdom of the Netherlands During World War II

• History of German occupied Dutch society (1940-1945)

• 14 volumes, 30 parts, 18.000 pages• Digitized version online in 2011, crashing the

server

“Published between 1969 and 1991, the 30 volumes still combine the qualities of an authoritative work for a general audience, and an inevitable point of reference for scholars”

Page 3: Vk niod jan_2013

Clarin-VK: Verrijkt Koninkrijk

“The aim of this project is twofold; in the demonstrator part of the project advanced tools and techniques are applied to gather data on De Jong's perception of the much debated issue of pillarization (Dutch: 'verzuiling') and group identity. In the resource curation part of the project the corpus will be enriched and made available to the CLARIN-community for further research”

Page 4: Vk niod jan_2013

NIOD: Historical research questions

UvA: Representation of digital text, Named Entity extraction and consolidation, search prototype

VUA: Enrichment of structured sources, internal and external linking. Hackathon

DANS: Data storage and access.

Verrijkt Koninkrijk Project

Page 5: Vk niod jan_2013

Digitization and Search(the UvA part)

Page 6: Vk niod jan_2013
Page 7: Vk niod jan_2013

<book xmlns="http://www.loedejongdigitaal.nl" vk:id="nl.vk.d.5-I"> <index vk:title="Inhoud" vk:id="nl.vk.d.5-I.1"> <chapter vk:title="Lente 4 1" vk:number="1" vk:id="nl.vk.d.5-I.2"> <section vk:title="" vk:id="nl.vk.d.5-I.2.1"> <section vk:title="Oorlogsverloop en -perspectiej?" vk:id="nl.vk.d.5-I.2.2"> <section vk:title="II. Midden-Oosten, lente 1941" vk:id="nl.vk.d.5-I.2.3"> <subsection vk:id="nl.vk.d.5-I.2.3.1"> <subsection vk:id="nl.vk.d.5-I.2.3.2"> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.1">Hoe kon Engeland ooit de oorlog winnen?</p> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.2">Het is, achteraf gezien, volstrekt duidelijk ... <p vk:pdf-page-ref="22" vk:id="nl.vk.d.5-I.2.3.2.3">Deze conceptie was bemoedigend en dit ... <page vk:pdf-page="22" vk:original-page="14" vk:id="nl.vk.d.5-I.2.3.2.3.14"> <backofbook-ref> </page> <header vk:id="nl.vk.d.5-I.2.3.2.3.15">HET BRITSE OORLOGSPLAN</header>men zich in Londen: in de ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.4">Hoe dat zij vooral Churchill ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.5">Had men dat in bezet Nederland vernomen ... </subsection> </section> <section vk:title="Publieke opinie" vk:id="nl.vk.d.5-I.2.4"> <subsection vk:id="nl.vk.d.5-I.2.4.1"> <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.1">Het verwachtingspatroon van een volk ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.2">1 Aangehaald in Butler .... <page vk:pdf-page="23" vk:original-page="15" vk:id="nl.vk.d.5-I.2.4.1.2.4"> <backofbook-ref> <lemma-ref>Azoren</lemma-ref> <lemma-ref>Bomber Command</lemma-ref> <lemma-ref>Canarische eilanden</lemma-ref> <lemma-ref>Madeira</lemma-ref> <lemma-ref>Portugal</lemma-ref> <lemma-ref>Spanje</lemma-ref> <lemma-ref>Tsjechoslowakije</lemma-ref> </backofbook-ref> </page>

Page 8: Vk niod jan_2013

Back of the Book

Required specialized parsing:

Pages (312, 316, …) and page ranges (210-215, …)

See and See also references

OCR correction for numbers (3I2 = 312, …)

Verification of all page references

Mapping page references to paragraph references

Terms that span multiple pages in the back of book

Layout not always as consistent as you would like

Page 9: Vk niod jan_2013

vk:book 30

vk:chapter 226

vk:section 1885

vk:subsection 4708

vk:p 86257

vk:quote 56547

vk:page 16922

vk:lemma 16186

vk:lemma-ref 148370

Counting elements

Page 10: Vk niod jan_2013

Resolverhttp://resolver.loedejongdigitaal.nl/nl.vk.d.5-II.6.1.2.2

<p vk:pdf-page-ref="338" vk:id="nl.vk.d.5-II.6.1.2.2">En in het algemeen leed de Geallieerde koopvaardij in de eerste zes maanden van '42 opnieuw zeer zware verliezen. Zij waren vooral gevolg van het feit dat de Amerikanen traag waren met het treffen van veiligheidsmaatregelen in de Caraïbische Zee en in de zeegebieden bij de Amerikaanse oostkust. Maandenlang vonden<i>U-Boote</i>daar een uiterst profijtelijk jachtterrein. Het aantal<i>U-Boote</i>nam ook steeds toe; in juli '41 waren er constant 65 in de vaart, in juli '42 140. Hitler bezat er toen 331 en er waren, doordat de<i>U-Boote</i>zich zo verspreid hadden, in de zeven maandenvan januari t.e.m. juli '42 slechts weinige vernietigd: 31. In die periode verloren de Geallieerden daartentegen per maand gemiddeld meer dan een half miljoen ton aan scheepsruimte. Het waren vooral die scheepsverliezen die de Geallieerde oorlogsleiders in de eerste helft van '42 voortdurend aanleiding gaven tot diepe bezorgdheid. Hoe haakten zij naar de dag waarop de Duitsers en Italianen uit NoordAfrika verdreven zouden zijn! Dan zou eindelijk de lange, schepen verslindende toevoerroute naar Egypte om Afrika heen door de zoveel kortere via de Straat van Gibraltar vervangen kunnen worden.</p>

country, collection, doc-type, volume, chapter, section, sub-section, paragraph

Page 11: Vk niod jan_2013

Named Entities + Wikification

1. Natural Language Processing with FROG

2. Detecting namesMachine learned detection using POS and capitalization

3. Linking to Wikipedia with ILPS toolsMussert Anton

Mussert

Avondklok Spertijd

Nationale Padvindersraad Padvinder

Page 12: Vk niod jan_2013
Page 13: Vk niod jan_2013

Verrijkt Koninkrijk and Linked Data (the VUA part)

Page 14: Vk niod jan_2013

What is Linked Open Data•Open data is about open licenses•Linked (Open) Data is about interoperability

``a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.’’ --Wikipedia

``Sharable, spreadable and nerd-friendly’’

-- Charlotte S H Jensen, kulturweb

Page 15: Vk niod jan_2013

Web of Documents (WWW)Linked Documents

Page 16: Vk niod jan_2013

Web of DataLinked Data

Page 17: Vk niod jan_2013

“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”

Page 18: Vk niod jan_2013

Linked Data:NIOD and VK

niod:Avondklok

Dbpedia:Avondklok

VK:paragraaf 1.2.3.4

bbwo2:plaatje1.jpg4en5mei:Avonklok

DBPedia:Curfew

4en5mei:monumentX

“Spertijd”

Page 19: Vk niod jan_2013

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

Page 20: Vk niod jan_2013

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

Page 21: Vk niod jan_2013

NIOD List of terms

• Used by NIOD library, archive, AV archive

• Externally by 29 institutions

• 1408 terms: “Civil servants”, “Anti-fascism”, “Arrival”– 12 ‘categories’: “Law,”

“Military history”, “Countries”, etc.

Niod thesaurus

Rub Term

4 Repressie

Voorlichting

Kernwapens - Zie: Atoomwapens

3 Atoomwapens

2 Kolonialisme - Zie ook: Dekolonisatie

8 Religie - Zie ook bij soorten afzonderlijk, bijv.: Christendom

Page 22: Vk niod jan_2013

niod:Gasmaskers

niod:Uitrusting

niod:Transport

conversion

conversion

Niod termenlijst (XML)

Preferred: “Transport”Alternative: “Vracht”

Niod thesaurus

1408 concepts, 170 altLabels, 290 related,

165 hierarchy relations,

Manually validated by Kees Ribbens, Marjo

Bakker, Femke Jacobs80-95% correctness

Niod Thesaurus (SKOS)

Page 23: Vk niod jan_2013

Back of the Book-index

botb:Amsterdamniod:botb-Blitzkrieg

niod:botb-Blitzkrieg

niod:hasParRef

botb:Blitzkrieg

Back-of-the-Book Index (SKOS)

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

15.234 Concepts121.525 references to pages

Page 24: Vk niod jan_2013

entity:Maassluisentity:Amsterdam

niod:botb-Blitzkriegniod:botb-Blitzkrieg

niod

:has

ParR

ef

entity:Abraham Kuijper

Named Entity Results

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

88.249 Concepts364,924 references to pages

Named Entities (SKOS)

Page 25: Vk niod jan_2013

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

Linked Data

Page 26: Vk niod jan_2013

niod:Blitzkrieg

hasParRef

niod:oai_wo2_niod_nl_rec_102045

Niod thesaurus

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

subject

Back-of-the-Book IndexKoninkrijk

niod:botb-Blitzkrieg

Skos:exactMatch

Page 27: Vk niod jan_2013

Niod thesaurusgtaa:Oorlog

GTAA thesaurus

niod:Blitzkrieg

sameAs

Niod thesaurus

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

subject

Back-of-the-Book IndexKoninkrijk

Niod:Oorlog

Page 28: Vk niod jan_2013

dbpedia:Abraham Kuijper

Entity:Abraham Kuijper

Koninkrijk

dbpedia:Minister-President

entity:Barend Biesheuvel

dbpedia:Barend Biesheuvel

Page 29: Vk niod jan_2013

Geonames:Maassluis

Botb:Maassluis

Koninkrijk

Geonames:Zuid-Holland

32780

N 51° 55' 24'' E 4° 15' 0''

population

coordinates

Page 30: Vk niod jan_2013

The semantic server

Page 31: Vk niod jan_2013

“Give me all BBWO2 images linked to a VK paragraph through a niod thesaurus entity found in the text”

PREFIX niod: <http://purl.org/collections/nl/niod/>prefix dc: <http://purl.org/dc/elements/1.1/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT DISTINCT *WHERE { ?object dc:subject ?subj ; dc:relation ?img .?subj skos:inScheme niod:ConceptScheme.?subj skos:exactMatch ?bc.?bc skos:inScheme niod:EntityScheme.?bc niod:pRef ?pRef.}limit 100

Page 32: Vk niod jan_2013

“What placenames occur on which page and to which province do they belong”

PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT ?pl ?provname ?prefWHERE{?s skos:inScheme niod:BotBScheme.?s skos:prefLabel ?pl.?s skos:closeMatch ?geo.?geo <http://www.geonames.org/ontology#parentADM1> ?prov.?prov <http://www.geonames.org/ontology%23name> ?provname.?s niod:pageRef ?pref.}LIMIT 100

Page 33: Vk niod jan_2013
Page 34: Vk niod jan_2013

“Give me all occurrences of Prime Ministers in Het Koninkrijk”

PREFIX dcterms: <http://purl.org/dc/terms/>PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>PREFIX dbp-prop: <http://nl.dbpedia.org/property/>PREFIX dbp-res: <http://nl.dbpedia.org/resource/>SELECT * WHERE {?entity niod:nerClass niod:nerclass-per;owl:sameAs ?dbpedia_entry;niod:pRef ?pref.?dbpedia_entry dbp-prop:functie dbp-res:Minister-president_van_Nederland.}LIMIT 100

Page 35: Vk niod jan_2013

Hackathon

Photos from Flickr user HackNY

Page 36: Vk niod jan_2013

Some issues

• Quality issues – OCR– Named Entity Recognition/Reconcilliation– Linkage

• Pillarization question

• Acceptability for historical research

Page 37: Vk niod jan_2013

?