Upload
max-kaiser
View
723
Download
0
Embed Size (px)
DESCRIPTION
Presentation at "Nationale Initiativen zur digitalen Information", Vienna, 04 October 2013
Citation preview
@maxkaiser
Austrian Books Online Digitaler Workflow und Access
Max Kaiser Leiter Forschung & Entwicklung
Österreichische Nationalbibliothek
„Nationale Initiativen zur digitalen Information“ Wien, 4. Oktober 2013
@maxkaiser
Austrian Books Online www.onb.ac.at/austrianbooksonline/
@maxkaiser
Überblick
→ Projektziele
→ Status Quo
→Workflow: Bücher / Daten
→ Access / Volltextsuche
→ Ausblick
@maxkaiser
Digitalisierung des gesamten historischen Buchbestands der Österreichischen Nationalbibliothek
@maxkaiser
600.000 Bände
200 Mio Seiten
@maxkaiser
16. Jahrhundert
Zweite Hälfte
19. Jahrhundert
@maxkaiser
Google Bücher
Digitale Bibliothek Österreichische Nationalbibliothek
@maxkaiser
Eckpunkte der
Kooperation
@maxkaiser
→ Urheberrecht
→ Ausschließlich gemeinfreie Werke
→ Nicht-Exklusivität
→ Digitalisierung auch mit anderen Partnern möglich
→ Transparenz
→ Öffentliche Ausschreibung
→ Detaillierte FAQs online
@maxkaiser @maxkaiser
@maxkaiser
→ Zugänglichkeit der Digitalisate
→ Weltweit und kostenfrei für nicht-kommerzielle Nutzung
→ Europeana und andere Plattformen
→ Weitergabe an Forschungspartner
@maxkaiser
70+ MitarbeiterInnen der
Österreichischen Nationalbibliothek
Davon 20+ ausschließlich für Projekt → Bücher-Logistik
→ Anpassung Metadaten
→ Katalogisierung
→ Konservierung / Restaurierung
→ Qualitätskontrolle
→ Software-Entwicklung
→ Projektmanagement
@maxkaiser
Wo steht das Projekt
heute?
@maxkaiser
Frühjahr 2011 Beginn Digitalisierung
@maxkaiser
~162.000 Bände digitalisiert
heute
@maxkaiser
~185.000 Bände digitalisiert
Ende 2013
@maxkaiser
Jahrhunderte …
@maxkaiser
Sprachen …
@maxkaiser
Frühjahr 2013 Launch Bookviewer und Volltextsuche
@maxkaiser
Workflow
@maxkaiser
„book flow“
„digital flow“
@maxkaiser
book flow
@maxkaiser →
→ @maxkaiser
Keine individuelle Auswahl …
@maxkaiser →
→ @maxkaiser
Format
@maxkaiser
Format
@maxkaiser →
→ @maxkaiser
Zustand
@maxkaiser
Konservatorische Evaluierung
@maxkaiser →
→ @maxkaiser
Wert
@maxkaiser
Logistik im
Prunksaal
@maxkaiser
Herausforderungen…
@maxkaiser →
→ @maxkaiser
Herausforderungen…
@maxkaiser →
→ @maxkaiser
Barcodierung
@maxkaiser →
→ @maxkaiser
→
Anpassung Metadaten
@maxkaiser →
→ @maxkaiser
8 Minuten / Buch
@maxkaiser →
→ @maxkaiser
Bereit für die Digitalisierung …
→Digitalisierungszentrum in Deutschland
→Bücher ~ 3 Monate nicht benützbar
@maxkaiser @maxkaiser
@maxkaiser
book flow digital flow
@maxkaiser
Digitalisierung
Daten-Download
Buchlogistik
Qualitätskontrolle
Speicherung
Access
ADOCO (Austrian Books Online Download & Control)
@maxkaiser
Workflow in ADOCO Download Datenpaket von Google GRIN via HTTP
Entschlüsseln des Pakets via gnupg
Paket in Verzeichnis entpacken
MD5-Kontrolle aller Dateien (QA)
Ablage in Pairtree-Verzeichnis (NAS Shares)
GRIN-Metadaten mit aktuellem Zeitstempel aktualisieren
@maxkaiser big data …
http://blogs.loc.gov/digitalpreservation/files/2012/05/3875300483_a8875fea1c-500.jpg
@maxkaiser
Datenmenge
Durchschnitt pro Datenpaket (~Buch): 101 MB
101 MB * 600.000 = 60 TB
@maxkaiser
Datenspeicherung & Access
→Datenspeicherung: inhouse
→Daten redundant gespeichert
→ Access-Kopien aus JPEG2000 Master Files on-the-fly generiert
@maxkaiser
Download und Speicherung
ADOCO
JPEG2000
HOCR
METS
TXT
ABO NAS-Speicher Pair Tree-Algorithmus
ca. 60 TB
@maxkaiser
ÖNB Hadoop-Cluster
@maxkaiser
ÖNB Hadoop-Cluster: Laufender Betrieb
→ Regelmäßige MD5-Prüfsummenkontrolle aller Dateien
→ Summation sämtlicher Dateigrößen zur Steuerung der Speicherplanung
→ Abfragen über die METS Metadaten
→ Verteiltes METS-Parsen, Abfragen über HIVE (HiveQL)
@maxkaiser
→Gezielte Experimente mit Taverna Workflows
→MapReduce in der Qualitätskontrolle
→Ermittlung von Kenngrößen in großen Datenmengen
ONB Hadoop Cluster: Use Cases
Beispiel: JPEG000-Validierung
@maxkaiser
→ Bildvergleich zur Analyse von Unterschieden zweier Versionen eines digitalisierten Buchs → z.B. bei Re-Download von Digitalisaten
→ Tool: Matchbox (EU-Projekt SCAPE)
ONB Hadoop Cluster: Bildvergleich
@maxkaiser
Qualitäts-kontrolle
@maxkaiser
→Automatisierte Routinen
→Repräsentative Stichproben
→EDV-unterstütztes Finden von Fehler-Clustern
→Fehler-Kandidaten manuell überprüft
→Suche nach systematischen
und kritischen Fehlern
@maxkaiser
Durchscheinen
nicht-kritisch
@maxkaiser
Schnitt-Fehler
kritisch!
@maxkaiser
Qualitätskontrolle
via Sampling
Re-Processing
Re-Download
@maxkaiser
Fehler behoben
@maxkaiser
Langzeitarchivierung
→Methoden zum Management großer Datenmengen
→ Integration der Qualitätskontrolle in Workflow und Werkzeuge
→Bereitstellung über Permalinks
→Metadaten für Langzeitarchivierung
@maxkaiser
Access
@maxkaiser
Katalog / “Quick Search”
Volltextsuche
ABO Book Viewer
ANNO Zeitungsportal
technical slides ahead!
@maxkaiser
JPEG2000
HOCR
METS
TXT
ADOCO
METS-Generierung Speicherung auf UDM-
Storage
ALEPH
X-Server
ANNO Europeana
Newspapers
<<metadata>>
UDM
Holt METS- und OCR-Daten -
Indexierung mit SOLR/Lucene
Gespiegelter Index für Suche
INDEXER
Suchserver
<<poll updates>>
<DocID+METS>
<replication>
METS Beinhalten URLs (auf
Content Delivery Service zeigend) zu OCR-Files
@maxkaiser
CDS Content Delivery
Service
UDM (Speicher)
Quick Search / Primo
Book-viewer
ABO-NAS
Image Server: JPEG2000JPG
Konvertierung
IIP
@maxkaiser
Verlinkung durch Permalinks
→ Persistente Verlinkung
→ Auflösung über Resolver der ÖNB:
→ Beispiel: http://data.onb.ac.at/ABO/%2BZ167203406
→ Leitet um auf http://digital.onb.ac.at/OnbViewer/viewer
.faces?doc=ABO_Z167203406
@maxkaiser
ABO Verbund Primo
→ Pro Buch (Barcode)
→ Format der Datenlieferung: AC02030899 655o L $$mV:AT-OBV;B:AT-
OeNB$$qapplication/html$$uhttp://data.onb
.ac.at/ABO/%2BZ164219105$$xONB-
ABO$$3Volltext
→ Liste als Feed an OBVSG
→ Laden in ca. 30.000er Paketen nach ACC01
→ Über ACC-Pipe PRIMO
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
Volltextsuche
@maxkaiser
→Volltextsuche in historischen Textquellen der Österreichischen Nationalbibliothek
→Bücher, Zeitungen, Zeitschriften
→ Integration in Quick Search / Primo
→Produktiv seit April 2013
@maxkaiser
Volltextindex: aktueller Stand
→ 350.000 Dokumente
→150.000 Bücher
→200.000 Zeitungsausgaben
→ 52 Millionen Seiten
→ 1 Milliarde unterschiedliche Terme
→ Volltextindex 280 GB
@maxkaiser
@maxkaiser
@maxkaiser
ABO Book Viewer
@maxkaiser
Ausblick
@maxkaiser
→Mobilversion des Book-Viewers
→Volltext: neue Möglichkeiten für Forschung →Suche nach Synonymen, Named Entities
(Personen und Orte)
→Linked Data
→Services für „datenzentrierte“ Forschung in Kultur- und Sozialwissenschaften →„Digital Humanities“
@maxkaiser
→ Tagung: „Was können und wollen Digital Humanities“ 25. Oktober 2013
→Österreichische Nationalbibliothek
→ http://dhtagungwien.eventbrite.de/
@maxkaiser
Informationen www.onb.ac.at/austrianbooksonline www.onb.ac.at/austrianbooksonline/faq.htm twitter.com/abooksonline
@maxkaiser
Danke! [email protected] www.onb.ac.at
www.slideshare.net/maxkaiser
www.linkedin.com/in/maxkaiser gplus.to/maxkaiser twitter.com/maxkaiser