98
@maxkaiser Austrian Books Online Digitaler Workflow und Access Max Kaiser Leiter Forschung & Entwicklung Österreichische Nationalbibliothek „Nationale Initiativen zur digitalen Information“ Wien, 4. Oktober 2013

Austrian Books Online - Digitaler Workflow und Access

Embed Size (px)

DESCRIPTION

Presentation at "Nationale Initiativen zur digitalen Information", Vienna, 04 October 2013

Citation preview

Page 1: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Austrian Books Online Digitaler Workflow und Access

Max Kaiser Leiter Forschung & Entwicklung

Österreichische Nationalbibliothek

„Nationale Initiativen zur digitalen Information“ Wien, 4. Oktober 2013

Page 2: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Austrian Books Online www.onb.ac.at/austrianbooksonline/

Page 3: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

www.slideshare.net/maxkaiser

Page 4: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Überblick

→ Projektziele

→ Status Quo

→Workflow: Bücher / Daten

→ Access / Volltextsuche

→ Ausblick

Page 5: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Digitalisierung des gesamten historischen Buchbestands der Österreichischen Nationalbibliothek

Page 6: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

600.000 Bände

200 Mio Seiten

Page 7: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

16. Jahrhundert

Zweite Hälfte

19. Jahrhundert

Page 8: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Google Bücher

Digitale Bibliothek Österreichische Nationalbibliothek

Page 9: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Eckpunkte der

Kooperation

Page 10: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→ Urheberrecht

→ Ausschließlich gemeinfreie Werke

→ Nicht-Exklusivität

→ Digitalisierung auch mit anderen Partnern möglich

→ Transparenz

→ Öffentliche Ausschreibung

→ Detaillierte FAQs online

Page 11: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser @maxkaiser

@maxkaiser

→ Zugänglichkeit der Digitalisate

→ Weltweit und kostenfrei für nicht-kommerzielle Nutzung

→ Europeana und andere Plattformen

→ Weitergabe an Forschungspartner

Page 12: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

70+ MitarbeiterInnen der

Österreichischen Nationalbibliothek

Davon 20+ ausschließlich für Projekt → Bücher-Logistik

→ Anpassung Metadaten

→ Katalogisierung

→ Konservierung / Restaurierung

→ Qualitätskontrolle

→ Software-Entwicklung

→ Projektmanagement

Page 13: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Wo steht das Projekt

heute?

Page 14: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Frühjahr 2011 Beginn Digitalisierung

Page 15: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

~162.000 Bände digitalisiert

heute

Page 16: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

~185.000 Bände digitalisiert

Ende 2013

Page 17: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Jahrhunderte …

Page 18: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Sprachen …

Page 19: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Frühjahr 2013 Launch Bookviewer und Volltextsuche

Page 20: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Workflow

Page 21: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

„book flow“

„digital flow“

Page 22: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

book flow

Page 23: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Keine individuelle Auswahl …

Page 24: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Format

Page 25: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Format

Page 26: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Zustand

Page 27: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Konservatorische Evaluierung

Page 28: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Wert

Page 29: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Logistik im

Prunksaal

Page 30: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Herausforderungen…

Page 31: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Herausforderungen…

Page 32: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Barcodierung

Page 33: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Anpassung Metadaten

Page 34: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

8 Minuten / Buch

Page 35: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser →

→ @maxkaiser

Bereit für die Digitalisierung …

→Digitalisierungszentrum in Deutschland

→Bücher ~ 3 Monate nicht benützbar

Page 36: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser @maxkaiser

Page 37: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

book flow digital flow

Page 38: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Digitalisierung

Daten-Download

Buchlogistik

Qualitätskontrolle

Speicherung

Access

ADOCO (Austrian Books Online Download & Control)

Page 39: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Workflow in ADOCO Download Datenpaket von Google GRIN via HTTP

Entschlüsseln des Pakets via gnupg

Paket in Verzeichnis entpacken

MD5-Kontrolle aller Dateien (QA)

Ablage in Pairtree-Verzeichnis (NAS Shares)

GRIN-Metadaten mit aktuellem Zeitstempel aktualisieren

Page 41: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Datenmenge

Durchschnitt pro Datenpaket (~Buch): 101 MB

101 MB * 600.000 = 60 TB

Page 42: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Datenspeicherung & Access

→Datenspeicherung: inhouse

→Daten redundant gespeichert

→ Access-Kopien aus JPEG2000 Master Files on-the-fly generiert

Page 43: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Download und Speicherung

ADOCO

JPEG2000

HOCR

METS

TXT

ABO NAS-Speicher Pair Tree-Algorithmus

ca. 60 TB

Page 44: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

ÖNB Hadoop-Cluster

Page 45: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

ÖNB Hadoop-Cluster: Laufender Betrieb

→ Regelmäßige MD5-Prüfsummenkontrolle aller Dateien

→ Summation sämtlicher Dateigrößen zur Steuerung der Speicherplanung

→ Abfragen über die METS Metadaten

→ Verteiltes METS-Parsen, Abfragen über HIVE (HiveQL)

Page 46: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→Gezielte Experimente mit Taverna Workflows

→MapReduce in der Qualitätskontrolle

→Ermittlung von Kenngrößen in großen Datenmengen

ONB Hadoop Cluster: Use Cases

Beispiel: JPEG000-Validierung

Page 47: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→ Bildvergleich zur Analyse von Unterschieden zweier Versionen eines digitalisierten Buchs → z.B. bei Re-Download von Digitalisaten

→ Tool: Matchbox (EU-Projekt SCAPE)

ONB Hadoop Cluster: Bildvergleich

Page 48: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Qualitäts-kontrolle

Page 49: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→Automatisierte Routinen

→Repräsentative Stichproben

→EDV-unterstütztes Finden von Fehler-Clustern

→Fehler-Kandidaten manuell überprüft

→Suche nach systematischen

und kritischen Fehlern

Page 50: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Durchscheinen

nicht-kritisch

Page 51: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Schnitt-Fehler

kritisch!

Page 52: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Qualitätskontrolle

via Sampling

Re-Processing

Re-Download

Page 53: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Fehler behoben

Page 54: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Langzeitarchivierung

→Methoden zum Management großer Datenmengen

→ Integration der Qualitätskontrolle in Workflow und Werkzeuge

→Bereitstellung über Permalinks

→Metadaten für Langzeitarchivierung

Page 55: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Access

Page 56: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Katalog / “Quick Search”

Volltextsuche

ABO Book Viewer

ANNO Zeitungsportal

Page 57: Austrian Books Online - Digitaler Workflow und Access

technical slides ahead!

Page 58: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

JPEG2000

HOCR

METS

TXT

ADOCO

METS-Generierung Speicherung auf UDM-

Storage

ALEPH

X-Server

ANNO Europeana

Newspapers

<<metadata>>

UDM

Holt METS- und OCR-Daten -

Indexierung mit SOLR/Lucene

Gespiegelter Index für Suche

INDEXER

Suchserver

<<poll updates>>

<DocID+METS>

<replication>

METS Beinhalten URLs (auf

Content Delivery Service zeigend) zu OCR-Files

Page 59: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

CDS Content Delivery

Service

UDM (Speicher)

Quick Search / Primo

Book-viewer

ABO-NAS

Image Server: JPEG2000JPG

Konvertierung

IIP

Page 60: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Verlinkung durch Permalinks

→ Persistente Verlinkung

→ Auflösung über Resolver der ÖNB:

→ Beispiel: http://data.onb.ac.at/ABO/%2BZ167203406

→ Leitet um auf http://digital.onb.ac.at/OnbViewer/viewer

.faces?doc=ABO_Z167203406

Page 61: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

ABO Verbund Primo

→ Pro Buch (Barcode)

→ Format der Datenlieferung: AC02030899 655o L $$mV:AT-OBV;B:AT-

OeNB$$qapplication/html$$uhttp://data.onb

.ac.at/ABO/%2BZ164219105$$xONB-

ABO$$3Volltext

→ Liste als Feed an OBVSG

→ Laden in ca. 30.000er Paketen nach ACC01

→ Über ACC-Pipe PRIMO

Page 62: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 63: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 64: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 65: Austrian Books Online - Digitaler Workflow und Access
Page 66: Austrian Books Online - Digitaler Workflow und Access
Page 67: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 68: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Volltextsuche

Page 69: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→Volltextsuche in historischen Textquellen der Österreichischen Nationalbibliothek

→Bücher, Zeitungen, Zeitschriften

→ Integration in Quick Search / Primo

→Produktiv seit April 2013

Page 70: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Volltextindex: aktueller Stand

→ 350.000 Dokumente

→150.000 Bücher

→200.000 Zeitungsausgaben

→ 52 Millionen Seiten

→ 1 Milliarde unterschiedliche Terme

→ Volltextindex 280 GB

Page 71: Austrian Books Online - Digitaler Workflow und Access
Page 72: Austrian Books Online - Digitaler Workflow und Access
Page 73: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 74: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Page 75: Austrian Books Online - Digitaler Workflow und Access
Page 76: Austrian Books Online - Digitaler Workflow und Access
Page 77: Austrian Books Online - Digitaler Workflow und Access
Page 78: Austrian Books Online - Digitaler Workflow und Access
Page 79: Austrian Books Online - Digitaler Workflow und Access
Page 80: Austrian Books Online - Digitaler Workflow und Access
Page 81: Austrian Books Online - Digitaler Workflow und Access
Page 82: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

ABO Book Viewer

Page 83: Austrian Books Online - Digitaler Workflow und Access
Page 84: Austrian Books Online - Digitaler Workflow und Access
Page 85: Austrian Books Online - Digitaler Workflow und Access
Page 86: Austrian Books Online - Digitaler Workflow und Access
Page 87: Austrian Books Online - Digitaler Workflow und Access
Page 88: Austrian Books Online - Digitaler Workflow und Access
Page 89: Austrian Books Online - Digitaler Workflow und Access
Page 90: Austrian Books Online - Digitaler Workflow und Access
Page 91: Austrian Books Online - Digitaler Workflow und Access
Page 92: Austrian Books Online - Digitaler Workflow und Access
Page 93: Austrian Books Online - Digitaler Workflow und Access
Page 94: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Ausblick

Page 95: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→Mobilversion des Book-Viewers

→Volltext: neue Möglichkeiten für Forschung →Suche nach Synonymen, Named Entities

(Personen und Orte)

→Linked Data

→Services für „datenzentrierte“ Forschung in Kultur- und Sozialwissenschaften →„Digital Humanities“

Page 96: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

→ Tagung: „Was können und wollen Digital Humanities“ 25. Oktober 2013

→Österreichische Nationalbibliothek

→ http://dhtagungwien.eventbrite.de/

Page 97: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Informationen www.onb.ac.at/austrianbooksonline www.onb.ac.at/austrianbooksonline/faq.htm twitter.com/abooksonline

Page 98: Austrian Books Online - Digitaler Workflow und Access

@maxkaiser

Danke! [email protected] www.onb.ac.at

www.slideshare.net/maxkaiser

www.linkedin.com/in/maxkaiser gplus.to/maxkaiser twitter.com/maxkaiser