23
28. Februar 2014 Seite 1 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives CCS Content Conversion Specialists europeana newspapers Information Day, Berlin, 28.2.2014 Optical Layout Recognition (OLR) Generierung und Nutzung von Strukturdaten Claus Gravenhorst

Europeana Newspapers German infoday - OCR @ CCS

Embed Size (px)

Citation preview

Page 1: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 1

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

CCSContent Conversion Specialists

europeana newspapersInformation Day, Berlin, 28.2.2014

Optical Layout Recognition (OLR)Generierung und Nutzung von Strukturdaten

Claus Gravenhorst

Page 2: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 2

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Agenda

� Über CCS

� Allgemeiner OLR-Workflow für Massendigitalisierung

� Layout- und Struktur-Analyse

� ENP OLR Workflow

� Qualitätssicherung

� Output - METS/ALTO package

� Nutzung von Strukturdaten

Page 3: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 3

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Über CCS

� Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um übereinen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einenqualitativ hochwertigen, Artikel-strukturierten Content zu generieren.

� Seitenvolumen der 5 Partner:

BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k

� Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess

� CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit

Page 4: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 4

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Allgemeiner OLR-Workflow für Massendigitalisierung

Re-Scan

Conversion

Imaging

Layout Analysis

OCR

ISR

Reject Condition

Delivery QA random

Final Output

Scanning

Image

Metadata

Database----------------Repository

Automated QA

DocumentUID

BarcodeItem Tracking

Manual QA

• in-house• near-shore• off-shore• multiple locations

Manual QA

• in-house• near-shore

Check inCheck out

Scanner

• Robot-• Book-• Document-• Microfilm-

QA+CorrectionQA+Correcti

onQA +

Correction

Z 39.50Metadata

Page 5: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 5

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Layout- und Struktur-Analyse

� Layout-Analyse basiert auf „bottom up“-Verfahren

� Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen:

- title page (Titelseite einer Ausgabe)- content page (Seite die nur Content/Text enthält)- illustration page (Seite mit mindestens einer Illustration)- advertisement page (Seite mit ausschließlich Werbung)

� Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)

Page 6: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 6

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

ENP OLR Workflow | Konvertierung ohne Scanning

Digital ImageMetadataDelivery

Digital ImageMetadataDelivery

Digital ObjectReturn

Digital ObjectReturn

Inspection / Automatic QAInspection /

Automatic QA

Doc DeliveryDoc Delivery

RejectReject

Conversion facility

Material location

Conversion

MD Recording

optionalPDFMETS/ALTOENMAP

Page 7: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 7

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Mögliche Konvertierungs-Szenarien

A) Konvertierung in-house

B) Konvertierung off-shore über CCS-Rechenzentrum,finale QS an der Bibliothek über Internet Transfer (remote QS)

C) Konvertierung off-shore bei CCS,finale QS an der Bibliothek über Backup-Lieferung

Page 8: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 8

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Szenario B | Remote QS an der Bibliothek

Internet

Storage

IN

OUTPOOL

dW Share

Master

OffshoreProcessing

@ CCS

OUTPUT

METS ALTO

Storage

POOL

dW Share

RQA

QA on-site @ Library

INPUT

Page 9: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 9

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Qualitätssicherung

� @ CCS | Automatisches Tagging/Markup und Basis-Korrektur:

- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)

� @ Content Provider (Bibliothek):

Empfohlen- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,

Untertiteln- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer

Optional- Seitentypen: Korrektur der Typen- Seitennummern: Korrektur der Seitenreihenfolge- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)

Page 10: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 10

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Output | METS/ALTO package

� METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts

� Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamtephysikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einemstandardisierten Schema zur Seitenbeschreibung und enthält alle Informationeneiner Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).

� Vorteile des strukturellen Markup‘s:

- besseres Durchsuchen und präzisere Textsuche- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,Annotation, persönliche Kollektion, etc.

- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-miningund linguistische Technologien

- Verteilung von Artikeln z.B. über Social Media Plattformen_______________METS = Metadada Encoding and Transmission Standard

ALTO = Analyzed Layout and Text Object

Page 11: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 11

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Recherche & Präsentation

� Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider

� Existierende Präsentationssysteme [Artikel-Struktur]:

- The British Library (The British Newspaper Archive, brightsolid)- Holländische Nationalbibliothek (DDD)- Nationalbibliothek Luxemburg (eLuxemburgensia)- Nationalbibliothek Australien (Trove)- Nationalbibliothek Neuseeland (Papers Past)

� Beispiele von bereits prozessierten ENP-Titeln:

- BNF: L‘Ouest Eclair (1919)- SBB: Deutsches Nachrichtenbüro (1936)- NLE: Livländische Gouvernements-Zeitung (1852)

Page 12: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 12

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – SucheRecherche

Textsuche

Page 13: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 13

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Auswahl Titel/DatumAusgabe

Inhaltsverzeichnis

Page 14: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 14

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelArtikel-Bild/Text

Zusatzfunktionen

Page 15: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 15

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelimageSeparierter Artikel

Verteilung

Page 16: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 16

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikeltextArtikel

Text

Page 17: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 17

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelkorrekturOnline-Textkorrektur

durch Benutzer

Page 18: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 18

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Suche nach „poulet“Trefferliste

Artikel-basiert

Page 19: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 19

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelanzeigeArtikel

Wortmarkierung

Page 20: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 20

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – SBBDeutschesNachrichtenbüro

Page 21: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 21

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – NLELivländischeGouvernements-Zeitung

Page 22: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 22

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Fragen + Antworten

Page 23: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 23

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Kontakt

Claus GravenhorstDirector Strategic InitiativesCCS Content Conversion Specialists GmbHWeidestr. 13422083 HamburgGermany [email protected]