View
143
Download
0
Category
Tags:
Preview:
Citation preview
28. Februar 2014Seite 1
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
CCSContent Conversion Specialists
europeana newspapersInformation Day, Berlin, 28.2.2014
Optical Layout Recognition (OLR)Generierung und Nutzung von Strukturdaten
Claus Gravenhorst
28. Februar 2014Seite 2
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Agenda
� Über CCS
� Allgemeiner OLR-Workflow für Massendigitalisierung
� Layout- und Struktur-Analyse
� ENP OLR Workflow
� Qualitätssicherung
� Output - METS/ALTO package
� Nutzung von Strukturdaten
28. Februar 2014Seite 3
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Über CCS
� Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um übereinen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einenqualitativ hochwertigen, Artikel-strukturierten Content zu generieren.
� Seitenvolumen der 5 Partner:
BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k
� Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess
� CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
28. Februar 2014Seite 4
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Allgemeiner OLR-Workflow für Massendigitalisierung
Re-Scan
Conversion
Imaging
Layout Analysis
OCR
ISR
Reject Condition
Delivery QA random
Final Output
Scanning
Image
Metadata
Database----------------Repository
Automated QA
DocumentUID
BarcodeItem Tracking
Manual QA
• in-house• near-shore• off-shore• multiple locations
Manual QA
• in-house• near-shore
Check inCheck out
Scanner
• Robot-• Book-• Document-• Microfilm-
QA+CorrectionQA+Correcti
onQA +
Correction
Z 39.50Metadata
28. Februar 2014Seite 5
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Layout- und Struktur-Analyse
� Layout-Analyse basiert auf „bottom up“-Verfahren
� Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen:
- title page (Titelseite einer Ausgabe)- content page (Seite die nur Content/Text enthält)- illustration page (Seite mit mindestens einer Illustration)- advertisement page (Seite mit ausschließlich Werbung)
� Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)
28. Februar 2014Seite 6
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
ENP OLR Workflow | Konvertierung ohne Scanning
Digital ImageMetadataDelivery
Digital ImageMetadataDelivery
Digital ObjectReturn
Digital ObjectReturn
Inspection / Automatic QAInspection /
Automatic QA
Doc DeliveryDoc Delivery
RejectReject
Conversion facility
Material location
Conversion
MD Recording
optionalPDFMETS/ALTOENMAP
28. Februar 2014Seite 7
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Mögliche Konvertierungs-Szenarien
A) Konvertierung in-house
B) Konvertierung off-shore über CCS-Rechenzentrum,finale QS an der Bibliothek über Internet Transfer (remote QS)
C) Konvertierung off-shore bei CCS,finale QS an der Bibliothek über Backup-Lieferung
28. Februar 2014Seite 8
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Szenario B | Remote QS an der Bibliothek
Internet
Storage
IN
OUTPOOL
dW Share
Master
OffshoreProcessing
@ CCS
OUTPUT
METS ALTO
Storage
POOL
dW Share
RQA
QA on-site @ Library
INPUT
28. Februar 2014Seite 9
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Qualitätssicherung
� @ CCS | Automatisches Tagging/Markup und Basis-Korrektur:
- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)
� @ Content Provider (Bibliothek):
Empfohlen- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,
Untertiteln- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer
Optional- Seitentypen: Korrektur der Typen- Seitennummern: Korrektur der Seitenreihenfolge- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
28. Februar 2014Seite 10
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Output | METS/ALTO package
� METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts
� Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamtephysikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einemstandardisierten Schema zur Seitenbeschreibung und enthält alle Informationeneiner Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).
� Vorteile des strukturellen Markup‘s:
- besseres Durchsuchen und präzisere Textsuche- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,Annotation, persönliche Kollektion, etc.
- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-miningund linguistische Technologien
- Verteilung von Artikeln z.B. über Social Media Plattformen_______________METS = Metadada Encoding and Transmission Standard
ALTO = Analyzed Layout and Text Object
28. Februar 2014Seite 11
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Recherche & Präsentation
� Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider
� Existierende Präsentationssysteme [Artikel-Struktur]:
- The British Library (The British Newspaper Archive, brightsolid)- Holländische Nationalbibliothek (DDD)- Nationalbibliothek Luxemburg (eLuxemburgensia)- Nationalbibliothek Australien (Trove)- Nationalbibliothek Neuseeland (Papers Past)
� Beispiele von bereits prozessierten ENP-Titeln:
- BNF: L‘Ouest Eclair (1919)- SBB: Deutsches Nachrichtenbüro (1936)- NLE: Livländische Gouvernements-Zeitung (1852)
28. Februar 2014Seite 12
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – SucheRecherche
Textsuche
28. Februar 2014Seite 13
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Auswahl Titel/DatumAusgabe
Inhaltsverzeichnis
28. Februar 2014Seite 14
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelArtikel-Bild/Text
Zusatzfunktionen
28. Februar 2014Seite 15
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelimageSeparierter Artikel
Verteilung
28. Februar 2014Seite 16
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikeltextArtikel
Text
28. Februar 2014Seite 17
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelkorrekturOnline-Textkorrektur
durch Benutzer
28. Februar 2014Seite 18
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Suche nach „poulet“Trefferliste
Artikel-basiert
28. Februar 2014Seite 19
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelanzeigeArtikel
Wortmarkierung
28. Februar 2014Seite 20
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – SBBDeutschesNachrichtenbüro
28. Februar 2014Seite 21
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – NLELivländischeGouvernements-Zeitung
28. Februar 2014Seite 22
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Fragen + Antworten
28. Februar 2014Seite 23
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Kontakt
Claus GravenhorstDirector Strategic InitiativesCCS Content Conversion Specialists GmbHWeidestr. 13422083 HamburgGermany c.gravenhorst@content-conversion.comwww.content-conversion.com
Recommended