Upload
impact-centre-of-competence
View
457
Download
2
Embed Size (px)
DESCRIPTION
Citation preview
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung im Rahmen von OCR-WorkflowsStefan Pletschacher
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Überblick
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2
� Digitalisierungsworkflows
� Evaluierungsinfrastruktur
� Werkzeuge zur Ground-Truth Erstellung
� Evaluierungswerkzeuge
� Bespiel 1: Segmentierung und Layout
� Beispiel 2: OCR-Text
� Interpretation von Ergebnissen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Digitalisierungsworkflows
① Scannen
② Bildvorverarbeitung und -verbesserung
� Trennung von Doppelseiten
� Hintergrund-/Randentfernung
� Korrektur von Bildwölbungen (systematisch und zufällig)
� Beseitigung von allgemeinen Bildstörungen
� Binarisierung
③ Layoutanalyse
� Segmentierung von Regionen, Zeilen, Wörtern und Zeichen
� Klassifikation von Regionen
� Logische und strukturelle Layoutanalyse
④ OCR
⑤ Nachverarbeitung
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3
Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows
Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4
Eine vollständige Evaluierungsinfrastruktur
Evaluierungswerkzeuge
Bild-datenbank
Evaluierungs-ergebnisse
Kompatibilität durch ein gemeinsames Format
(PAGE)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Image Repository� Zentrale Speicherung und Verwaltung
von Dokumentbildern, Metadaten und
Ground-Truth
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Werkzeuge zur Ground-Truth Erstellung� Aletheia
� Seitenrand/Hintergrund
� Layout Regionen (inkl.
Metadaten)
� Textzeilen, Wörter und
Glyphen
� Unicode-Text auf allen
Ebenen
� Lesereihenfolge, Ebenen,
etc.
� FineReader Engine
Exporter (Vorproduktion)
� GT Validator
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ground-Truth für Historische Dokumente
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7
� Komplexe Lese-
reihenfolge (Gruppen
von geordneten oder
ungeordneten
Elementen)
� Durchgehende Unterstützung von Unicode (inkl.
Sonderzeichen für historische Dokumente)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Drehungs-korrektur
BinarisierungRandentfernungWölbungs-korrektur
Ground-Truth für Bildvorverarbeitung
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Page Analysis and Ground-Truth Elements
� Zweistufige Architektur:
– Integrierendes Wurzelelement
– Aufgabenspezifische Unterformate
� Separate XML Schema Definitionen
� Format Identifikation über Namespaces
� Abbildung von
– Abhängigkeiten
– Prozessketten
– Alternativen Verarbeitungsschritten
� Verlinkung von Komponenten über IDs
� http://schema.primaresearch.org/PAGE/
Repräsentation von
Verarbeitungsergebnissen
oder Ground-Truth
Repräsentation von
Verarbeitungsergebnissen
oder Ground-Truth
Das PAGE Format
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierungswerkzeuge
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10
� Segmentierung und
Layout
� OCR-Text
� Drehungskorrektur
� Wölbungskorrektur
� Randentfernung
� Binarisierung
� Doppelseitentrennung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Segmentierung und Layout
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11
Ground Truth Ergebniss
Überlappung� Differenzierung von Fehlern in
Abhängigkeit der Lesereihenfolge
����tolerierbar
nicht-tolerierbar
Miss / Part. Miss
Split
Misclass.
Merge
False Detection
� Fehlerarten
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Ground-Truth
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12
Image
Caption
Page
Paragraph
Paragraph
Header
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Ergebnis Layoutanalyse
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13
Paragraph
Header
Paragraph
ImageImage
Image
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Fehlerauswertung
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14
Partial MissMiss
Merge
Ground-Truth
Ergebnis Layoutanalyse
Misclassi-fication
Paragraph
Caption
Split
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 2: OCR-Text� Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode)
– Zeichengenauigkeit
� Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen)
� Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen)
– Wortgenauigkeit
� Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern
� Mit oder ohne Stoppwörter
– Abgelehnte und als verdächtig markierte Zeichen/Wörter
– Besondere Schwere von Ersetzungsfehlern
– Maßzahlen für Korrekturaufwand
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15
Hans im Glück � Hahn im GlukHans im Glück � Hahn im Gluk
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Interpretation von Ergebnissen� Metrik
– Messung von Zuständen
– Art und Anzahl von Fehlern
� Szenarios
– Anwendungskontext
– Wichtung von Fehlern
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16
Miss
Misclass.
Merge
Split
False detect.
Merge Rate
M1
M2 M
3
Split Rate
S1 S2
...
Error Rate
� Kennzahlen zur Gesamtbewertung
basierend auf
– gewichteten individuellen Ergebnissen
– Typ und Größe (betroffene Region)
– tolerierbaren und nicht-tolerierbaren
Fehlern
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Weitere Informationen
� PRImA
http://www.primaresearch.org
� IMPACT
http://www.impact-project.eu
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17