17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Evaluierung im Rahmen von OCR-Workflows Stefan Pletschacher

BSB Demo Day - Pletschacher - Evaluationswerkzeuge

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierung im Rahmen von OCR-WorkflowsStefan Pletschacher

Page 2: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Überblick

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2

� Digitalisierungsworkflows

� Evaluierungsinfrastruktur

� Werkzeuge zur Ground-Truth Erstellung

� Evaluierungswerkzeuge

� Bespiel 1: Segmentierung und Layout

� Beispiel 2: OCR-Text

� Interpretation von Ergebnissen

Page 3: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Digitalisierungsworkflows

① Scannen

② Bildvorverarbeitung und -verbesserung

� Trennung von Doppelseiten

� Hintergrund-/Randentfernung

� Korrektur von Bildwölbungen (systematisch und zufällig)

� Beseitigung von allgemeinen Bildstörungen

� Binarisierung

③ Layoutanalyse

� Segmentierung von Regionen, Zeilen, Wörtern und Zeichen

� Klassifikation von Regionen

� Logische und strukturelle Layoutanalyse

④ OCR

⑤ Nachverarbeitung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3

Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows

Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows

Page 4: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4

Eine vollständige Evaluierungsinfrastruktur

Evaluierungswerkzeuge

Bild-datenbank

Evaluierungs-ergebnisse

Kompatibilität durch ein gemeinsames Format

(PAGE)

Page 5: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Image Repository� Zentrale Speicherung und Verwaltung

von Dokumentbildern, Metadaten und

Ground-Truth

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5

Page 6: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Werkzeuge zur Ground-Truth Erstellung� Aletheia

� Seitenrand/Hintergrund

� Layout Regionen (inkl.

Metadaten)

� Textzeilen, Wörter und

Glyphen

� Unicode-Text auf allen

Ebenen

� Lesereihenfolge, Ebenen,

etc.

� FineReader Engine

Exporter (Vorproduktion)

� GT Validator

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6

Page 7: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Ground-Truth für Historische Dokumente

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7

� Komplexe Lese-

reihenfolge (Gruppen

von geordneten oder

ungeordneten

Elementen)

� Durchgehende Unterstützung von Unicode (inkl.

Sonderzeichen für historische Dokumente)

Page 8: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Drehungs-korrektur

BinarisierungRandentfernungWölbungs-korrektur

Ground-Truth für Bildvorverarbeitung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8

Page 9: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Page Analysis and Ground-Truth Elements

� Zweistufige Architektur:

– Integrierendes Wurzelelement

– Aufgabenspezifische Unterformate

� Separate XML Schema Definitionen

� Format Identifikation über Namespaces

� Abbildung von

– Abhängigkeiten

– Prozessketten

– Alternativen Verarbeitungsschritten

� Verlinkung von Komponenten über IDs

� http://schema.primaresearch.org/PAGE/

Repräsentation von

Verarbeitungsergebnissen

oder Ground-Truth

Repräsentation von

Verarbeitungsergebnissen

oder Ground-Truth

Das PAGE Format

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9

Page 10: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierungswerkzeuge

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10

� Segmentierung und

Layout

� OCR-Text

� Drehungskorrektur

� Wölbungskorrektur

� Randentfernung

� Binarisierung

� Doppelseitentrennung

Page 11: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Segmentierung und Layout

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11

Ground Truth Ergebniss

Überlappung� Differenzierung von Fehlern in

Abhängigkeit der Lesereihenfolge

����tolerierbar

nicht-tolerierbar

Miss / Part. Miss

Split

Misclass.

Merge

False Detection

� Fehlerarten

Page 12: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Ground-Truth

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12

Image

Caption

Page

Paragraph

Paragraph

Header

Page 13: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Ergebnis Layoutanalyse

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13

Paragraph

Header

Paragraph

ImageImage

Image

Page 14: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Fehlerauswertung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14

Partial MissMiss

Merge

Ground-Truth

Ergebnis Layoutanalyse

Misclassi-fication

Paragraph

Caption

Split

Page 15: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 2: OCR-Text� Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode)

– Zeichengenauigkeit

� Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen)

� Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen)

– Wortgenauigkeit

� Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern

� Mit oder ohne Stoppwörter

– Abgelehnte und als verdächtig markierte Zeichen/Wörter

– Besondere Schwere von Ersetzungsfehlern

– Maßzahlen für Korrekturaufwand

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15

Hans im Glück � Hahn im GlukHans im Glück � Hahn im Gluk

Page 16: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Interpretation von Ergebnissen� Metrik

– Messung von Zuständen

– Art und Anzahl von Fehlern

� Szenarios

– Anwendungskontext

– Wichtung von Fehlern

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16

Miss

Misclass.

Merge

Split

False detect.

Merge Rate

M1

M2 M

3

Split Rate

S1 S2

...

Error Rate

� Kennzahlen zur Gesamtbewertung

basierend auf

– gewichteten individuellen Ergebnissen

– Typ und Größe (betroffene Region)

– tolerierbaren und nicht-tolerierbaren

Fehlern

Page 17: BSB Demo Day - Pletschacher - Evaluationswerkzeuge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Weitere Informationen

� PRImA

http://www.primaresearch.org

� IMPACT

http://www.impact-project.eu

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17