BSB Demo Day - Pletschacher - Evaluationswerkzeuge

Preview:

DESCRIPTION

 

Citation preview

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierung im Rahmen von OCR-WorkflowsStefan Pletschacher

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Überblick

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2

� Digitalisierungsworkflows

� Evaluierungsinfrastruktur

� Werkzeuge zur Ground-Truth Erstellung

� Evaluierungswerkzeuge

� Bespiel 1: Segmentierung und Layout

� Beispiel 2: OCR-Text

� Interpretation von Ergebnissen

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Digitalisierungsworkflows

① Scannen

② Bildvorverarbeitung und -verbesserung

� Trennung von Doppelseiten

� Hintergrund-/Randentfernung

� Korrektur von Bildwölbungen (systematisch und zufällig)

� Beseitigung von allgemeinen Bildstörungen

� Binarisierung

③ Layoutanalyse

� Segmentierung von Regionen, Zeilen, Wörtern und Zeichen

� Klassifikation von Regionen

� Logische und strukturelle Layoutanalyse

④ OCR

⑤ Nachverarbeitung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3

Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows

Evaluierung ����•Individuelle Prozessschritte•Komplette Workflows

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4

Eine vollständige Evaluierungsinfrastruktur

Evaluierungswerkzeuge

Bild-datenbank

Evaluierungs-ergebnisse

Kompatibilität durch ein gemeinsames Format

(PAGE)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Image Repository� Zentrale Speicherung und Verwaltung

von Dokumentbildern, Metadaten und

Ground-Truth

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Werkzeuge zur Ground-Truth Erstellung� Aletheia

� Seitenrand/Hintergrund

� Layout Regionen (inkl.

Metadaten)

� Textzeilen, Wörter und

Glyphen

� Unicode-Text auf allen

Ebenen

� Lesereihenfolge, Ebenen,

etc.

� FineReader Engine

Exporter (Vorproduktion)

� GT Validator

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Ground-Truth für Historische Dokumente

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7

� Komplexe Lese-

reihenfolge (Gruppen

von geordneten oder

ungeordneten

Elementen)

� Durchgehende Unterstützung von Unicode (inkl.

Sonderzeichen für historische Dokumente)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Drehungs-korrektur

BinarisierungRandentfernungWölbungs-korrektur

Ground-Truth für Bildvorverarbeitung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Page Analysis and Ground-Truth Elements

� Zweistufige Architektur:

– Integrierendes Wurzelelement

– Aufgabenspezifische Unterformate

� Separate XML Schema Definitionen

� Format Identifikation über Namespaces

� Abbildung von

– Abhängigkeiten

– Prozessketten

– Alternativen Verarbeitungsschritten

� Verlinkung von Komponenten über IDs

� http://schema.primaresearch.org/PAGE/

Repräsentation von

Verarbeitungsergebnissen

oder Ground-Truth

Repräsentation von

Verarbeitungsergebnissen

oder Ground-Truth

Das PAGE Format

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierungswerkzeuge

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10

� Segmentierung und

Layout

� OCR-Text

� Drehungskorrektur

� Wölbungskorrektur

� Randentfernung

� Binarisierung

� Doppelseitentrennung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Segmentierung und Layout

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11

Ground Truth Ergebniss

Überlappung� Differenzierung von Fehlern in

Abhängigkeit der Lesereihenfolge

����tolerierbar

nicht-tolerierbar

Miss / Part. Miss

Split

Misclass.

Merge

False Detection

� Fehlerarten

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Ground-Truth

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12

Image

Caption

Page

Paragraph

Paragraph

Header

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Ergebnis Layoutanalyse

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13

Paragraph

Header

Paragraph

ImageImage

Image

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 1: Fehlerauswertung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14

Partial MissMiss

Merge

Ground-Truth

Ergebnis Layoutanalyse

Misclassi-fication

Paragraph

Caption

Split

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiel 2: OCR-Text� Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode)

– Zeichengenauigkeit

� Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen)

� Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen)

– Wortgenauigkeit

� Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern

� Mit oder ohne Stoppwörter

– Abgelehnte und als verdächtig markierte Zeichen/Wörter

– Besondere Schwere von Ersetzungsfehlern

– Maßzahlen für Korrekturaufwand

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15

Hans im Glück � Hahn im GlukHans im Glück � Hahn im Gluk

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Interpretation von Ergebnissen� Metrik

– Messung von Zuständen

– Art und Anzahl von Fehlern

� Szenarios

– Anwendungskontext

– Wichtung von Fehlern

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16

Miss

Misclass.

Merge

Split

False detect.

Merge Rate

M1

M2 M

3

Split Rate

S1 S2

...

Error Rate

� Kennzahlen zur Gesamtbewertung

basierend auf

– gewichteten individuellen Ergebnissen

– Typ und Größe (betroffene Region)

– tolerierbaren und nicht-tolerierbaren

Fehlern

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Weitere Informationen

� PRImA

http://www.primaresearch.org

� IMPACT

http://www.impact-project.eu

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17