Europeana Newspapers German Infoday Quality Assessment

Preview:

Citation preview

Europeana Newspapers -Evaluierung und Qualitätskontrolle

Information Day SBB

Berlin, 28 Februar 2014

Clemens Neudecker, KB, Twitter: @cneudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2

Übersicht

• Qualitätskontrolle in Digitalisierungsprojekten

• Besondere Herausforderungen bei der Digitalisierung von Zeitungen• Digitalisierungsworkflows und Qualitätskontrolle

• Das PAGE Evaluierungsframework• Ground truth

• Tools

• Layoutanalyse

• Lesefluss

• Textgenauigkeit

• Was tun mit den Ergebnissen?

• Zusammenfassung und Ausblick

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3

Qualitätskontrolle in Digitalisierungsprojekten

• Planung• Machbarkeit

• Prioritäten

• Kosten, Zeitaufwand, manuelle Schritte

• Services, Dateiformate

• Umsetzung• Aufsetzen des Workflows

• Aufspüren von “Bottlenecks”

• Optimierung der Prozessschritte

• Kontrolle• Qualität der OCR

Performance Analyse:Gründliche Analyse allerProzessschritte –was trägt wie zur Qualität bei?

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Herausforderungen für Zeitungen

• Anzahl Zeichen pro Seite sehr hoch

• Mehrere Spalten• Unterschiedlichste Typen von Regionen

• Lesefluss

• Komplexe Layouts• Abbildungen

• Tabellen

• Werbung• Schlechte Papierqualität

• Oft von Mikrofilm gescannt

• …

4

Quelle: NLF

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Digitalisierungsworkflows und Qualitätskontrolle

5

① Scannen② (Bild-)vorverarbeitung

� Doppelseiten aufsplitten� Rand entfernen/Ausschneiden� Geraderücken� Entfernen von Artefakten (Noise)� Binarisierung

③ Layoutanalyse� Segmentierung in Regionen,

Zeilen, Wörter und Zeichen� Klassifizierung von Regionen� Analyse der logischen Struktur

④ Zeichenerkennung (OCR)⑤ Nachverarbeitung

• Einzelne Prozessschritte vs.gesamter Workflow

• Direkt vs. indirekt

• Basierend auf realen Nutzungsszenarien

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Das PAGE Evaluierungsframework

6

Evaluation Tools

Image Repository

Evaluation Results

Compatibility through one common format

(PAGE)

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Ground Truth

7

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Tools zur Erstellung von Ground Truth

8

• Aletheia

• Seitenrand, Satzspiegel

• Regionen (inkl. Typ)

• Zeilen, Wörter und Glyphen

• Unicode text

• Lesefluss, Layer etc.

• FineReader Engine

Exporter (Preproduction)

• GT Validator

• GT Converter/Normaliser

���� http://www.primaresearch.org/tools

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Layoutanalyse

9

Miss / Part. Miss

Split

Misclass-ification

Merge

False Detection

Fehlerkategorien Ground truth OCR

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Lesefluss

10

Groundtruth

OCR

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Textgenauigkeit

11

• Vergleich von Ground Truth und durch OCR erkanntem Text unter Berücksichtigung des Textencoding (ASCII, Unicode)

• Normalisierung

• Zeichengenauigkeit

• Distance measure: Minimale Anzahl von Edits (insertions, deletions, substitutions)

• Für alle Klassen von Zeichen (lower case, upper case, whitespace characters, numbers, symbols)

• Wortgenauigkeit

• Korrekt erkannte Wörter vs. Gesamtanzahl Wörter

• Bag of words (index, ranking)

• Stop words und non-stop words (“und”, “in”, etc.)

• Rejected and suspicious characters/words

• Substitutionsfehler (höher gewichtet)

• OCR confidence ≠ accuracy

“OCR is cool” � “OOR is cod”

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Was tun mit den Ergebnissen?

12

• Kriterien

• Min. Anforderungen erfüllt?

• Anzahl und Klassen von Fehlern

• Szenarien

• Anwendung / Kontext

• Gewichtung von Fehlern

Miss

Misclass.

Merge

Split

False detect.

Merge Rate

M1M2

M3

Split Rate

S1 S2

...

Error Rate

• Gesamtergebnis / Aggregation

• gewichtete Einzelergebnisse

• Typ und Umfang der falschenRegionen

• Erlaubte vs. nicht-erlaubte Fehler

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13

Zusammenfassung und Ausblick

• Gute und gründliche Evaluierung kostet Zeit und Geld… • Festlegen der Qualitätsanforderungen (in Abhängigkeit von Nutzungsszenarien)

• Erstellen von Ground Truth (hoher manueller Aufwand)

• Durchführen der Evaluierung

• Interpretation der Ergebnisse

• …aber nur auf diesem Weg lassen sich wirklich verlässliche Aussagen zur Qualität der Layout- und Textgenauigkeit treffen!

• Das IMPACT Centre of Competence kann Ihnen dabei helfen: www.digitisation.eu

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14

Weiterführende Informationen

� PRImA

www.primaresearch.org

� Europeana Newspapers

www.europeana-newspapers.eu

Danke für die Aufmerksamkeit!

Noch Fragen ?

clemens.neudecker@kb.nl

Recommended