15
Europeana Newspapers - Evaluierung und Qualitätskontrolle Information Day SBB Berlin, 28 Februar 2014 Clemens Neudecker, KB, Twitter: @cneudecker

Europeana Newspapers German Infoday Quality Assessment

Embed Size (px)

Citation preview

Page 1: Europeana Newspapers German Infoday Quality Assessment

Europeana Newspapers -Evaluierung und Qualitätskontrolle

Information Day SBB

Berlin, 28 Februar 2014

Clemens Neudecker, KB, Twitter: @cneudecker

Page 2: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2

Übersicht

• Qualitätskontrolle in Digitalisierungsprojekten

• Besondere Herausforderungen bei der Digitalisierung von Zeitungen• Digitalisierungsworkflows und Qualitätskontrolle

• Das PAGE Evaluierungsframework• Ground truth

• Tools

• Layoutanalyse

• Lesefluss

• Textgenauigkeit

• Was tun mit den Ergebnissen?

• Zusammenfassung und Ausblick

Page 3: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3

Qualitätskontrolle in Digitalisierungsprojekten

• Planung• Machbarkeit

• Prioritäten

• Kosten, Zeitaufwand, manuelle Schritte

• Services, Dateiformate

• Umsetzung• Aufsetzen des Workflows

• Aufspüren von “Bottlenecks”

• Optimierung der Prozessschritte

• Kontrolle• Qualität der OCR

Performance Analyse:Gründliche Analyse allerProzessschritte –was trägt wie zur Qualität bei?

Page 4: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Herausforderungen für Zeitungen

• Anzahl Zeichen pro Seite sehr hoch

• Mehrere Spalten• Unterschiedlichste Typen von Regionen

• Lesefluss

• Komplexe Layouts• Abbildungen

• Tabellen

• Werbung• Schlechte Papierqualität

• Oft von Mikrofilm gescannt

• …

4

Quelle: NLF

Page 5: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Digitalisierungsworkflows und Qualitätskontrolle

5

① Scannen② (Bild-)vorverarbeitung

� Doppelseiten aufsplitten� Rand entfernen/Ausschneiden� Geraderücken� Entfernen von Artefakten (Noise)� Binarisierung

③ Layoutanalyse� Segmentierung in Regionen,

Zeilen, Wörter und Zeichen� Klassifizierung von Regionen� Analyse der logischen Struktur

④ Zeichenerkennung (OCR)⑤ Nachverarbeitung

• Einzelne Prozessschritte vs.gesamter Workflow

• Direkt vs. indirekt

• Basierend auf realen Nutzungsszenarien

Page 6: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Das PAGE Evaluierungsframework

6

Evaluation Tools

Image Repository

Evaluation Results

Compatibility through one common format

(PAGE)

Page 7: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Ground Truth

7

Page 8: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Tools zur Erstellung von Ground Truth

8

• Aletheia

• Seitenrand, Satzspiegel

• Regionen (inkl. Typ)

• Zeilen, Wörter und Glyphen

• Unicode text

• Lesefluss, Layer etc.

• FineReader Engine

Exporter (Preproduction)

• GT Validator

• GT Converter/Normaliser

���� http://www.primaresearch.org/tools

Page 9: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Layoutanalyse

9

Miss / Part. Miss

Split

Misclass-ification

Merge

False Detection

Fehlerkategorien Ground truth OCR

Page 10: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Lesefluss

10

Groundtruth

OCR

Page 11: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Textgenauigkeit

11

• Vergleich von Ground Truth und durch OCR erkanntem Text unter Berücksichtigung des Textencoding (ASCII, Unicode)

• Normalisierung

• Zeichengenauigkeit

• Distance measure: Minimale Anzahl von Edits (insertions, deletions, substitutions)

• Für alle Klassen von Zeichen (lower case, upper case, whitespace characters, numbers, symbols)

• Wortgenauigkeit

• Korrekt erkannte Wörter vs. Gesamtanzahl Wörter

• Bag of words (index, ranking)

• Stop words und non-stop words (“und”, “in”, etc.)

• Rejected and suspicious characters/words

• Substitutionsfehler (höher gewichtet)

• OCR confidence ≠ accuracy

“OCR is cool” � “OOR is cod”

Page 12: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Was tun mit den Ergebnissen?

12

• Kriterien

• Min. Anforderungen erfüllt?

• Anzahl und Klassen von Fehlern

• Szenarien

• Anwendung / Kontext

• Gewichtung von Fehlern

Miss

Misclass.

Merge

Split

False detect.

Merge Rate

M1M2

M3

Split Rate

S1 S2

...

Error Rate

• Gesamtergebnis / Aggregation

• gewichtete Einzelergebnisse

• Typ und Umfang der falschenRegionen

• Erlaubte vs. nicht-erlaubte Fehler

Page 13: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13

Zusammenfassung und Ausblick

• Gute und gründliche Evaluierung kostet Zeit und Geld… • Festlegen der Qualitätsanforderungen (in Abhängigkeit von Nutzungsszenarien)

• Erstellen von Ground Truth (hoher manueller Aufwand)

• Durchführen der Evaluierung

• Interpretation der Ergebnisse

• …aber nur auf diesem Weg lassen sich wirklich verlässliche Aussagen zur Qualität der Layout- und Textgenauigkeit treffen!

• Das IMPACT Centre of Competence kann Ihnen dabei helfen: www.digitisation.eu

Page 14: Europeana Newspapers German Infoday Quality Assessment

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14

Weiterführende Informationen

� PRImA

www.primaresearch.org

� Europeana Newspapers

www.europeana-newspapers.eu

Page 15: Europeana Newspapers German Infoday Quality Assessment

Danke für die Aufmerksamkeit!

Noch Fragen ?

[email protected]