BSB Demo Day - Zechmeister - OCR-Software

Preview:

DESCRIPTION

 

Citation preview

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11.10.2011 DemoDay BSB

OCR-Software für historische Dokumente Gerd Zechmeister (Österr. Nationalbibliothek)

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3

Was ist OCR?Optische Zeichenerkennung ist die mechanische oder elektronischeÜbersetzung von - üblicherweise von einem Scanner erfassten - Abbildern von hand- oder maschingeschriebenem bzw. gedrucktem Text in maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Warum OCR?

� Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von

Dokumenten in Suchsystemen

� Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)

� Schriftart-Erkennung

� „Trainieren“ von OCR Software

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5

OCR Verarbeitungsschritte

� Bildvorverarbeitung

– Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitungfür die OCR (Binarisierung)

� integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen

� Layout-Analyse und Segmentierung

– Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)

� Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden

� Mustererkennung

– Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster)

– Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

IMPACT & ABBYY

� ABBYY ist der OCR-Technologie-Lieferant für IMPACT

� Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)

� ABBYY verbessert Features im Rahmen von IMPACT, darunter:

– Bildvorverarbeitung

– Zeichenerkennung

– Segmentierung

� werden in zukünftige Produkte integriert

� IMPACT ermöglicht Forschung, liefert kein Produktivsystem

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Binarisierung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Adaptive Binarisierung

Original-Scan

alteBinarisierung

neueBinarisierung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Binarisierung

9

� Original � Stand der Technik � IMPACT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Segmentierung

Blöcke/Regionen Worte Glyphen/Zeichen

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Segmentierung: Beispiel 1Pre-IMPACT FR Engine 9 FR Engine 10

Ein Teil wurde fälschlicherweise als Grafikblock interpretiert

11111111

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Segmentierung: Beispiel 2

Fehler in der Zuordnung von Elementen wurden behoben

12121212

Pre-IMPACT FR Engine 9 FR Engine 10

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT Segmentierung: Beispiel 3Pre-IMPACT FR Engine 9 FR Engine 10

In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert

13131313

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Fraktur-Erkennung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Sprachen und Wörterbücher� Ziel: Schnittstelle zur Integration externer Wörterbüc her in die

Engine� 2008 - 2009:

• Betaversion der Schnittstelle• Selbe Prozessqualität möglich wie mit internen Wörterbüchern

15151515

� 2010 - 2011:• Schnittstelle “stabilisieren” (weitere

Funktionstests notwendig)• Partner einschulen wie die Schnittstelle

zu benutzen ist• Unterstützung für alle verfügbaren

Sprachen und Zeiträume

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16

Eigennamenerkennung

� Erkennen von Personen, Orten und Körperschaften in Volltexten

� Arbeitsschritte

1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,

Konvertierung von Normdateien in geeignete Formate)

2. Indexieren von Volltexten

3. Suchschnittstelle generieren

� IMPACT Retrieval Demonstrator

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

ALTO: neues natives Exportformat

� Verfügbar seit FineReader Engine 10 R2

� Unterstützt aktuelles Schema: ALTO v. 2.0

� Koordinaten auf Linienebene verfügbar

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18

Ergebnisvergleich

� Prozess 1

1. Geometrische Korrektur

2. Rahmenentfernung

3. ABBYY FineReader 10 Binarisation Service

4. ABBYY FineReader 10 OCR Service

� Prozess 2

1. ABBYY FineReader 10 OCR Service

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19

� Prozess 1 (Bildvorverarbeitung + FR 9)

� Prozess 2 (FR 9)

11.10.2011 DemoDay BSB

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20

Vielen Dank … Fragen?

Recommended