Upload
mdz-bsb
View
1.389
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software –––––––– Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte
hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im
BibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeld
Markus PichlerMarkus PichlerMarkus PichlerMarkus PichlerProduct Marketing Manager
ABBYY Europe GmbH
Die ABBYY Gruppe
ABBYY ABBYY ABBYY ABBYY –––– das Unternehmen:das Unternehmen:das Unternehmen:das Unternehmen:
• > 800 Mitarbeiter weltweit
• > 400 Entwickler in der Zentrale
• Gegründet 1989 in Moskau, Russland
FFFFüüüührender Anbieter von:hrender Anbieter von:hrender Anbieter von:hrender Anbieter von:
• Software für Texterkennung und Dokumentenkonvertierung(OCR, ICR, OBR und OMR)
• Data Capture zur Formular- sowie Freiformerkennung zur Verarbeitung geschäftskritischer Dokumente (Rechnungen, Lieferscheine, Anträge etc.)
• Übersetzungs- sowie Sprachensoftware (Wörterbücher und Übersetzungsservices)
Serverbasierte OCR und Dokumenten-
Konvertierung
Hochskalierbare und automatisierte OCR-
Umwandlung für Volltextsuche und -erschließung
Läuft als Service und kann von allen Abteilungen
genutzt werden
Unterstützung für die Erkennung von historischen
Schriften und Fraktur
Was macht ABBYY Recognition Server?
Automatische, zentralisierte Verarbeitung� Automatisierte Server Software Automatisierte Server Software Automatisierte Server Software Automatisierte Server Software für OCR
sowie zur PDF Umwandlung
� Konvertiert gescannte Dokumente, Bilder und PDF in Dateien, die editiert, indexiert sowie durchsucht werden können.
� Wandelt gescannte Dokumente oder Bilder in durchsuchbare PDFs
� Zentrale Verarbeitung Zentrale Verarbeitung Zentrale Verarbeitung Zentrale Verarbeitung als Service
� Management und zentrale Administration
� Hohe Skalierbarkeit für hochvolumige Dokumentenverarbeitung
� Unterstützt: zeitgeplante und automatische OCR sowie Verarbeitung im Hintergrund
Automatisierte und zentrale Verarbeitung
Scanning
Station
Indexing
Station
Herausforderungen historischer Dokumente
� BildqualitBildqualitBildqualitBildqualitäääätttt
� Gewelltes Papier, verschachtelte Layouts, gebogene Textzeilen liefern mangelhafte Bildqualität
� LayouterkennungLayouterkennungLayouterkennungLayouterkennung
� Historische Bücher/Dokumente haben oft eine andere Layoutstruktur
� Algorithmen für die Erkennung von modernen Layouts nicht anwendbar auf alten Dokumenten
� Verwendete TypographieVerwendete TypographieVerwendete TypographieVerwendete Typographie
� Verwendung alter Schriftarten mit minderer Qualität der Buchstaben
� Unvollständige Zeichen
Bildqualität verbessern
Ausrichtung (De-Skew) & Begradigung
OriginabildOriginabild
ABBYY Binarisierung
ABBYY Binarisierung
Fehlerhafte Binarisierung
Fehlerhafte Binarisierung
Adaptive Binarisierung
Abschneiden (Crop)
• Layouterkennung durch Dokumentenanalyse
• Identifizierung der Struktur des Dokumentes
• Erkennen von Textblöcken, Tabellen, und Bildern
• Erkennen von vertikalem Text in Tabellen
• OCR-fähig vs. Bild
• ADRTADRTADRTADRT (AAAAdaptive DDDDocument RRRRecognition TTTTechnology)
Tablelle
Textblöcke
LayouterkennungBild
• Ergebnisse der Layout Analyse • Textblöcke
• Bildblöcke
• Tabellenblöcke
• Absätze
• Textlinien
• Buchstaben
• Manueller Eingriff möglich• Manuelle Korrektur von
Blöcken
• Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung (auch externe Wörterbücher)
• Erneute OCR Erkennung mit anderen Spracheinstellungen möglich
Verifizierung und Qualitätskontrolle
• BildvorverarbeitungBildvorverarbeitungBildvorverarbeitungBildvorverarbeitung• Adaptive Binarisierung
• Verbesserung der texturierten Hintergrunderkennung
• Verbesserungen der BildVerbesserungen der BildVerbesserungen der BildVerbesserungen der Bild---- sowie Texterkennungsowie Texterkennungsowie Texterkennungsowie Texterkennung• Verbesserte Erkennung von Gothic/Frakturschriften
• Anbindung externer Wörterbücher (individuelle manuell erstelle Wörterbücher)
• ADRT ADRT ADRT ADRT –––– Adaptive Document Recognition TechnologyAdaptive Document Recognition TechnologyAdaptive Document Recognition TechnologyAdaptive Document Recognition Technology• Erkennung von Inhaltsverzeichnissen
• Neue XML ExportformateNeue XML ExportformateNeue XML ExportformateNeue XML Exportformate• ALTO XML Support (Recognition Server 3.0. Release 8, Juli 2011)
• Unterstützung spezifischer Formate wie ePub zur Erzeugung elektronischer Bücher
ABBYY Optimierungen im IMPACT Projekt
Fragen?