22
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011 OCR Adaptativo – CONCERT

OCR Adaptativo - Concert. Isabel Bordes Cabrera

Embed Size (px)

Citation preview

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

OCR Adaptativo – CONCERT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

Esquema del proceso OCR

CONVERSIÓN

DE FICHEROS

CORRECCIONES

GEOMÉTRICAS/ELIM.

MÁRGENES

“BINARIZACIÓN” OCRPOST-PROCESO

+EVALUACIÓN

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3

Ante los múltiples retos de IMPACT tiene una visiónintegradora de varias soluciones:OCR ADAPTATIVO

MEJORA en el reconocimiento del texto …¿cómo?• Adaptabilidad (sistema que aprende)• Integración de diversas herramientas IMPACT

• Kit herramientas preprocesamiento imagen• Motor OCR Omni-font de ABBY FineReader• Módulo postcorrección• Recursos léxicos

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Algunos de los componentes de OCR adaptativoMotor de agrupación de caracteres (grupos con variaciones similares)

Creación de un “super-símbolo”

Filtración de segmentaciones no relevantes

Corrección de curvatura de papel y la página

Valoración de diferencias mínimas

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5

“Crowd sourcing”

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

Visión de IMPACT:

Nuevo paradigma de la digitalización

Participación del público esfuerzos de digitalización a gran escala.

Herramientas avanzadas vayan más allá sistemas actuales (sistemaaprende = optimización del feedback recibido)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

Proyecto Gutenberg (1ª generación)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8

www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf

Biblioteca Nacional de Australia (2ª)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9http://www.digitalkoot.fi/en/splash

Biblioteca Nacional de Finlandia

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10

CORRECCIÓN EN COLABORACIÓN - ¿cómo funciona? Sistemas de corrección basados en web

– No hay instalaciones en la parte cliente– Intituitivo para permitir uso público en general

Participación mediante petición (opcional)– Sitio web de la biblioteca– En función de colecciones

Voluntarios interesados en contribuir a la preservación del patrimonio cultural– Listas con los colaboradores destacados– Premios de reconocimiento de la biblioteca

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11

SISTEMAS ACTUALESSimplemente se muestra imagen y resultados de OCR a corregir,

Inconvenientes: – Proceso lento y poco productivo– Dos revisiones que garanticen la calidad

Resultados:

mucho trabajo manualcontribución limitada y puntual

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12

CONCERT (Cooperative Engine for Correction of Extracted Text)

Plataforma de corrección en colaboración adaptativa– Aprovecha feedback para mejorar la productividad– Conexión con el OCR adaptativo

Énfasis en herramientas de productividad– Reducir el tiempo para la verificación/corrección

Patented smart-key approach– Motivar a los voluntarios

Separación del proceso de introducción de datos en varias tareas complementarias– Aplicación optimizada para cada tarea– Tareas y subtareas– Posibilitar el procesamiento en paralelo

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13

Arquitectura del sistemaLogin seguroCarga de libros como archivos de imágenes o mediante URLOmni-OCR con selección de idiomaDescarga de metadatos de OCR compilados antes y depués de la introducción

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

14

Flujo de trabajo del sistema:Tres sesiones en las que el usuario sólo aquello que el OCR ha marcado como

sospechoso:

A nivel de carácter – para validación rápida de resultados OCR

• A nivel de palabra – (información contextual para validar caracteres)

• A nivel de página – (página completa para interpretar resultados)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15

Sesión a nivel de carácter (character session)– Resultados con nivel de confianza elevado no precisan verificación– Sin embargo, algunos niveles elevados de confianza pueden corresponderse

con errores de reconocimiento– Se extraen imágenes de caracteres individuales y se agrupan en función de

los resultados de reconocimiento– Usuario aprueba, rechaza o señala como sospechosos caracteres ofrecidos

por el sw

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16

Sesión a nivel de palabra (word session)Muestra palabras que contienen caracteres con un nivel de confianza bajoMuestra palabras que contienen caracteres señalados como sospechososMuestra el reconocimiento de OCR original con sugerencias (diccionarios)Los usuarios validan/corrigen la ortografía

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17

Sesión a nivel de página (page session)Principalmente cuando un fallo en la segmentación ha llevado a un mal reconocimiento o ausencia de reconocimientoLa segmentación puede verse de distintas formas: palabra, línea, párrafo, etiquetado…Puede automatizarse el paso de una palabra problemática a la siguienteSólo aquí se ve la corrección del OCR

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18

Demostración del sistemahttp://fue.onb.ac.at/impact/gwsw/vid/EE1_showcase.html

Simulación creada por Gerd Zechmeister (Biblioteca Nacional de Austria, ONB)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19

ESCENARIOS POSIBLES DE INCORPORACIÓNComo parte de la

digitalizaciónUna vez la colección está

disponible MIXTA

+ - + - + -Refuerzo

CONCERT y motor OCR

Variación acuerdos

proveedores

No adaptación WF

Grandes grupos usuarios-formación

ReindexaciónOCR mejorado no

necesarioModificación WF

Corrección de colecciones nuevas y ya disponibles

re-OCR y reindexación(cada nueva corrección)

Corrección limitada en el tº No límite de tº

ALTOs con suficiente detalle

para sesión carácter

OCR retrospectivo ¿?

Integración plataforma web

Implicación usuarios/expertos

monitorizable

COMBINACIÓN COMBINACIÓN

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20

PRUEBAS PILOTOKoninklijke Bibliotheek, British Library, Bavarian State Library (Marzo-Mayo 2011)Observaciones generales:

– Muchas posibilidades– Sencillez, rapidez– Formación, usuarios expertos/comunidad global– Contexto social de apoyo entre colaboradores, My Concert Page; Progreso…

BSB, Pilot (mayo 2011)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

21

Futuro CONCERT Lista mejores colaboradoresIntegración con sitios webs externos, con otros sistemasSmartphonesEdición e-books.

…. Y MUCHO MÁS

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

22

GRACIAS POR SU ATENCIÓNIsabel Bordes Cabrera

Jefe de Servicio de Biblioteca Digital, [email protected]