33
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. PROCESAMIENTO PREVIO DE LA IMAGEN SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

Bloque1 image enhancement_toolkit_051011

Embed Size (px)

Citation preview

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

PROCESAMIENTO PREVIO DE LA IMAGEN

SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimiento Óptico de Caracteres (OCR)

Módulos disponibles:

ABBYY FineReader Engine

IBM Adaptative OCR

Tesseract …

Segmentar el texto en las divisiones más sencillas (letras, caracteres)

Facilitar el análisis por la máquina.

Se identifica el carácter y se comprueban sus características o propiedades con una BD interna hasta que encuentra con la que mejor “encaja”

texto editable a partir de una imagen.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Retos OCR: páginas dañadas, alabeadas, tintas traspasadas, maquetación compleja, fuentes históricas…etc.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

C aracte r sticas com une s d e las im ge ne s d igitale s …í á

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

… y sus e fe ctos e n e l O C R

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimientos erróneos: ¿internet inventado en el XVIII?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Esquema del proceso OCR

CONVERSIÓN

DE FICHEROS

CORRECCIONES

GEOMÉTRICAS/ELIM.

MÁRGENES

“BINARIZACIÓN” OCRPOST-PROCESO

+EVALUACIÓN

DEMO TOOLWF TAVERNA WEB IMPACT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Datos en el formato adecuado para cada aplicación

Módulos disponibles:

GIMP , ImageMagick impact_gimp_tif_to_png_conversion_202058.t2flow

OpenJPEGXML

Basic IMPACT Abbyy FRE 9 PAGE Exporterbasic_impact_abbyy_fre_9_page_xml_creator_392392.t2flow

Conversión

Ir

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Correcciones geométricas/Elim. márgenes¿Porqué?

rotadas, márgenes no deseados, ‘curvas’, páginas alabeadas …

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

A.-Correcciones geométricas

Basic IMPACT NCSR Geometric Correction Page Curl V3

Módulos disponibles:

ABBYY FineReader Engine

NCSR Geometric Correction “Page Curl”

TAVERNA: basic_impact_ncsr_geometric_correction_page_curl_550389.t2flow

NCSR Border Removal

TAVERNA:

basic_impact_ncsr_border_removal_v4_603318.t2flow

OCRopus Deskewing

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

14Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Basic IMPACT NCSR BorderRemoval

B.- Eliminación de márgenes

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

‘Binarización’ de imágenes

¿Porqué?Tinta de una cara ha traspasado a la otra caraSombras de la otra cara de la hoja

Módulos disponibles:

ABBYY FineReader Engine TAVERNA: basic_abbyy_fre_10_binarisation_936808.t2flow

OCRopus

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

21Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

22Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

23Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

24Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

PÁGINA WEB IMPACT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

25Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

NCRS Image Enhancement Toolkit(H-DocPro v.1)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

26Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesBinarización

NCSR: Basado en "B. Gatos, I. Pratikakis and S. J. Perantonis, Adaptive Degraded Document Image Binarization, Pattern Recognition, Vol. 39, pp. 317-327, 2006"

FR8.1: FineReader Engine v. 8.1. IMPORTANTE: (a) Motor previamente instalado. (b) Añadir código de licencia de FineReader

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

27Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesEliminación de bordes

Auto: Basado en perfiles de proyección y análisis de componentes.

Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

28Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

22.383 imágenes de prueba

BL: 7% BNE: 34%BNF: 34% BSB: 11%JSI: 6% NLB: 2%ONB: 6%

Sólo imágenes con bordes

38.718 imágenes de

prueba

BL: 9% BNE: 29%BNF: 32% BSB: 12%JSI: 11% NLB: 2%ONB: 5%

Componentes para el procesamiento de imágenesEliminación de bordes

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

29Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, T. Georgiou, Page frame detection for double page document images, 9th IAPR International Workshop on Document Analysis Systems (DAS 2010), pp. 401-408, Cambridge, MA, USA, June 2010"

Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.

Componentes para el procesamiento de imágenesIndividualización de páginas

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

30Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

458 imágenes de la BNF

3.009 imágenes

BL: 72% BSB: 10% JSI: 18%

Componentes para el procesamiento de imágenesIndividualización de páginas

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

31Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, Goal-oriented Rectification of Camera-Based Document Images, IEEE Transactions on Image Processing, vol. 20, no. 4, pp. 910-920, 2011." IMPORTANT NOTICES: (a) It needs the MATLAB Component Runtime Installer, (b) it can be applied only to single column documents.

Auto_Edit: Corrección manual de líneas/curvas que delimitan el texto arrastrando los puntos activos de un rectángulo delimitador

Componentes para el procesamiento de imágenesCorrección de curvatura

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

32Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

87,78% Corrección curvatura IMPACT v.4(81,98% sólo corrección en bruto)

BookRestorer

80,87%

Componentes para el procesamiento de imágenesCorrección de curvatura

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

33Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

GRACIAS POR SU ATENCIÓN

Isabel Bordes CabreraJefe de Servicio de Biblioteca Digital, BNE

[email protected]