34
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. PROCESAMIENTO PREVIO DE LA IMAGEN SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

Procesamiento previo de la imagen. Isabel Bordes Cabrera

Embed Size (px)

Citation preview

Page 1: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

PROCESAMIENTO PREVIO DE LA IMAGENSESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

Page 2: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimiento Óptico de Caracteres (OCR)

Motores disponibles:

ABBYY FineReader EngineIBM Adaptative OCRTesseract …

Segmentar el texto en las divisiones más sencillas (letras, caracteres)

Facilitar el análisis por la máquina.

Se identifica el carácter y se comprueban sus características o propiedades con una BD interna hasta que encuentra con la que mejor “encaja”

texto editable a partir de una imagen.

Page 3: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Retos OCR: páginas dañadas, alabeadas, tintas traspasadas, maquetación compleja, fuentes históricas…etc.

Page 4: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Características comunes de las imágenes digitales …

Page 5: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

… y sus efectos en el OCR

Page 6: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimientos erróneos: ¿internet inventado en el XVIII?

Page 7: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Esquema del proceso OCR

CONVERSIÓN

DE FICHEROS

CORRECCIONES

GEOMÉTRICAS/ELIM.

MÁRGENES

“BINARIZACIÓN” OCRPOST-PROCESO

+EVALUACIÓN

DEMO TOOLWF TAVERNA WEB IMPACT

Page 8: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Datos en el formato adecuado para cada aplicación

Módulos disponibles:

GIMP , ImageMagickimpact_gimp_tif_to_png_conversion_202058.t2flow

OpenJPEGXML

Basic IMPACT Abbyy FRE 9 PAGE Exporterbasic_impact_abbyy_fre_9_page_xml_creator_392392.t2flow

Conversión

Ir

Page 9: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Correcciones geométricas/Elim. márgenes¿Porqué?

rotadas, márgenes no deseados, ‘curvas’, páginas alabeadas …

Page 10: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

A.-Correcciones geométricas

Basic IMPACT NCSR Geometric Correction Page Curl V3

Módulos disponibles:

ABBYY FineReader Engine

NCSR Geometric Correction “Page Curl”

TAVERNA: basic_impact_ncsr_geometric_correction_page_curl_550389.t2flow

OCRopus Deskewing

Page 11: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 12: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 13: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 14: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

14Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Basic IMPACT NCSR BorderRemoval

B.- Eliminación de márgenes

Page 15: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 16: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 17: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

‘Binarización’ de imágenes¿Porqué?

Tinta de una cara ha traspasado a la otra caraSombras de la otra cara de la hoja

Módulos disponibles:

ABBYY FineReader EngineTAVERNA: basic_abbyy_fre_10_binarisation_936808.t2flow

OCRopus

Page 18: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 19: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 20: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Page 21: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

21Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

Page 22: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

22Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

Page 23: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

23Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

WFs en TAVERNA

Page 24: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

24Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

PÁGINA WEB IMPACT

Page 25: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

25Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

NCRS Image Enhancement Toolkit(H-DocPro v.1)

Page 26: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

26Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesBinarización

NCSR: Basado en "B. Gatos, I. Pratikakis and S. J. Perantonis, Adaptive Degraded Document Image Binarization, Pattern Recognition, Vol. 39, pp. 317-327, 2006"

FR8.1: FineReader Engine v. 8.1. IMPORTANTE: (a) Motor previamente instalado. (b) Añadir código de licencia de FineReader

Page 27: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

27Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesEliminación de bordes

Auto: Basado en perfiles de proyección y análisis de componentes.

Auto_Edit: Ajuste manual mediante el arrastrede puntos activos de un rectángulodelimitador.

Page 28: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

28Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

22.383 imágenes de prueba

BL: 7% BNE: 34%BNF: 34% BSB: 11%JSI: 6% NLB: 2%ONB: 6%

Sólo imágenes con bordes

38.718 imágenes de

prueba

BL: 9% BNE: 29%BNF: 32% BSB: 12%JSI: 11% NLB: 2%ONB: 5%

Componentes para el procesamiento de imágenesEliminación de bordes

Page 29: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

29Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, T. Georgiou, Page frame detection for double page document images, 9th IAPR International Workshop on Document Analysis Systems (DAS 2010), pp. 401-408, Cambridge, MA, USA, June 2010"

Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.

Componentes para el procesamiento de imágenesIndividualización de páginas

Page 30: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

30Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

458 imágenes de la BNF

3.009 imágenes

BL: 72% BSB: 10%JSI: 18%

Componentes para el procesamiento de imágenesIndividualización de páginas

Page 31: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

31Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, Goal-oriented Rectification of Camera-Based Document Images, IEEE Transactions on Image Processing, vol. 20, no. 4, pp. 910-920, 2011." IMPORTANT NOTICES: (a) It needs the MATLAB Component Runtime Installer, (b) it can be applied only to single column documents.

Auto_Edit: Corrección manual de líneas/curvas que delimitan el texto arrastrando los puntos activos de un rectángulo delimitador

Componentes para el procesamiento de imágenesCorrección de curvatura

Page 32: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

32Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

87,78% Corrección curvatura IMPACT v.4(81,98% sólo corrección en bruto)

BookRestorer

80,87%

Componentes para el procesamiento de imágenesCorrección de curvatura

Page 33: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

33Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

REFERENCIAS

VALOR DWN. Stamatopoulos, B. Gatos and I. Pratikakis, “A Methodology for Document Image

Dewarping Techniques Performance Evaluation”, 10th International Conference onDocument Analysis and Recognition (ICDAR’09), pp. 956-960, Barcelona, Spain, July, 2009.

METODOLOGÍA DE CORRECCIÓN DE CURVATURA (2 PASOS)N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, “Goal-oriented

Rectification of Camera-Based Document Images”, IEEE Transactions on ImageProcessing, Vol. 20, Nº4, pp. 910-920, 2011.

Componentes para el procesamiento de imágenesCorrección de curvatura

Page 34: Procesamiento previo de la imagen. Isabel Bordes Cabrera

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

34Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

GRACIAS POR SU ATENCIÓN

Isabel Bordes CabreraJefe de Servicio de Biblioteca Digital, BNE

[email protected]