OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

OCR – Herausforderungen und Werkzeuge auf dem Weg vom

Bild zur Digitalen Edition

Clemens NeudeckerStaatsbibliothek zu Berlin –

Preußischer Kulturbesitz@cneudecker

https://twitter.com/cneudecker

OCR

• OCR = Optical Character Recognition

zu Deutsch: Texterkennung/Zeichenerkennung

• Ziel: Umwandlung von Bilddateien in elektronischen Text durchsuchbar & editierbar

• ≠ Handschriftenerkennung (HTR),Spracherkennung (ASR)

Kurze Geschichte der OCR

• 1913: Edmund Fournier d'Albe entwickelt das Optophone zur Umwandlung von Text in Tonsignale

• 1974: Ray Kurzweil produziert die Kurzweil Reading Machine mit dem Ziel Blinden das Lesen zu ermöglichen

• 1980er: Erste kommerzielle OCR Anwendungen entstehen, darunter OmniPage, Abbyy und Tesseract (HP)

http://en.wikisource.org/wiki/1922_Encyclop%C3%A6dia_Britannica/Optophone

http://en.wikipedia.org/wiki/Ray_Kurzweil

Verarbeitungsschritte bei der OCR

• Binarisierung = Umwandlung von Graustufen/Farbbildern in Schwarz-Weiß

• Segmentierung = Aufteilung der Seite in Grafikelemente, Text, Spalten etc.

• Texterkennung = Erkennung von Zeichen und Wörtern

• Enkodierung = Formatierung des Text (sowie Layoutinformationen) für die Ausgabe

Binarisierung

Abbildungen: Bayerische Staatsbibliothek

Adaptive Binarisierung

• Text bleibt erhalten, Rauschen wird entfernt

Abbildungen: ABBYY

Segmentierung

Abbildungen: Primaresearch, University of Salford

Segmentierung

• Mehrstufiges Verfahren

1) Erkennung von Layout (Spalten, Grafiken, Tabellen etc.)

2) Erkennung von Textregionen

3) Erkennung von Zeilen

4) Erkennung von Wörtern

5) Erkennung von Glyphen (Buchstaben, Satzzeichen etc.)

Layout Erkennung

• Schwierigkeiten:

– Überschriften und Initialen

– Grafiken und Illustrationen

– Tabellen

– Bilder mit komplexen Umrissen (Polygone)

Abbildung: Primaresearch, University of Salford

Layout Erkennung

• Sonderfall Zeitungen:

– Mehrspaltig

– Artikel

– Grafiken

– Werbung

• Europeana Newspapers

Abbildung: Staatsbibliothek zu Berlin

http://www.europeana-newspapers.eu/

Segementierung von Zeilen


– Linien sind nicht gerade

– Linien werden miteinander verbunden

– Spalten

Abbildungen: Primaresearch, University of Salford / NCSR Demokritos

Segmentierung von Wörtern


– Zusammengesetzte Wörter

– Zeilenumbrüche

– „Catch words“

Abbildung: NCSR Demokritos

Segmentierung von Glyphen


– Fraktur, Fraktur, Fraktur(es gibt über 3,000 verschiedene Varianten)

– Sonderzeichen, Satzzeichen

– Ligaturen

Abbildung: NCSR Demokritos

Segmentierung von Glyphen

Abbildungen: NCSR Demokritos

Texterkennung

Raster classifier Contour classifier

Feature differentiating classifier Structure classifier

Abbildungen: ABBYY

Enkodierung

Abbildung: Wikipedia

Ein paar gängige OCR Formate

• ALTO

• FineReader XML

• hOCR

• TEI

I XML

ALTO

• Analyzed Layout and Text Object

• Ursprünglich entwickelt im EU-Projekt metaE

• Viele Jahre durch CCS/Hamburg betreut, nun ein Standard der Library of Congress

• http://www.loc.gov/standards/alto/

• https://github.com/altoxml

http://www.loc.gov/standards/alto/

https://github.com/altoxml

FineReader XML

• XML-Ausgabeformat von ABBYY Produkten

• Hohe Granularität der Auszeichnung

• Für Geisteswissenschaftler nicht einfach zu handhaben Tools zur Transformation in andere Formate spärlich

• http://www.abbyy-developers.eu/en:tech:features:xml

http://www.abbyy-developers.eu/en:tech:features:xml

hOCR

• HTML/XHTML Kodierung von OCR Ergebnissen

• Entwickelt von Thomas Breuel (DFKI)

• Standardformat von Tesseract, OCRopus

• Spezifikation

• https://github.com/tmbdev/hocr-tools

https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview

https://github.com/tmbdev/hocr-tools

TEI

• Text Encoding Initiative

• Entwickelt für digitale Editionen

• Fokus auf inhaltliche Struktur Schwierigkeit vollständige Informationen aus der OCR in TEI zu überführen

• http://www.tei-c.org/index.xml

http://www.tei-c.org/index.xml

Eine vertraute Szene?

VVt Venetien den 1.Junij, Anno 1618.DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /sbnbe bele btr felbrr geiufttceert baer bnber eenigljejprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljenbifet Cbeiiupcen berbonbru befe

Abbildung: Koninklijke Bibliotheek

Wie geeignet ist das Original?

• Papier

• Schäden

• Schriftbild

• Layout

Gewelltes Papier


Risse

Abbildungen: British Library

Handschriftliche Anmerkungen


Komplexes Layout


Wie gut ist der Scan?

• Auflösung– 300 ppi vs. 600 ppi?

• Bildformat/Komprimierung

• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe

• Bildoptimierung

Scan Roboter

Es geht auch noch schneller…

Massendigitalisierung…

• http://theartofgooglebooks.tumblr.com/

http://theartofgooglebooks.tumblr.com/

Durchscheinen von Text


OCR & historische Dokumente

• Besonderheiten historischer Rechtschreibung

• Historische Varianten: Historisches Wörterbuch erforderlich

• „Langes s“ Problem

• Wie lassen sich historische Varianten von OCR Fehlern unterscheiden?(http://ocr.cis.uni-muenchen.de/)

theylteil eyeitht ,

http://ocr.cis.uni-muenchen.de/

OCR Projekte

• IMPACT – Improving Access to Texthttp://www.impact-project.eu/

• EU Projekt 2008 – 2012

• Entwicklung von Software, Datensets, Empfehlungen

http://www.impact-project.eu/

OCR Projekte

• Impact Center of Competencehttp://www.digitisation.eu/

• Internationales „Kompetenzzentrum“ für OCR

• Entwicklung von Standards, Services

http://www.digitisation.eu/

OCR Projekte

• eMOP – Early Modern OCR Projecthttp://emop.tamu.edu/

• Mellon Foundation gefördertes Projekt

• Open source tools, EEBO & ECCO

http://emop.tamu.edu/

Konferenzen

• ICDAR = International Conference on Document Analysis and Recognition

• 23 – 26 August 2015, Tunis, Tunesien

• http://2015.icdar.org/

http://2015.icdar.org/

Konferenzen

• DAS = Document Analysis Systems

• 11 – 14 April 2016, Santorini, Griechenland

• Website: coming soon!

Werkzeuge

• ABBYY FineReader

• Die kommerzielle Off-the-shelf Omnifont OCR

• http://ocrsdk.com/

• http://finereader.abbyy.com/

http://ocrsdk.com/

http://finereader.abbyy.com/

Werkzeuge

• Tesseract

• Ursprünglich entwickelt von Ray Smith (HP) in den 1980er Jahren, seit 2006 mit Funding von Google neu aufgelegt

• Unterstützung von Fraktur!

• https://code.google.com/p/tesseract-ocr/

https://code.google.com/p/tesseract-ocr/

Werkzeuge

• OCRopus / ocropy

• Entwickelt von Thomas Breuel (DFKI) seit 2007, seit Version 0.6 Re-design basierend auf aktueller Forschung zu neuronalen Netzen („recurrent neural networks“, RNN)

• https://github.com/tmbdev/ocropy

https://github.com/tmbdev/ocropy

Werkzeuge

• PRImA Labs (University of Salford, Manchester)

• Forschungsgruppe mit Fokus „Pattern Recognition“ und „Evaluation“

• Viele nützliche Tools, Referenzdatensets

• http://primaresearch.org/tools

http://primaresearch.org/tools

Werkzeuge

• ocrevalUAtion

• Entwickelt von der Universität Alicante –umfangreichstes und komfortabelstes Tool für die OCR Evaluation – und Open Source

• https://sites.google.com/site/textdigitisation/

• https://github.com/impactcentre/ocrevalUAtion

https://sites.google.com/site/textdigitisation/

https://github.com/impactcentre/ocrevalUAtion

Qualität der OCR

• Suspicious character rate

• Character-Error-Rate

• Word-Error-Rate

• Levenshtein Distanz

• Bag of words

Qualität der OCR

Qualität der Layouterkennung

• Analyse des Layouts

• Erkennung von Spalten

• Korrektes Labelling von Strukturelementen

• Reading Order der Absätze

Ground Truth

• Ground Truth =

„…the ideal result thatthe ultimate method(the method whosediscovery will signal thatthe problem is solved) isexpected to produce.“

http://www.youtube.com/watch?v=KtClte1WCvg

http://www.youtube.com/watch?v=KtClte1WCvg

Aletheia

• http://primaresearch.org/tools/Aletheia

http://primaresearch.org/tools/Aletheia

Qualität der OCR

• Ein paar typische Fehler:

rn mu n

b h

1 l

• Siehe dazu auch:http://usesofscale.com/gritty-details/basic-ocr-correction/

http://usesofscale.com/gritty-details/basic-ocr-correction/

Layout Evaluierung

Image

Caption

Page

Paragraph

Paragraph

Header


Layout Evaluierung

Paragraph

Header

Paragraph

ImageImage

Image


Layout EvaluierungPartial MissMiss

Merge

Ground Truth

Ergebnis der

Layoutanalyse

Paragraph

Caption

Misclassi-

fication

Split


Was kann man tun?

• Bsp. Trading Consequences

• http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf

http://tradingconsequences.blogs.edina.ac.uk/

http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf

Vielen Dank für die Aufmerksamkeit!

Clemens NeudeckerStaatsbibliothek zu Berlin –

Preußischer Kulturbesitz@cneudecker

https://twitter.com/cneudecker

Technology

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition