Upload
cneudecker
View
87
Download
0
Embed Size (px)
Citation preview
OCR – Herausforderungen und Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens NeudeckerStaatsbibliothek zu Berlin –
Preußischer Kulturbesitz@cneudecker
OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien in elektronischen Text durchsuchbar & editierbar
• ≠ Handschriftenerkennung (HTR),Spracherkennung (ASR)
Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das Optophone zur Umwandlung von Text in Tonsignale
• 1974: Ray Kurzweil produziert die Kurzweil Reading Machine mit dem Ziel Blinden das Lesen zu ermöglichen
• 1980er: Erste kommerzielle OCR Anwendungen entstehen, darunter OmniPage, Abbyy und Tesseract (HP)
Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von Graustufen/Farbbildern in Schwarz-Weiß
• Segmentierung = Aufteilung der Seite in Grafikelemente, Text, Spalten etc.
• Texterkennung = Erkennung von Zeichen und Wörtern
• Enkodierung = Formatierung des Text (sowie Layoutinformationen) für die Ausgabe
Segmentierung
• Mehrstufiges Verfahren
1) Erkennung von Layout (Spalten, Grafiken, Tabellen etc.)
2) Erkennung von Textregionen
3) Erkennung von Zeilen
4) Erkennung von Wörtern
5) Erkennung von Glyphen (Buchstaben, Satzzeichen etc.)
Layout Erkennung
• Schwierigkeiten:
– Überschriften und Initialen
– Grafiken und Illustrationen
– Tabellen
– Bilder mit komplexen Umrissen (Polygone)
Abbildung: Primaresearch, University of Salford
Layout Erkennung
• Sonderfall Zeitungen:
– Mehrspaltig
– Artikel
– Grafiken
– Werbung
• Europeana Newspapers
Abbildung: Staatsbibliothek zu Berlin
Segementierung von Zeilen
• Schwierigkeiten:
– Linien sind nicht gerade
– Linien werden miteinander verbunden
– Spalten
Abbildungen: Primaresearch, University of Salford / NCSR Demokritos
Segmentierung von Wörtern
• Schwierigkeiten:
– Zusammengesetzte Wörter
– Zeilenumbrüche
– „Catch words“
Abbildung: NCSR Demokritos
Segmentierung von Glyphen
• Schwierigkeiten:
– Fraktur, Fraktur, Fraktur(es gibt über 3,000 verschiedene Varianten)
– Sonderzeichen, Satzzeichen
– Ligaturen
Abbildung: NCSR Demokritos
Texterkennung
Raster classifier Contour classifier
Feature differentiating classifier Structure classifier
Abbildungen: ABBYY
ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betreut, nun ein Standard der Library of Congress
• http://www.loc.gov/standards/alto/
• https://github.com/altoxml
FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler nicht einfach zu handhaben Tools zur Transformation in andere Formate spärlich
• http://www.abbyy-developers.eu/en:tech:features:xml
hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRopus
• Spezifikation
• https://github.com/tmbdev/hocr-tools
TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur Schwierigkeit vollständige Informationen aus der OCR in TEI zu überführen
• http://www.tei-c.org/index.xml
Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /sbnbe bele btr felbrr geiufttceert baer bnber eenigljejprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljenbifet Cbeiiupcen berbonbru befe
Abbildung: Koninklijke Bibliotheek
Wie gut ist der Scan?
• Auflösung– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe
• Bildoptimierung
Massendigitalisierung…
• http://theartofgooglebooks.tumblr.com/
OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten: Historisches Wörterbuch erforderlich
• „Langes s“ Problem
• Wie lassen sich historische Varianten von OCR Fehlern unterscheiden?(http://ocr.cis.uni-muenchen.de/)
theylteil eyeitht ,
OCR Projekte
• IMPACT – Improving Access to Texthttp://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von Software, Datensets, Empfehlungen
OCR Projekte
• Impact Center of Competencehttp://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entwicklung von Standards, Services
OCR Projekte
• eMOP – Early Modern OCR Projecthttp://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source tools, EEBO & ECCO
Konferenzen
• ICDAR = International Conference on Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien
• http://2015.icdar.org/
Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!
Werkzeuge
• ABBYY FineReader
• Die kommerzielle Off-the-shelf Omnifont OCR
• http://ocrsdk.com/
• http://finereader.abbyy.com/
Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in den 1980er Jahren, seit 2006 mit Funding von Google neu aufgelegt
• Unterstützung von Fraktur!
• https://code.google.com/p/tesseract-ocr/
Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit 2007, seit Version 0.6 Re-design basierend auf aktueller Forschung zu neuronalen Netzen („recurrent neural networks“, RNN)
• https://github.com/tmbdev/ocropy
Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern Recognition“ und „Evaluation“
• Viele nützliche Tools, Referenzdatensets
• http://primaresearch.org/tools
Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –umfangreichstes und komfortabelstes Tool für die OCR Evaluation – und Open Source
• https://sites.google.com/site/textdigitisation/
• https://github.com/impactcentre/ocrevalUAtion
Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words
Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• Reading Order der Absätze
Ground Truth
• Ground Truth =
„…the ideal result thatthe ultimate method(the method whosediscovery will signal thatthe problem is solved) isexpected to produce.“
Qualität der OCR
• Ein paar typische Fehler:
rn mu n
b h
1 l
• Siehe dazu auch:http://usesofscale.com/gritty-details/basic-ocr-correction/
Layout Evaluierung
Image
Caption
Page
Paragraph
Paragraph
Header
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Paragraph
Header
Paragraph
ImageImage
Image
Abbildung: Primaresearch, University of Salford
Layout EvaluierungPartial MissMiss
Merge
Ground Truth
Ergebnis der
Layoutanalyse
Paragraph
Caption
Misclassi-
fication
Split
Abbildung: Primaresearch, University of Salford
Was kann man tun?
• Bsp. Trading Consequences
• http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf
Vielen Dank für die Aufmerksamkeit!
Clemens NeudeckerStaatsbibliothek zu Berlin –
Preußischer Kulturbesitz@cneudecker