41
Prepoznavanje znakova iz dokumenata Povijesni razvoj OCR-a. Trenutna OCR tehnologija. Primjer korištenja OCR-a. 8. lipnja

opticko prepoznavanje znakova

Embed Size (px)

Citation preview

Page 1: opticko prepoznavanje znakova

Prepoznavanje znakova iz dokumenata

Povijesni razvoj OCR-a.

Trenutna OCR tehnologija.

Primjer korištenja OCR-a.

12. travnja 2023

Page 2: opticko prepoznavanje znakova

Optical Character Recognition

Sažetak

Software za optičko prepoznavanje znakova (Optical Character Recognition, OCR) skenira i prepoznaje tekst te ga zatim zapisuje u formatu pogodnom za za obradu dokumenata ili teksta (word procesora) u kojem se dalje može obrađivati.

Prikazan je povijesni razvoj OCR tehnologije te stavljen naglasak na prve komercijalne primjene.

Također je dan uvid na trenutno stanje OCR tehnologije s nekim najnovijim postignućima, poglavito Intelligent Character Recognition tehnologije.

OCR software postupak prepoznavanja radi na 3 glavna načina: prepoznavanje uzoraka (Pattern Matching), prepoznavanje posebnosti (Feature Extraction) i provjera pravopisa (Spell Checking).

Sadržaj1. UVOD..........................................................................................................................3

2. POVIJEST.....................................................................................................................4

2.1. Prvi komercijalni sustavi......................................................................................5

2.2. OCR-A, OCR-B......................................................................................................6

3. TRENUTNO STANJE OCR TEHNOLOGIJE........................................................................7

3.1. Intelligent Character Recognition (ICR)................................................................8

4. OCR U DRUGIM NAMJENAMA.......................................................................................9

4.1. Music OCR...........................................................................................................9

4.2. Magnetic Ink Character Recognition (MICR).......................................................14

4.3. Bar Code Reader................................................................................................16

4.4. Optical Mark Reader..........................................................................................17

5. OCR SOFTWARE........................................................................................................18

6. NAČIN RADA..............................................................................................................22

6.1. Prepoznavanje uzoraka (Pattern Matching).......................................................22

6.2. Prepoznavanje posebnosti (Feature Extraction).................................................22

6.3. Provjera pravopisa (Spelling Check)..................................................................23

6.4. Posebni simboli..................................................................................................23

6.5. Funkcionalni prikaz............................................................................................24

7. ZAKLJUČAK................................................................................................................30

8. Literatura..................................................................................................................31

2

Ovaj seminarski rad je izrađen u okviru predmeta „Podatkovni višemedijski prijenos i računalne mreže“ na Zavodu za elektroničke sustave i obradbu informacija, Fakulteta elektrotehnike i računarstva, Sveučilišta u Zagrebu.

Sadržaj ovog rada može se slobodno koristiti, umnožavati i distribuirati djelomično ili u cijelosti, uz uvjet da je uvijek naveden izvor dokumenta i autor, te da se time ne ostvaruje materijalna korist, a rezultirajuće djelo daje na korištenje pod istim ili sličnim ovakvim uvjetima.

Page 3: opticko prepoznavanje znakova

Optical Character Recognition

1. Uvod

Optičko prepoznavanje teksta (eng. OCR = Optical Character Recognition), je postupak mehaničkog ili elektroničkog prebacivanja rukom pisanog, strojno ispisanog ili tiskanog teksta koristeći skener u oblik koji računalo prepoznaje i može ga mijenjati.

OCR spada pod grupu istraživanja kao što je prepoznavanje uzoraka, umjetna inteligencija i strojni vid. Iako se OCR još uvijek razvija i pronalaze se novi smjerovi fokus se usmjerio na primjenu dokazanih tehnika. Optičko prepoznavanje znakova (koje koristi optičke metode poput ogledala i leća) i digitalno prepoznavanje znakova (koje koristi skenere i računalne algoritme) su u početku smatrani različitim poljima istraživanja. Zbog činjenice da je jako malo aplikacija koje su koristile istinske optičke tehnike preživjelo, termin OCR danas obuhvaća i tehnike digitalnog obrade slika.

Rane sustave je bilo potrebno naučiti (dati im poznati primjerak svakog od znakova) kako čitati pojedini font. Trenutno su dostupni "inteligentni" sustavi sa velikim stupnjem točnosti za veliku većinu fontova. Neki sustavi su sposobni reproducirati i aproksimirati format ulaznog skeniranog dokumenta koji se može sastojati od slika, stupaca i drugih netekstualnih dijelova. [2]

3

Page 4: opticko prepoznavanje znakova

Optical Character Recognition

2. Povijest

1929. Gustav Tauschek je patentirao OCR u Njemačkoj, a nakon njega je to isto napravio Handel u SAD-u 1933. 1935. Tauscheku je odobren patent za njegovu metodu i u SAD-u.

Tauschekov uređaj je bio mehanički stroj koji je koristio predloške. Fotodetektor je bio postavljen tako da kad su predložak i znak koji se trebalo prepoznati bili u točno određenom položaju te ih svjetlost obasjavala ništa svijetla ne bi dolazilo do fotodetektora.

1950. Frank Rowlett, koji je dešifrirao japanski PURPLE diplomatski

kod, je zamolio kripto analitičara Davida H. Sheparda (člana Armed Forces Security Agency, SAD) da u suradnji s dr. Louis Tordella da svoje prijedloge za automatiziranu obradu podataka. To je uključivalo i problem pretvorbe isprintanih poruka u strojni jezik za računalnu obradu. Shepard je zaključio da mora biti moguće napraviti takav stroj i uz pomoć prijatelja Harveya Cooka tijekom večeri i vikenda na svom tavanu napravio “Gismo”. To su objavile novine Washington Daily News 27. 4. 1951. i New York Times 26. 12. 1953. nakon što im je odobren patent U.S. Patent Number 2,663,758.

Shepard tada osniva Intelligent Machines Research Corporation (IMR) kompaniju, koja je zaslužna za razvoj prvih nekoliko komercijalnih OCR sustava općenito u svijetu.

Iako su i Gismo i prvi IMR sustavi koristili analizu slike, za razliku od uspoređivanja znakova, te su tolerirali varijaciju fontova, Gismo je bio ograničen na usko vertikalno prepoznavanje, dok su kasniji komercijalni modeli IMR skenera analizirali znakove bilo gdje u skeniranom polju što je zapravo nužnost za stvarne dokumente.

2.1. Prvi komercijalni sustavi

4

Page 5: opticko prepoznavanje znakova

Optical Character Recognition

Prvi komercijalni sustav je instaliran u Readers Digest 1955. Isti taj sustav je kasnije doniran Smithsonianu gdje je postavljen kao izložak. Drugi sustav su prodali Standard Oil Company iz Kalifornije koji se koristio za čitanje oznaka na kreditnim karticama. Velik broj sustava je naknadno prodan drugim naftnim kompanijama. Neki od ostalih korisnika IMR sustava kasnih 1950. su i Ohio Bell Telephone Company, Zrakoplovstvo SAD-a te IBM.

Tokom 1965. Readers Digest i RCA su zajednički proizveli OCR čitač

dokumenata koji je čitao serijske brojeve reklamnih kupona. Font koji se koristio na tim dokumentima je bio OCR-A font i printao ga je RCA Drum printer. Čitač je bio izravno spojen na RCA 301 računalo. Specijalizirani čitač dokumenata je zatim postavljen na TWA gdje je obrađivao zrakoplovne karte. Oba ova čitača su mogla obraditi i provjeriti 1500 dokumenata u minuti. U slučaju da neki nisu mogli obraditi, te su izbacili iz daljnje obrade. Ovaj tip čitača je dalje nastavio prodavati RCA u namjeni čitanja raznih računa

Od 1965. poštanska služba SAD-a koristi OCR uređaje temeljene na tehnologiji izumitelja Jacoba Rabinowa za sortiranje pošte. U Europi prvi OCR sustav je koristila Britanska pošta (British General Post Office, GPO), a 1965. se u istoj zemlji počeo koristiti i u bankovnom sustavu. OCR sustavi korišteni u pošti čitaju ime i adresu i zatim isprintaju određeni barkod ovisan o poštanskom kodu na kuvertu. Zatim se samo pisma sortiraju prema tom barkodu koji kako bi se izbjegle pogreške se ispisuje tintom koja je vidljiva pod ultraljubičastom svjetlošću.

1974. Ray Kurzweil osniva kompaniju Kurzweil Computer Products, Inc. i vodi razvoj prvog omni-font OCR sustava, tj. računalnog programa sposobnog prepoznati tekst isprintan u bilo kojem normalnom fontu. Namijenio je ovaj uređaj slijepima koji bi im omogućio čitanje dokumenata pomoću računala. Ovo je zahtijevalo izum još dvije tehnologije CCD skenera i text-to-speech (tekst-govor) sintetizatora. 13. 1. 1976. je predstavljen gotov proizvod koji je u potpunosti funkcionirao kako je i zamišljen.

1978. Kurzweil Computer Products su počeli sa prodajom komercijalne verzije OCR računalnog programa. LexisNexis je bio jedan od prvih kupaca koji je tu tehnologiju koristio za prijenos svojih pravnih i ostalih dokumenata u online bazu podataka. Dvije godine kasnije Kurzweil prodaje svoju kompaniju Xerox-u koji je izrazio interes za daljnji razvoj ove

5

Page 6: opticko prepoznavanje znakova

Optical Character Recognition

tehnologije te je tako Kurzweil Computer Products postao podružnica Xerox-a pod novim imenom Scansoft (danas Nuance).

2.2. OCR-A, OCR-B

U početcima računalnog OCR-a razvila se potreba za fontom koji će moći prepoznati tada spora računala, ali koji će biti čitljiv i ljudima. Kao rezultat tog kompromisa se pojavio OCR-A font koji se sastojao od jednostavnih, debelih poteza koji su tvorili prepoznatljive znakove.

1968. American Type Founders proizvodi OCR-A, jedan od prvih oblika znakova prilagođen za optičko prepoznavanje koji je zadovoljavao kriterije ureda za standarde SAD-a (eng. U.S. Bureau of Standards). Dizajn je tako jednostavan da ga je računalo moglo vrlo lako pročitati, tj. prepoznati, ali je nešto nezgodniji za čitanje ljudima. OCR-B je europski pandan tom fontu. Napravio ga je Adrian Frutiger iste godine. OCR-B font je lakši ljudima za čitanje od OCR-A fonta.[14] [15]

Postoje besplatne[12], ali i komercijalne[13] inačice ovih fontova koje prodaju različite kompanije. Iako je OCR tehnologija napredovala toliko da više nema potrebe za ovim specijaliziranim fontovima oni i dalje ostaju u upotrebi.

Slika 1 - Izgled OCR-A i OCR-B fontova.

3. Trenutno stanje OCR tehnologije

Točno prepoznavanje isprintane latinice se smatra uglavnom riješenim problemom. Tipičan postotak točnosti prepoznavanja

6

Page 7: opticko prepoznavanje znakova

Optical Character Recognition

prekoračuje 99% iako za određene aplikacije koje zahtijevaju još veću točnost je potrebna ljudska intervencija i pregled grešaka. Ostala područja, poput prepoznavanja rukopisa, kurziva i načina pisanja različitog od latinice (posebno onih sa vrlo velikim brojem znakova) su i dalje predmet aktivnog istraživanja.

Točnost ili preciznost može biti mjerena na nekoliko načina o kojima jako ovisi krajnji rezultat i postotak točnosti. Npr., bez korištenja rječnika za ispravljanje pogrešaka pri čitanju 1% pogreška (99% točnost) se moze pretvoriti u 5% pogrešku (95% točnost). OCR se ponekad krivo poistovjećuje sa on-line character recognition. OCR je tip off-line prepoznavanja znakova, gdje sustav prepoznaje fiksne i statičke oblike znakova, dok on-line prepoznavanje znakova prepoznaje dinamičke pokrete tokom pisanja rukom. On-line prepoznavanje znakova se ponekad naziva i dinamičko prepoznavanje znakova (dynamic character recognition), prepoznavanje znakova u realnom vremenu (real-time character recognition) i inteligentno prepoznavanje znakova (Intelligent Character Recognition, ICR).

Slika 2 - Umjetnička vizualizacija OCR softwarea.

3.1. Intelligent Character Recognition (ICR)

On-line sustavi za prepoznavanje rukom ispisanog teksta u realnom vremenu (DCR, ICR) su sve češći komercijalni proizvodi posljednjih godina. Primjeri takvih proizvoda su uređaji poput digitalnih osobnih asistenata koji koriste Palm OS. Apple Newton je bio pionir ovakvih uređaja. Algoritmi koji se koriste u ovakvim uređajima iskorištavaju činjenicu da su poredak,

7

Page 8: opticko prepoznavanje znakova

Optical Character Recognition

brzina i smjer pojedinih linija i segmenata poznati. Također korisnika se može naučiti da koristi samo određene oblike slova. Ove metode se ne mogu koristiti u software-u koji skenira papirnate dokumente tako da je točno prepoznavanje rukom pisanih dokumenata još uvijek otvoreni problem. Točnost je između 80% i 90% za uredne, čisto rukom ispisane znakove, ali takva točnost svejedno znači desetke grešaka po stranici što je veliko ograničenje za ovu tehnologiju i ograničava njenu primjenu.

Prepoznavanje kurziva je aktivno područje istraživanja s postotkom točnosti prepoznavanje još manjom od onog prepoznavanja rukom pisanog teksta. Viši postotak točnosti prepoznavanja kurziva vjerojatno neće biti moguć bez kontekstualnih ili gramatičkih informacija. Na primjer, prepoznavanje cijele riječi iz rječnika je lakše nego obraditi individualne znakove iz teksta. Poznavanje gramatike jezika u kojem je pisan tekst koji se skenira također može pomoći pri određivanju je li riječ u pitanju imenica ili glagol što omogućava veću točnost. Oblici individualnih znakova kurziva ne sadržavaju dovoljno informacija da bi se točno (više od 98%) prepoznao cijeli rukom pisani tekst u kurzivu.

Potrebno je shvatiti da je OCR osnovna tehnologija koja se koristi u

naprednim aplikacijama za skeniranje. Dakle, pojedino napredno tehnološko rješenje može biti temeljeno na osnovnoj OCR tehnologiji. No, zbog svojih posebnosti ga je moguće patentirati i time onemogućiti neovlašteno kopiranje.

Za kompleksnije probleme pri prepoznavanju koriste se inteligentni sustavi za prepoznavanje znakova poput neuronskih mreža.

4. OCR u drugim namjenama

Na MIT-u su se sredinom 1970. radila prva istraživanja prepoznavanja glazbenih oblika na papiru. Ulagan je trud u uklanjanje glazbenih linija kako bi ostali samo simboli za prepoznavanje i obradu. Prvi komercijalni program za skeniranje glazbenih nota, MIDISCAN, je izdan 1991. Trenutno postoji nekoliko proizvoda tog tipa. [4]

8

Page 9: opticko prepoznavanje znakova

Optical Character Recognition

Jedino područje u kojem točnost i brzina računalnog ulaza znakovnih informacija nadilazi sposobnosti ljudi je u području prepoznavanja znakova ispisanih magnetskom tintom gdje je jedna pogreška na svakih 20 do 30 tisuća provjera. 1950. Bank of America je bila prva banka koja je koristila OCR kako bi automatizirala obradu čekova koji su u sebi sadržavali takav tip znakova.

4.1. Music OCR

Za razliku od prepoznavanja teksta, gdje se riječi obrađuju jedna za drugom, glazbene oznake je potrebno obrađivati paralelno, zbog prisutnosti višestrukih glasova i drugih glazbenih oznaka. Ovdje bitnu ulogu igra razmak između nota, oznake za tempo i dinamiku te glazbene oznake.

Suvremeni glazbeni OCR softwareski paketi imaju preciznost koja prelazi 99% u slučaju čistog skena i ako su korištene standardne notacije. Pošto glazbene notacije koriste točke za staccato oznake ili da bi se produljilo trajanje note, artifakti kod skeniranja mogu dovesti do problema pri prepoznavanju.

PhotoScore Ultimate 5 je prvi programski paket koji je u mogućnosti prepoznavati rukom pisane note i druge glazbene oznake korištenjem 2 različita enginea za prepoznavanje. Oni koreliraju vlastite rezultate i tako postižu značajno poboljšanje preciznosti.

Popis Optical Music Recognition Software-a[3]:

9

Page 10: opticko prepoznavanje znakova

Optical Character Recognition

Ime Licenca Operacijski sustavi

Komentari

Musitek SmartScore Pro Komercijalna 399$ / 299$ (akademska

licenca)

Windows, Mac OS X Evolucija MIDISCAN programa.

PhotoScore Ultimate 5 Komercijalna 249$

Windows, Mac OS X Lagan za korištenje, sa jeftinom inačicom za

nezahtjevne.Vivaldi Scan Komercijalna

152$Windows, Mac OS Lagan za korištenje, brz,

99% preciznost. Dolazi s alatom za provjeru ritma.

Audiveris GNUbesplatan[5]

Windows, Mac OS, Linux, Solaris

Besplatan program pisan u JAVA-i. Potpuno funkcionalan, ali

ograničen na prepoznavanje tiskanih

notnih zapisa.Capella-Scan Komercijalna

199.95$Windows Vrlo brz program.

Lista Music OCR software-a.

OMR se može ugrubo prikazati u tri koraka. Npr. koristeći Vivaldi Scan[6] program:

Slika 3 - 1. korak skeniranje tiskanog notnog zapisa.

10

Page 11: opticko prepoznavanje znakova

Optical Character Recognition

Slika 4 - 2. korak otvoriti snimljenu sliku u Vivaldi Scan programu koji će zatim prepoznati notne zapise.

Slika 5 - 3. korak exportanje prepoznatog zapisa u neki od formata koji se mogu reproducirati ili obrađivati.

Sam algoritam se sastoji od sljedećih koraka[7]:

11

Page 12: opticko prepoznavanje znakova

Optical Character Recognition

Slika 6 - Skeniranje tiskanog notnog zapisa.

Slika 7 - Prepoznavanje i uklanjanje notnih linija.

Slika 8 - Prepoznavanje i uklanjanje teksta.

12

Page 13: opticko prepoznavanje znakova

Optical Character Recognition

Slika 9 - Identifikacija uobičajenih simbola korištenjem heuristike.

Slika 10 - Kompletno prepoznavanje simbola koristeći bazu otprije poznatih znakova.

Slika 11 - Semantičko prepoznavanje odnosa među simbolima i ispravljanje metrike.

13

Page 14: opticko prepoznavanje znakova

Optical Character Recognition

4.2. Magnetic Ink Character Recognition (MICR)

Prepoznavanje znakova pisanih magnetskom tintom (eng. MICR=Magnetic Ink Character Recognition) je tehnologija prepoznavanja znakova koju uglavnom koristi bankovna industrija pri obradi čekova. Proces je prvi put 1956. prikazan organizaciji American Bankers Association, a već je 1963. u SAD-u bio u masovnoj upotrebi. MICR je standardiziran kao ISO 1004.

Glavni MICR fontovi korišteni širom svijeta su E-13B i CMC-7. Gotovo svi čekovi koji se koriste u Indiji, SAD-u, Kanadi i Velikoj Britaniji na sebi sadrže MICR znakove pisane E-13B fontom. CMC-7 MICR font se uglavnom koristi u Europi, poglavito Francuskoj. [9]

Slika 12 - Primjer u MICR E13 fontu. Specijalni znakovi su redom: dash, transit, amount, on-us.

Slika 13 - CMC-7 font. U donjem redu se nalazi otisak. Specijalni znakovi su redom: internal, terminator, amount, routing i neiskorišteni znak. [8]

14

Page 15: opticko prepoznavanje znakova

Optical Character Recognition

MICR fontovi su jedinstvenog izgleda i printaju se magnetskom tintom ili tonerom koji obično sadržava željezni oksid. Pošto tinta kojom su znakovi isprintani u sebi sadrži čestice željeza ona se može magnetizirati te odatle naziv magnetska tinta. Znakovi su najprije magnetizirani u ravnini s papirom, a sjevernim magnetski pol se nalazi s desne strane svakog MICR znaka. Obično se čitaju pomoću MICR glave za čitanje koja je po svojoj prirodi vrlo slična glavi za čitanje klasičnih audio kazeta. Specifični oblik znakova osigurava da će svaki znak proizvesti jedinstveni zvučni oblik čime sustav za prepoznavanje znakova ima pouzdan rezultat pri prepoznavanju znakova.

Magnetsko printanje se koristi kako bi se znakovi mogli pouzdano iščitati čak ako se preko njih nešto ispiše.

Pogreške kod magnetskog skeniranja brojeva na dnu tipičnog čeka su manje nego kod sustava za optičko prepoznavanje.

Za dobro isprintane MICR znakove pogreške zbog neiščitavanja su manje od 1%, a pogreška zbog krivo iščitanog znaka je 1 za svakih 100 000 znakova.

1991. Advantage Laser Products su postali prva kompanija tonera koja je počela nuditi MICR toner za desktop laserske printere. Ovo je donijelo svojevrsnu revoluciju jer su se čekovi mogli printati na gotovo svakom laserskom printeru. [9]

Slika 14 - Primjer čeka sa vidljivim MICR znakovima na dnu. [10]

15

Page 16: opticko prepoznavanje znakova

Optical Character Recognition

4.3. Bar Code Reader

Barkod (eng. Bar Code) je sačinjen od vertikalnih linija i razmaka između njih. Niz linija i razmaka različitih širina predstavlja niz brojeva. Barkodovi se obično nalaze na pakiranjima. Barkod daje informacije o zemlji proizvodnje, imenu proizvođača i samom proizvodu.

Čitač barkoda koristi lasersku zraku da bi pročitao kod. Laserska zraka se pomiče preko barkoda gdje ju svijetlije linije reflektiraju, a tamnije upijaju. Čitač zatim pretvara uzorak odbijenog i upijenog laserskog svijetla u digitalni kod koji je jedinstven za taj proizvod.

Slika 15 - Prikaz barkoda i načina rada čitača barkoda.

Barkodovi su brza i pouzdana metoda unošenja podataka. Mogu se čitati čak i sa oblih površina ili ako su naopako. Sadrže i nadzor pogrešaka u obliku kontrolnog znaka. [11]

Slika 16 - Pisma na kuverti također imaju barkod radi lakše obrade.

4.4. Optical Mark Reader

16

Page 17: opticko prepoznavanje znakova

Optical Character Recognition

Čitač optičkih oznaka je sličan čitaču barkoda, ali koristi infracrveno svjetlo da bi skenirao oznake na otprije pripremljenim formularima kao što su testovi sa višestrukim izborom ili listićima lutrije.

Infracrveno svjetlo se ne odbija kad pređe preko oznake čija se pozicija zatim daje računalu. Software zatim povezuje položaj oznake sa pripadajućim informacijama ili podatcima na formularu

Ovo je vrlo brza i precizna metoda za unos velikih količina podataka uz pretpostavku da su oznake točno i čisto označene. [11]

Slika 17 - Jedna od namjena Optical Mark Recognitiona je prepoznavanje označenih brojeva na listićima lutrije.

5. OCR Software

17

Page 18: opticko prepoznavanje znakova

Optical Character Recognition

Ime Licenca Operacijski sustavi

Komentari

ExperVision TypeReader Komercijalna395$

Windows,Mac OS X,Unix,Linux,OS/2

Prema nekim testovima najbrži OCR software.

ABBYY FineReader OCR Komercijalna400$

Windows Za rad sa lokaliziranim verzijama potreban je addon s pripadajućim

jezikom.OmniPage Komercijalna

500$Windows, Mac OS Proizvod Nuance

Communications.Readiris Komercijalna

520$Windows, Mac OS Postoje edicije za Aziju i

Srednji Istok.Cvision Technologies PDF compressor and Maestro

Recognition Server

Komercijalna500$

Windows Brz, precizan, velikih kapaciteta.

Top Image Systems Komercijalna(N/A)

Windows Specijaliziraju za pravne dokumente.

CompuThink ViewWise Komercijalna8000$

Windows Sustav za upravljanje dokumentima.

CuneiForm Pro BSD129$

Windows Profesionalni sustav za tvrtke, podržava više

jezika, može prepoznati složene tekstualne i

oblike tablica.GOCR GPL Mnogi (OpenSource) U ranoj fazi razvoja.

Microsoft Office Document Imaging

Komercijalna(N/A)

Windows, Mac OC

Microsoft Office One Note 2007

Komercijalna(N/A)

Windows

Ocrad GPL Unix, OS/2Brainware Komercijalna

(N/A)Windows Obrada poslovnih i

profesionalnih dokumenata

HOCR GPL Linux Hebrejski OCRInstantOCR FreeWare Online Višejezični online sustav

za prepoznavanje.OCRopus Apache LinuxReadSoft Komercijalni

(N/A)Windows Specijaliziran za poslovne

dokumente.Scantron Cognition Pro Komercijalni

8550$Windows Za rad s lokaliziranim

sučeljima potreban je odgovarajući addon.

SimpleOCR FreeWare/Komercijalna300$-2500$

Windows Nudi besplatan program, ali naplaćuje source code.

OCR Terminal FreeWare Windows, Mac OS, Linux Web OCR usluga.

Tesseract Apache Windows, Mac OS, Linux, OS/2

Projekt koji razvija Google.

MoreData FreeWare Windows Mogućnost skeniranja jedne ili više slika te pretrage za riječima.

NewSoft Presto! OCR Komercijalna100$

Windows Provjera pravopisa, podrška za 52 jezika,

jednostavnost.FreeOCR FreeWare Windows Besplatan i jednostavan.

Popis OCR software-a.

ABBYY FineReader 9 Professional - FineReader Professional je vrlo precizan i lagan za korištenje OCR program koji u sebi sadržava dodatne mogućnosti poput OCR-a za digitalne kamere, inteligentno prepoznavanje izgleda dokumenata, poboljšavanje kvalitete slike, prepoznavanje barkoda i naredbeno linijsku integraciju. Njegova glavna

18

Page 19: opticko prepoznavanje znakova

Optical Character Recognition

značajka je očuvanje izgleda izvornog dokumenta što značajno ubrzava pretvorbu i oblikovanje.

IRIS ReadIRIS Pro 11 – Pristupačno rješenje za poslovne ali i kućne korisnike. ReadIRIS Pro nudi vrlo precizno OCR prepoznavanje za nisku cijenu. No bez obzira na nisku cijenu, svejedno nudi pregršt naprednih mogućnosti inače rezerviranih za mnogo skuplja profesionalna rješenja.

Nuance OmniPage Pro 16 - OmniPage je prema mnogima najbrža, najpreciznija i najsadržajnija OCR aplikacija. OmniPage 16 Professional sadrži jedinstvenu mogućnosti pretvaranja bilo kojeg tipa dokumenta u pretraživi PDF ili Word Doc format.No, OmniPage nema dostupnu demo verziju svoje aplikacije za download. Također ne pruža besplatnu tehničku podršku nakon prvog poziva. Sve ovo ipak nude konkurentska rješenja kompanija ABBYY i IRIS.

Presto! OCR Pro 4.0 - Presto! OCR ne samo da precizno prepoznaje dokumente on i očuva njihov izgled i izvorni oblik. Dakle sačuva izgled i pozicije kolumni, tablica i slika.

Moćna, ali iznenađujuće cjenovno pristupačna alternativa nekim poznatijim i skupljim OCR rješenjima. Čita i prepoznaje 52 jezika, oblikuje novi dokument prema izgledu starog, može skenirati i iz obojanih i tamnih podloga, podržava višestruku obradu dokumenata te profesionalne alate za analizu složenih izgleda dokumenata.

ExperVision TypeReader – Ovaj ExperVisionov software postoji u raznim inačicama predviđenim za osnovnu i profesionalnu upotrebu. Podržava skeniranje crno-bijelih i slika u boji, sadrži podršku za više jezika te podršku za PDF.

Osim ovih aplikacija postoje još neke poput Top Image Systems, CompuThink ViewWise, Brainware, ReadSoft i drugih koji su specijalizirani za brzu obradu poslovnih dokumenata u vrlo velikim količinama te svoju namjenu i nalazt u profesionalnim okruženjima poput banaka ili srednjih i velikih tvrtki. Kao takve ove aplikacije nisu zanimljive uobičajenom korisniku.

SimpleOCR – SimpleOCR je besplatna OCR aplikacija koja nudi prihvatljivu preciznost za one koji žele pretvoriti samo par stranica i ne mogu si priuštiti neki od komercijalnih softwarea.

Omogućava pretvorbu skeniranih slika u tekstualne datoteke ili Word dokumente. SimpleOCR nudi mogućnosti TWAIN skeniranja, ručnog određivanja zona sa slikama ili tekstom, nekoliko rječnika, interaktivno

19

Page 20: opticko prepoznavanje znakova

Optical Character Recognition

ispravljanje pogrešaka sa prijedlozima iz rječnika, izlazne datoteke u obliku običnog teksta ili RTF (MS Word) formatu.

Slika 18 - Izgled sučelja i prikaz rada SimpleOCR programa.

SimpleOCR nudi sve obično korištene OCR mogućnosti i usporedivu sposobnost prepoznavanja s komercijalnim alatima. SimpleOCR može biti jednako dobar kao i OmniPage Professional 16 ako si student ili netko kome jako rijetko zatreba pretvoriti tiskani dokument u digitalni oblik.

Softi FreeOCR – FreeOCR je besplatni OCR program za Windows platformu. Ovo je vrlo jednostavan i lak za korištenje program s jednostavnom instalacijskom procedurom. Ima podršku za višestrane tiff slike, fax dokumente i razne druge oblike kompresiranih slika. Jedini nedostatak ovog programa je njegova nemogućnost čitanja PDF dokumenata. Pošto neki PDF dokumenti imaju zaključanu mogućnost copy-paste teksta tada je od koristi OCR program.

20

Page 21: opticko prepoznavanje znakova

Optical Character Recognition

Slika 19 - Izgled sučelja i prikaz rada FreeOCR programa.

Free OCR je software otvorenog koda (eng. open source) te time freeware, odnosno besplatna aplikacija. Za razliku od nekih OCR aplikacija koje su besplatne samo za privatnu upotrebu, FreeOCR se može slobodno koristiti i u komercijalne svrhe. Besplatni OCR engine je distribuiran pod Apache v2.0 licencom što znači da će stalno imati potporu open source razvojne zajednice. [16]

6. Način rada

Software za optičko prepoznavanje znakova (Optical Character Recognition, OCR) skenira i prepoznaje tekst te ga zatim pretvara u datoteku word procesora za daljnju obradu.

21

Page 22: opticko prepoznavanje znakova

Optical Character Recognition

OCR software taj postupak čini na 3 glavna načina: prepoznavanje uzoraka (Pattern Matching), prepoznavanje posebnosti (Feature Extraction) i provjera pravopisa (Spell Checking). [1]

Najbolji programi za optičko prepoznavanje znakova koriste više od jedne ovdje navedenih metoda kako bi odredili o kojem se skeniranom znaku radi. Kombinirajući različite metode točnosti i preciznost drastično poraste.

6.1. Prepoznavanje uzoraka (Pattern Matching)

Većina tekstova je u Times, Courier ili Helvetica tipu fonta, veličine između 10 i 14 točaka. OCR programi koji koriste prepoznavanje uzoraka (Pattern Matching) imaju slike za svaki znak u svakom fontu i veličini. Uspoređujući snimljene slike koje dolaze sa OCR programom s onima skeniranih znakova program pokušava prepoznati slova. Očiti nedostatak ove metode je što je korisna samo za otprije poznate tipove i veličine fontova.

6.2. Prepoznavanje posebnosti (Feature Extraction)

Umjesto da uspoređuje otprije snimljene slike znakova s onima skeniranima ova metoda pokušava prepoznati slova tako što ih pokušava rastaviti na osnovne posebnosti ili sastavne dijelove koji se zatim uspoređuju s listom posebnosti ili sastavnih dijelova koji se nalaze u programskom kodu.

Na primjer slovo "a" je sačinjeno od kruga, linije na desnoj strani i luka na sredini. Taj luk nije obavezan sastavni dio slova. Dakle, ako skenirano slovo ima te "posebnosti" OCR program bi ga točno prepoznao kao slovo "a".

6.3. Provjera pravopisa (Spelling Check)

Ni jedan OCR software ne može prepoznati 100% skeniranih znakova. Neki OCR programi koriste usporedbu uzoraka (Pattern Matching) i/ili prepoznavanje posebnosti (Feature Extraction) kako bi prepoznali što je više moguće znakova. Nakon što je obavljeno početno prepoznavanje, neprepoznati znakovi često mogu biti određeni gledajući susjedne znakove. Na primjer, ako OCR program nije mogao prepoznati slovo “i” u

22

Page 23: opticko prepoznavanje znakova

Optical Character Recognition

riječi “nj~hovo” provjerom pravopisa program može utvrditi da je slovo koje nedostaje slovo “i”.

6.4. Posebni simboli

U upotrebi uglavnom u bankarstvu, svaki od sljedećih simbola nakon prepoznavanja nosi točno određeno značenje važno za posebne primjene. Za prepoznavanje ovakvih znakova je potrebno koristiti neke od navedenih profesionalnih ili specijaliziranih programa za poslovne dokumente.

Ime Slika

OCR Hook

OCR Chair

OCR Fork

OCR Inverted Fork

OCR Belt Buckle

OCR Bow Tie

OCR Branch Bank IdentificationOCR Amount of Check

OCR Customer Account NumberOCR Dash

OCR Double Backslash

Tablica sa posebnim OCR simbolima.

6.5. Funkcionalni prikaz

23

Page 24: opticko prepoznavanje znakova

Optical Character Recognition

Slika 20 - Procedura kod skeniranja dokumenta.

1. Aplikacija za obradu dokumenata (poput Microsoft Word-a) pozove TWAIN kompatibilnu aplikaciju kao što je npr. TextBridge. TWAIN je standardni softwareski protokol i sučelje za programiranje aplikacija (eng. Applications Programming Interface=API) koje nadzire komunikaciju između aplikacija i grafičkih uređaja poput skenera i digitalnih kamera. Prihvaćena je definicija akronima TWAIN kao "Technology Without An Interesting Name.", tj. tehnologija bez zanimljivog imena.[17]

2. Po potrebi se namještaju razne mogućnosti i postavke u OCR aplikaciji te se zatim poziva TWAIN modul.

3. TWAIN modul preuzima nadzor nad skenerom i omogučava korisniku odabir kvalitete i raznih načina skeniranja.

4. Nakon što je pokrenuto skeniranje, skener počme slati sliku TWAIN modulu.

5. TWAIN modul zatim šalje sliku OCR programu koji ga je u početku i pozvao. OCR program zatim koristi jednu ili više gore opisanih metoda kako bi pretvorio snimljenu sliku u znakove.

6. OCR program šalje prepoznate znakove programu za obradu dokumenta. Ako OCR program nije mogao prepoznati neki znak, on postavlja simbol ~ na mjesto neprepoznatog znaka. Ponekad OCR programi krivo prepoznaju znakove. Tome je gotovo uvijek uzrok loša kvaliteta izvornih dokumenata.

24

Page 25: opticko prepoznavanje znakova

Optical Character Recognition

Slika 21 - Loše postavljen dokument (lijevo) i ispravljeni (desno).

Ovdje je primjer loše postavljenog izvornog dokumenta za skeniranje. Samim time bi se dobila i loša kvaliteta OCR rezultata. Većina navedenih programa ima razne filtre i mogućnosti za ispravljanje ukoso postavljenog dokumenta te time popravlja rezultate i kvalitetu OCR rezultata. U ovom slučaju bi se koristio deskew filtar koji bi zarotirao loše postavljen dokument u dobru poziciju.

Slika 22 - Previše zatamnjen dokument (lijevo) i posvjetljen (desno).

Jedan od čestih problema je previše zatamnjena podloga dokumenta zbog čega dolazi do loših rezultata prepoznavanja. Za ispravljanje ovog problema također postoji prikladan filtar koji osvjetljuje pozadinu i tako poboljšava rezultate.

25

Page 26: opticko prepoznavanje znakova

Optical Character Recognition

Slika 23 - Problem sjene na rubovima skeniranog dokumenta.

Još jedan od tipičnih problema do kojeg dolazi kod nekih skeniranih dokumenata je pojava sjene na rubovima dokumenata. Relativno lako se rješavaja primjenom prikladnog filtra (Edge Shadow Removal Filter) koji pronalazi zatamnjena mjesta i posvjetljuje ih.

Slika 24 - Ispravljanje artefakata i problemi koji se mogu pojaviti.

Despeckle filtar uklanja tamne točkice i ostale nasumične artefakte sa pozadine koji se mogu pojaviti tokom skeniranja ako je dokument loše osvijetljen ili staklo skenera prljavo. Treba biti oprezan sa postavljanjem postavki ovog filtra jer prejako postavljen filtar može izbrisati, zamutiti i učiniti neprepoznatljivim dijelove slova jer ih ne može kvalitetno razlikovati od crnih točkica.

26

Page 27: opticko prepoznavanje znakova

Optical Character Recognition

Slika 25 - Originalna stranica iz rječnika koju će se skenirati.

Slika 26 - Nakon skeniranja su vidljive tipične pogreške. Krivo prepoznavanje točke i zareza, super i subscripta, rimskih brojeva, jedinica i malih slova l itd.

27

Page 28: opticko prepoznavanje znakova

Optical Character Recognition

Većina ovih problema se može ispraviti ili smanjiti ako se pobrine da je kvaliteta izvornog dokumenta dobra. Treba provjeriti je li papir zgužvan ili na neki drugi način oštećen. Ako je zgužvan, može pomoći ako ga se ispegla ili pritisne teškim predmetima. Bitno je i izbrisati, odnosno ukloniti mrlje s dokumenta.

Treba učiniti sken dokumenta najboljim što je to moguće. Ovdje je od ključne važnosti provjeriti je li staklo skenera i ostali dijelovi čisti i bez mrlja. Dokument treba biti ravno i precizno postavljen kako ne bi došlo do zakrivljene slike. Prilagodbom postavki za boje, kontrast i svjetlinu se može postići svijetla, odnosno bijela pozadina čime se rješava problem artefakata, odnosno crnih točkica na dokumentu. Bitno je da je tekst što tamniji i uočljiviji. Kvaliteta skena ovisi i o rezoluciji pri kojoj se skenira.

Slika 27 - Primjer Helvetica fonta koji OCR sustav lako prepoznaje.

Slika 28 - Primjer Times New Roman fonta koji OCR sustav lako prepoznaje.

Slika 29 - Primjer Courier fonta koji OCR sustav lako prepoznaje.

Preporuča se skeniranje rezolucijom od najmanje 300dpi, odnosno 300 točaka po inču.

Nekada je od pomoći podijeliti veliki dokument u više manjih dijelova te tako skenirati. Nekim starijim OCR programima slike, razne linije,

28

Page 29: opticko prepoznavanje znakova

Optical Character Recognition

kolumne teksta i ostalo formatiranje može predstavljati problem. Tada može pomoći podjela dokumenta na manje dijelove gdje se problematični dijelovi odvojeno skeniraju i prepoznaju. Ponekad je korisno problematične dijelove snimiti kao odvojenu sliku za daljnju obradu. Time se gubi toćan oblik dokumenta, ali se dobiju precizniji rezultati. Noviji OCR programi sve bolje prepoznaju ovakve problematične dijelove poput tablica ili kolumni teksta te sve bolje očuvaju izgled dokumenta.

No bez obzira na sve značajniji napredak, i dalje postoje fontovi i sustavi posebno prilagođeni da ih OCR sustav ne može prepoznati koji služe za razlikovanje automatiziranog unosa od onog čovjeka. Taj sustav se naziva CAPTCHA (eng. Completely Automated Public Turing test to tell Computers and Humans Apart), odnosno potpuno automatizirani test za razlikovanje računala i ljudi.[19]

Slika 30 - Pristup koji koristi grupiranje slova kako ih računalo ne bi moglo razlikovati.

Slika 31 - Umjesto da slova grupira ovaj sustav ih namjerno "oštećuje" linijom preko slova. Računalu je ovako oštećena slova vrlo teško prepoznati.

Slika 32 - Primjer distorzije slova i pozadine što onemogućuje automatsko prepoznavanje slova.

Ponekad je teško točno odrediti koje su postavke najbolje za neki problem te je tada najbolje eksperimentirati sa raznim mogućnostima dok se ne dobije najbolji rezultat.

Vrlo je bitno nakon skeniranja i prepoznavanja teksta još pročitati tekst. Bez obzira na preciznost pojedinog OCR programa svi su oni podložni pogreškama koje treba ispraviti ručno.

7. Zaključak

29

Page 30: opticko prepoznavanje znakova

Optical Character Recognition

Točno prepoznavanje isprintane latinice se smatra uglavnom riješenim problemom. Tipičan postotak točnosti, tj. preciznosti prepoznavanja prekoračuje 99%.

Postoje još problemi pri prepoznavanju rukom pisanog teksta u realnom vremenu te pogotovo onog pisanog kurzivom. S vremenom i kvalitetnim ulaganjem u razvoj će se vjerojatno i ti problemi savladati.

Već sada OCR tehnologija nalazi svoju krucijalnu primjenu u raznim velikim korporacijama gdje štedi novac i vrijeme pri obradi velikih količina specijaliziranih dokumenata, pravnih ili vezanih za bankarske poslove. Takva rješenja su vrlo skupa i pristupačna samo financijski likvidnim korporacijama kojima se takav ulog može isplatiti.

Za običnog, kućnog korisnika koji se povremeno koristi OCR tehnologijom pri sporadičnom skeniranju dokumenata postoje razna rješenja, od besplatnih pa do onih koji koštaju par stotina dolara.

Ako se potreba za OCR-om ne pokazuje vrlo često ili rijetko nema potrebe za ulaganjem i plaćanjem relativno skupih rješenja kada tu mogu dovoljno dobro zadovoljiti ona besplatna poput FreeOCR ili SimpleOCR programa.

Za male i srednje kompanije koje moraju obrađivati nešto veće količine dokumenata se preporučaju nešto skuplja, ali i moćnija rješenja poput ABBYY FineReader ili OmniPage.

Većina ovih komercijalnih rješenja nudi i podršku za prepoznavanje barkodova ili optičkih oznaka što ih čini sveobuhvatnim programima i proširuje raspon njihove moguće primjene.

U budućnosti će trend poboljšanja preciznosti, kvalitete, što samih programa što prepoznavanja, te integracije raznih dodatnih mogućnosti još više rasti.

Za očekivati je da će se uskoro i pojaviti vrlo kvalitetni sustavi koji će moći prepoznati rukopis, i kvalitetno automatski rješavati klasične probleme kod skeniranja i prepoznavanja o kojima je bilo govora.

8. Literatura

[1] Mustek, Inc. Understanding OCR. URL: http://www2.mustek.com/Class/ocrinfo.html

[2] Wikipedia. URL: http://en.wikipedia.org/wiki/Optical_character_recognition

30

Page 31: opticko prepoznavanje znakova

Optical Character Recognition

[3] Music-Notation. URL: http://www.music-notation.info/en/compmus/omr.html

[4] Wikipedia. URL: http://en.wikipedia.org/wiki/Music_OCR

[5] Audiveris. URL: https://audiveris.dev.java.net/

[6] Vivaldi Studio. URL: http://www.vivaldistudio.com/Eng/VivaldiScan.asp

[7] OMR using GAMERA. URL: http://dkc.jhu.edu/gamera/demo/

[8] MICR Encoding Fonts. URL: http://www.micrencodingfonts.com/

[9] Wikipedia. URL: http://en.wikipedia.org/wiki/Magnetic_Ink_Character_Recognition

[10] PAYstation MICR 5000. URL: http://www.evron.com/Accounting/PayStationMICR5000.asp

[11] Input Devices. URL: http://www.klbschool.org.uk/ict/gcse/theory/5_3/5_3_1_input.htm

[12] Free OCR-A Font. URL: http://ansuz.sooke.bc.ca/software/ocra.php

[13] Morovia Fontware. URL: http://www.morovia.com/font/ocr.asp

[14] Wikipedia. URL: http://en.wikipedia.org/wiki/OCR-A_font

[15] Typographic Abbreviations. URL: http://myfonts.wordpress.com/2006/09/18/typographic-abbreviations-series-1-ocr/

[16] GeckoAndFly. URL: http://www.geckoandfly.com/tag/ocr-sdk/

[17] Wikipedia. URL: http://en.wikipedia.org/wiki/TWAIN

[18] OCR Tips for Better Results. URL: http://desktoppub.about.com/cs/ocr/a/ocr.htm

[19] Wikipedia. URL: http://en.wikipedia.org/wiki/CAPTCHA

31