27
Optical Character Optical Character Recognition ili OCR Recognition ili OCR Mr.sc. Nikolina Stanić Mr.sc. Nikolina Stanić Loknar Loknar Grafički fakultet Zagreb Grafički fakultet Zagreb

Optical Character Recognition ili OCR

  • Upload
    gwen

  • View
    83

  • Download
    3

Embed Size (px)

DESCRIPTION

Optical Character Recognition ili OCR. Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb. Optical Character Recognition ili OCR - PowerPoint PPT Presentation

Citation preview

Page 1: Optical Character Recognition ili OCR

Optical Character Optical Character Recognition ili OCRRecognition ili OCR

Mr.sc. Nikolina Stanić LoknarMr.sc. Nikolina Stanić Loknar

Grafički fakultet ZagrebGrafički fakultet Zagreb

Page 2: Optical Character Recognition ili OCR

►Optical Character Recognition ili OCROptical Character Recognition ili OCR

je tehnologija koja omogućuje je tehnologija koja omogućuje konvertiranje, prevođenje različitih konvertiranje, prevođenje različitih tipova slikovnih dokumenata u tipova slikovnih dokumenata u formate kojima može manipulirati formate kojima može manipulirati računalo (to su npr. ASCII ili UNICODE računalo (to su npr. ASCII ili UNICODE kodovi) kodovi)

Page 3: Optical Character Recognition ili OCR

►Skenirane slike, PDF dokumente ili slike Skenirane slike, PDF dokumente ili slike ubačene u računalo pomoću digitalne ubačene u računalo pomoću digitalne kamere OCR tehnologija prepoznaje i kamere OCR tehnologija prepoznaje i prebacuje u formate koji mogu biti prebacuje u formate koji mogu biti prerađivani ili dorađivani u programima prerađivani ili dorađivani u programima za obradu teksta kao npr. Microsoft za obradu teksta kao npr. Microsoft WordWord

►OCR sustavOCR sustav se sastoji od optičkog se sastoji od optičkog skenera za čitanje teksta i sofisticiranog skenera za čitanje teksta i sofisticiranog softsoftvvera za analiziranje slikaera za analiziranje slika

Page 4: Optical Character Recognition ili OCR

►Većina OCR sustava koristi Većina OCR sustava koristi kombinaciju hardvera i softvera koja kombinaciju hardvera i softvera koja prepoznaje slovne znakoveprepoznaje slovne znakove

► Napredni OCR sustavi mogu čitati Napredni OCR sustavi mogu čitati tekstove pisane velikim brojem tekstove pisane velikim brojem fontova, pa i rukopisne fontove fontova, pa i rukopisne fontove

Page 5: Optical Character Recognition ili OCR

►Postoje dvije osnovne metode koje se Postoje dvije osnovne metode koje se koriste za OCR:koriste za OCR:

►uspoređivanje matrica (eng. uspoređivanje matrica (eng. Matrix Matrix matching) i matching) i

►Pronalaženje ključnih obilježja (eng. Pronalaženje ključnih obilježja (eng. Feature extraction)Feature extraction)

Page 6: Optical Character Recognition ili OCR

► Jednostavnija i učestalija metoda je Jednostavnija i učestalija metoda je Matrix matchingMatrix matching

►Matrix matching metoda uspoređuje Matrix matching metoda uspoređuje što skener vidi kao slovni znak sa što skener vidi kao slovni znak sa popisom slovnih matrica ili predložakapopisom slovnih matrica ili predložaka

► Kada skenirana slika odgovara jednoj Kada skenirana slika odgovara jednoj od zadanih matrica unutar od zadanih matrica unutar postavljenog stupnja sličnosti računalo postavljenog stupnja sličnosti računalo joj dodjeljuje kôd jednog od ASCII joj dodjeljuje kôd jednog od ASCII znakova. znakova.

Page 7: Optical Character Recognition ili OCR

►Pronalaženje ključnih obilježja je OCR Pronalaženje ključnih obilježja je OCR sustav bez točnog podudaranja s sustav bez točnog podudaranja s zadanim predloškom zadanim predloškom - - Inteligentno Inteligentno prepoznavanje znakovaprepoznavanje znakova

► Ta metoda ovisi o “računalnoj Ta metoda ovisi o “računalnoj inteligenciji” postavljenoj od strane inteligenciji” postavljenoj od strane proizvođačaproizvođača

►Računalo traži osnovne oblike kao što Računalo traži osnovne oblike kao što su: otvorene površine, zatvoreni oblici, su: otvorene površine, zatvoreni oblici, dijagonalne linije itddijagonalne linije itd

Page 8: Optical Character Recognition ili OCR

►Uspoređivanje matrica najbolje Uspoređivanje matrica najbolje funkcionira kada se radi s manjim funkcionira kada se radi s manjim brojem različitih pismovnih rezova i s brojem različitih pismovnih rezova i s malim razlikama unutar jednog rezamalim razlikama unutar jednog reza

►Kada postoje veće razlike u izgledu Kada postoje veće razlike u izgledu slova metoda Inteligentnog slova metoda Inteligentnog prepoznavanja znakova je prikladnijaprepoznavanja znakova je prikladnija

Page 9: Optical Character Recognition ili OCR

►OCR fontovi OCR fontovi

su oni koje može raspoznati i pročitati su oni koje može raspoznati i pročitati ljudsko oko i uređaj za čitanje OCR ljudsko oko i uređaj za čitanje OCR fontovafontova

Sadrže slovne znakove od A do Z, Sadrže slovne znakove od A do Z, brojeve i nekoliko posebnih znakovabrojeve i nekoliko posebnih znakova

Svaki znak u fontu ima definiranu Svaki znak u fontu ima definiranu veličinu i oblik u kojem se pojavljujeveličinu i oblik u kojem se pojavljuje

OCR fontovi su definirani od ANSI OCR fontovi su definirani od ANSI organizacijeorganizacije

Page 10: Optical Character Recognition ili OCR

►Uređaji za čitanje OCR fontova dijele Uređaji za čitanje OCR fontova dijele se u dvije skupine: se u dvije skupine:

►uređaji za unos teksta i uređaji za unos teksta i ►uređaji za učitavanje podatakauređaji za učitavanje podataka

Page 11: Optical Character Recognition ili OCR

►Uređaji za unos teksta mogu skenirati Uređaji za unos teksta mogu skenirati čitave dokumente ili velike dijelove čitave dokumente ili velike dijelove dokumenatadokumenata

► Izvor podataka je unesen s namjerom Izvor podataka je unesen s namjerom da ga netko mijenja za vrijeme ili da ga netko mijenja za vrijeme ili nakon skeniranjanakon skeniranja

►Uređaji za unos teksta imaju različite Uređaji za unos teksta imaju različite stupnjeve automatizacije: od ručnog stupnjeve automatizacije: od ručnog unosa do automatskog unosa, čitanja, unosa do automatskog unosa, čitanja, razvrstavanja i kapaciteta memorijerazvrstavanja i kapaciteta memorije

Page 12: Optical Character Recognition ili OCR

►Uređaji za učitavanje podataka koriste Uređaji za učitavanje podataka koriste postupak gdje skenirani podaci postupak gdje skenirani podaci dostavljeni računalu moraju biti vrlo dostavljeni računalu moraju biti vrlo precizni jer su uneseni bez namjere da precizni jer su uneseni bez namjere da ih se kasnije mijenja ih se kasnije mijenja

►TTočnost pri unosu podataka mora biti očnost pri unosu podataka mora biti puno veća nego kod unosa tekstapuno veća nego kod unosa teksta

Page 13: Optical Character Recognition ili OCR

►Postoji mnogo razloga za korištenje Postoji mnogo razloga za korištenje OCR metode skeniranja u odnosu na OCR metode skeniranja u odnosu na ostale načine unosa podatakaostale načine unosa podataka::

► OCR smanjuje mogućnost nastanka OCR smanjuje mogućnost nastanka pogreške prilikom unosa podatakapogreške prilikom unosa podataka

► konsolidira podatke prilikom ulaskakonsolidira podatke prilikom ulaska► čitljiv je i za ljudsko oko čitljiv je i za ljudsko oko ►može se koristiti za različite tehnike može se koristiti za različite tehnike

tiska tiska

Page 14: Optical Character Recognition ili OCR

►Prednosti OCR-a nad barkodomPrednosti OCR-a nad barkodom►OCR je prikladniji za unos podataka u OCR je prikladniji za unos podataka u

kontroliranim uvjetima za bilo koji broj kontroliranim uvjetima za bilo koji broj znakovaznakova

►prikladan je kod ulaska i izlaska prikladan je kod ulaska i izlaska novčanih pošiljaka ili sličnih novčanih pošiljaka ili sličnih vrijednosnica u novčarske institucije vrijednosnica u novčarske institucije

► može sadržavati više od četrdeset može sadržavati više od četrdeset znakova i različit broj dostupnih znakova i različit broj dostupnih informacija, npr. datum dospijeća informacija, npr. datum dospijeća računa, broj računa, iznos, vrsta računa, broj računa, iznos, vrsta usluge i slusluge i sl

Page 15: Optical Character Recognition ili OCR

►Barkod je najprikladniji za identifikaciju Barkod je najprikladniji za identifikaciju dijelova ili pojedinih predmeta u lošijim dijelova ili pojedinih predmeta u lošijim uvjetima ili pri učestalom ponavljanju uvjetima ili pri učestalom ponavljanju istih nositelja podataka koji sadrže istih nositelja podataka koji sadrže samo nekoliko znakova samo nekoliko znakova

►pri identifikaciji i praćenju putničke pri identifikaciji i praćenju putničke prtljage u zračnom prometuprtljage u zračnom prometu

► Barkodovi su otporniji na grublje Barkodovi su otporniji na grublje rukovanje, ali zauzimaju puno više rukovanje, ali zauzimaju puno više prostoraprostora

►OCR može sadržavati do šest puta više OCR može sadržavati do šest puta više informacija nego standardni barkod informacija nego standardni barkod

Page 16: Optical Character Recognition ili OCR

OCR A font

OCR B font

Barkod

Page 17: Optical Character Recognition ili OCR

serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B

fontomfontom Upotreba OCR fontova:Upotreba OCR fontova:►znatno pomaže pri očitavanju, brojanju i znatno pomaže pri očitavanju, brojanju i

spremanju novčanica u trezore banakaspremanju novčanica u trezore banaka►pomaže i kod pronalaska krivotvorenih pomaže i kod pronalaska krivotvorenih

novčanicanovčanica► Brojač pamti koji su serijski brojevi Brojač pamti koji su serijski brojevi

novčanica ušli u banku i ne može se dva novčanica ušli u banku i ne može se dva puta pojaviti isti brojputa pojaviti isti broj

Page 18: Optical Character Recognition ili OCR

►primjena OCR fontova kod putovnicaprimjena OCR fontova kod putovnica► Tu optički čitači pomažu carinicima i Tu optički čitači pomažu carinicima i

graničnoj policiji kod pronalaska graničnoj policiji kod pronalaska krivotvorenih putovnicakrivotvorenih putovnica

► Isto tako, elektroničkim čitačima se Isto tako, elektroničkim čitačima se lakše, sigurnije i brže obavlja carinska lakše, sigurnije i brže obavlja carinska kontrola kontrola

Page 19: Optical Character Recognition ili OCR

►čitanje i prepoznavanje rukopisa čitanje i prepoznavanje rukopisa koristeći OCR sustavkoristeći OCR sustav : :

►Da bi se koristeći OCR sustav moglo Da bi se koristeći OCR sustav moglo pročitati i prepoznati tekst potrebno je pročitati i prepoznati tekst potrebno je najprije skenirati sliku sa rezolucijom najprije skenirati sliku sa rezolucijom od 300 dpi. od 300 dpi.

Page 20: Optical Character Recognition ili OCR

►Proces čitanja i prepoznavanja slovnih Proces čitanja i prepoznavanja slovnih znakova program provodi u četiri znakova program provodi u četiri koraka:koraka:

1. otvaranje slike,1. otvaranje slike,2. čitanje slike, 2. čitanje slike, 3. provjera pravopisa 3. provjera pravopisa 4. spremanje teksta u neki od programa 4. spremanje teksta u neki od programa

za obradu tekstaza obradu teksta

Page 21: Optical Character Recognition ili OCR

►Nakon otvaranja i čitanja teksta Nakon otvaranja i čitanja teksta program će prikazati sliku kao tekstprogram će prikazati sliku kao tekst

►Program ne može odmah prepoznati Program ne može odmah prepoznati sve slovne znakovesve slovne znakove

► U početnoj fazi prepoznavanja slovnih U početnoj fazi prepoznavanja slovnih znakova nekog novog fonta program znakova nekog novog fonta program neće prepoznavati znakoveneće prepoznavati znakove

► Takvi, za program novi znakovi se Takvi, za program novi znakovi se moraju ručno korigirati na taj način da moraju ručno korigirati na taj način da se program „uči“ prepoznavati se program „uči“ prepoznavati znakove znakove

Page 22: Optical Character Recognition ili OCR
Page 23: Optical Character Recognition ili OCR

►Označeno je kurentno slovo n i Označeno je kurentno slovo n i dodijeljen mu je znak slova ndodijeljen mu je znak slova n

► Taj će znak pogram zapamtitiTaj će znak pogram zapamtiti► OCR programi prepoznaju bitmap OCR programi prepoznaju bitmap

nakupine i u procesu učenja se nakupine i u procesu učenja se određenoj količini bitmap nakupina određenoj količini bitmap nakupina dodjeljuje neki slovni znakdodjeljuje neki slovni znak

► Program svaki znak sprema u bazu Program svaki znak sprema u bazu fontova koju stvara automatskifontova koju stvara automatski

►U bazi se nalaze svi slovni znakovi koje U bazi se nalaze svi slovni znakovi koje je program ikad pročitao i naučio. je program ikad pročitao i naučio.

Page 24: Optical Character Recognition ili OCR

Baza rukopisnih OCR uzoraka

Page 25: Optical Character Recognition ili OCR

►Ponekad se dogodi da OCR u svoju Ponekad se dogodi da OCR u svoju bazu fontova pod nekim slovnim bazu fontova pod nekim slovnim znakom spremi neke bitmap nakupine znakom spremi neke bitmap nakupine koje ne predstavljaju nikakvo slovokoje ne predstavljaju nikakvo slovo

► To se može dogoditi ako je skenirani To se može dogoditi ako je skenirani tekst loš ili ako postoje mrlje na tekst loš ili ako postoje mrlje na papiru, što je čest slučaj kod papiru, što je čest slučaj kod dokumenata primljenih putem faksadokumenata primljenih putem faksa

► Takva pogrešno spremljena slova Takva pogrešno spremljena slova treba izbrisati iz baze OCR uzoraka treba izbrisati iz baze OCR uzoraka

Page 26: Optical Character Recognition ili OCR

►Nakon što je program pročitao Nakon što je program pročitao skenirani tekst i sliku pretvorio u skenirani tekst i sliku pretvorio u slovne znakove radi se provjera slovne znakove radi se provjera pravopisapravopisa

► To je dodatna kontrola da se provjeri To je dodatna kontrola da se provjeri da li je tekst dobro prepoznat i da li su da li je tekst dobro prepoznat i da li su riječi pravilno ispisane riječi pravilno ispisane

►U četvrtom koraku tekst se prebacuje i U četvrtom koraku tekst se prebacuje i sprema u neki od programa za obradu sprema u neki od programa za obradu teksta najčešće Microsoft Word teksta najčešće Microsoft Word

Page 27: Optical Character Recognition ili OCR

Tekst nakon prepoznavanja u OCR programu