59
Državni Univerzitet NOVI PAZAR 2014/2015 Dr. Ivan ĐOKIĆ

TIK_Pred-04_2014-15.pdf

Embed Size (px)

Citation preview

  • Dravni Univerzitet NOVI PAZAR

    2014/2015

    Dr. Ivan OKI

  • TEORIJA INFORMACIJA

    LEKCIJA 4: Teorija informacija i kodiranje izvora

  • TEORIJA INFORMACIJA

    Digitalni kanal za prenos informacija

  • TEORIJA INFORMACIJA

    Kodiranje izvora

    Kodiranje izvora je efikasna reprezentacija podataka koje

    generie izvor.

    Za efikasno kodiranje izvora neophodno je znanje o statistikim karakteristikama izvora.

    Ako su neki simboli koje alje izvor verovatniji od drugih, njima se dodeljuju kratke kodne rei, dok se retkim simbolima dodeljuju duge kodne rei.

  • TEORIJA INFORMACIJA

    Kodiranje izvora

    Neka diskretan izvor proizvede K razliitih simbola sk i neka koder izvora konvertuje simbole u blokove 0 i 1, oznaene kao bk

    Pretpostavimo da se k-ti simbol sk pojavljuje sa verovatnoom pk , k=0,1..K-1. Neka binarne kodne rei dodeljene simbolima sk imaju duinu lk (bita). Tada je srednja duina kodne rei kodera izvora:

  • TEORIJA INFORMACIJA

    Kodiranje izvora

    Neka Lmin doznaava najmanju moguu duinu kodne rei. Tada je efikasnost kodera izvora definisana kao:

  • TEORIJA INFORMACIJA

    Kompresija podataka

    Kompresija podataka je vana zato to generisani signali, koji se prenose kroz komunikacioni kanal, sadre znaajnu koliinu vika informacija i uzalud troe resurse prilikom prenosa.

    Za efikasan prenos viak informacije treba ukloniti pre prenosa kroz komunikacioni kanal.

    Kompresija podataka se postie dodeljivanjem kratkih oznaka najfrekventnijim dogaajima na izlazu izvora, a duih oznaka onim manje frekventnim.

    Neke eme kodiranja izvora za kompresiju podataka su: Prefiks kodiranje (trenutno kodiranje)

    Hafmenovo kodiranje (The Huffman Coding) Lempel-Zivovo kodiranje (The Lempel-Ziv Coding)

  • TEORIJA INFORMACIJA

    Prefiks kodiranje

    Prefiks kodiranje znai da ni jedna kodna re nije prefiks neke druge kodne rei

    Primer:

    Simbol

    izvora

    Verovatnoa simbola

    Kod I Kod II Kod III

    s0 0.5 0 0 0

    s1 0.25 1 10 01

    s2 0.125 00 110 011

    s3 0.125 11 111 0111

  • TEORIJA INFORMACIJA

    Da li je kod I prefiks kod?

    Nije! Bit nula je kodna re simbola s0, ali je i prefiks 00, kodne rei simbola s2 . Bit 1, kodna re za s1, takoe je i prefiks u11, kodnoj rei simbola s3.

    Da li je kod II prefiks kod?

    DA!

    Da li je kod III prefiks kod? NE!

    Prefiks kod ima znaajnu karakteristiku on je uvek jednoznano dekodabilan.

    Simbol

    izvora

    Verovatnoa simbola

    Kod I Kod II Kod III

    s0 0.5 0 0 0

    s1 0.25 1 10 01

    s2 0.125 00 110 011

    s3 0.125 11 111 0111

    Prefiks kodiranje

  • TEORIJA INFORMACIJA

    Prefiks kodiranje primer

    Simbol

    izvora

    Kod I Kod II Kod III Kod IV

    s0 0 0 0 00

    s1 10 01 01 01

    s2 110 001 011 10

    s3 1110 0010 110 110

    s4 1111 0011 111 111

    Koji je prefiks kod?

    Kodovi I i IV.

    x x

  • TEORIJA INFORMACIJA

    Hafmenovo kodiranje primer prefiks kodiranja

    Osnovna ideja: Svakom simbolu dodeliti sekvencu bita priblino jednaku po duini koliini informacije koju prenosi.

    Hafmenov algoritam kodiranja:

    Korak 1: Simbole izvora izlistati po opadajuoj verovatnoi pojavljivanja. Dva simbola sa najmanjom verovatnoom oznaiti sa 0 i 1; Korak 2: Prethodna dva simbola smatrati kao jedan, ija je verovatnoa pojavljivanja jednaka sumi dve originalne verovatnoe. Verovatnou novog simbola postaviti na listu prema dobijenoj vrednosti;

    Procedura se ponavlja sve dok se lista ne svede samo na dva simbola

    kojima se dodeljuju 0 i 1. Kodna re za svaki simbol se odreuje idui unazad, pratei jedinice i nule koje su dodeljene simbolima ili njihovim naslednicima.

  • TEORIJA INFORMACIJA

    Hafmenovo kodiranje primer

    Korak 1: Simboli izvora su izlistani sa opadajuom verovatnoom. Dva simbola sa najmanjom verovatnoom oznaeni su sa 0 i 1; Korak 2: Simboli iz koraka 1 su kombinovani u novi simbol, sa verovatnoom 0.2 (suma originalnih verovatnoa); Verovatnoa novog simbola je postavljena na odgovarajue mesto. Procedura se ponavlja sve dok se lista ne svede samo na 2 simbola, kojima se

    dodeljuju 0 i 1. Kodna re se odreuje idui unazad, pratei sekvencu nula i jedinica do svakog poetnog simbola izvora.

  • TEORIJA INFORMACIJA

    Hafmenovo kodiranje srednja duina koda

    Lsrednje = 0.4(2) + 0.2(2) + 0.2(2) + 0.1(3) + 0.1(3)

    = 2.2

  • TEORIJA INFORMACIJA

    Osobine Hafmenovog kodiranja

    Hafmenovo kodiranje koristi due kodne rei za simbole sa manjom verovatnoom pojavljivanja, a krae za one simbole koji se ee pojavljuju na izlazu izvora;

    Dve najdue kodne rei razlikuju se samo u poslednjem bitu;

    Kodne rei su prefiks kodirane i jednoznano dekodabilne;

    Za srednju duinu rei vai

    H Lsrednje < H + 1

  • TEORIJA INFORMACIJA

    Proireno Hafmanovo kodiranje

    Hafmenovo kodiranje nije efikasno u sluajevima kada izvor ima mali alfabet simbola, i kada se

    verovatnoe pojavljivanja simbola znaajno razlikuju.

    Primer:

    Neka izvor ima 2 simbola, a i b. Neka je P(a) = 0.9

    and P(b) = 0.1

    Tada je H = 0.4690

    Za Hafmenovo kodiranje srednja duina rei je 1

    (to je daleko od optimuma!).

  • TEORIJA INFORMACIJA

    Kodiranje se moe vriti za grupu simbola, ime e se postii bolje performanse

    Ako se za prethodni primer proiri lista simbola i proireni izvor ima novu listu simbola {aa, ab, ba, bb}, tada je:

    P(aa) = P(a)*P(a) = 0.81 => 1

    P(ab) = P(a)*P(b) = 0.09 => 00

    P(bb) = P(b)*P(b) = 0.09 => 011

    P(bb) = P(a)*P(b) = 0.01 => 010

    Tada je srednja duina kodne rei po simbolu 0.6450 (mnogo bolje!).

    Proireno Hafmanovo kodiranje

  • TEORIJA INFORMACIJA

    1223231212

    P(1) = 0.3 p(2) = 0.5 P(3) = 0.2

    Kodne rei: 1 -> 10 2 -> 0 3-> 11

    Lsrednje = 2 * 0.3 + 1 * 0.5 + 2 * 0.2 = 1.5

    P(12) = 0.6 P(23) = 0.4

    Kodne rei: 12 -> 0 23 -> 1

    Lsrednje = (1 * 0.6 + 1 * 0.4)/2 = 0.5

    U drugom sluaju je srednja duina kodne rei manja od entropije jednog simbola 1. Da li je to u redu?

    Proireno Hafmanovo kodiranje

  • TEORIJA INFORMACIJA

    Teorija informacija

    i

    multimedijalni sistemi

  • TEORIJA INFORMACIJA

    ta je multimedija?

    Multimedija (Multimedia) nema striktnu definiciju;

    U kontekstu ovog kursa multimedija ukazuje na raunarsku tehnologiju (multimedia computing) koja se koristi za efikasniju komunikaciju korienjem razliitih vrsta medija :

    Tekst

    Audio i govor

    Slike

    Grafika

    Video

  • TEORIJA INFORMACIJA

    Multimedijalni sistem

    Multimedija ukljuuje mnogo vie od jednostavnog dodavanja novih vrsta podataka;

    Multimedija integrie irok spektar modova simbola u jedan povezan, koherentan okvir;

    Taj okvir se obino naziva multimedijalni sistem.

  • TEORIJA INFORMACIJA

    Izazovi multimedijalnog raunarskog sistema

    Razvoj uspenog multimedijalnog sistema nije trivijalan:

    Kontinualne vrste multimedija, kao to je video na primer, trae puno prostora za pamenje i uvanje i irok propusni opseg za prenos;

    Vana su i striktna vremenska ogranienja i sinhronizacija;

    Automatska organizacija, indeksiranje i analiza kod videa i slika znatno je tee nego kod teksta;

    Multimedijalni sistemi ukljuuju istraivanje u mnogim oblastima i zahtevaju kompleksne i efikasne algoritme i

    raunarske platforme.

  • TEORIJA INFORMACIJA

    Multimedijalni sistem je multidisciplinaran

    Obrada

    slike i

    zvuka

    Raunarsko generisanje slike,

    prepoznavanje

    oblika

    Raunari, mree, operativni

    sistemi

    Interakcija

    ovek-raunar Raunarska grafika

    Multimed.

    raunanje

  • TEORIJA INFORMACIJA

    Multimedijalni sistem primer

    Photosynth of Microsoft Live Labs.

  • TEORIJA INFORMACIJA

    Multimedijalni raunarski sistem tehnike

    Multimedijalni sistemi koriste neke bazine tehnike:

    Multimedijalna reprezentacija i kompresija podataka;

    Multimedijalna obrada i analiza podataka;

    Prenos multimedijalnih podataka kroz raunarske i komunikacione mree;

    Multimedijalne baze podataka, pretraivanje i indeksiranje.

  • TEORIJA INFORMACIJA

    Kompresija podataka

    Sirova slika zauzima oko 6M bytes

    (bez zaglavlja) 24K bytes u formatu JPEG, Q=50

  • TEORIJA INFORMACIJA

    Ilustracija kompresije podataka JPEG

    r g b transform.

    u frekventni

    domen

    kvantizacija

    kompresija bez gubitaka

    0010001 .

    dekodovanje

    r g b

    u v

    0

    10

    20

    30

    40

    50

    60

    0

    10

    20

    30

    40

    50

    60

    0

    1

    2

    x

    y

    |dct(b-0.5)|

  • TEORIJA INFORMACIJA

    Kompresija podataka

    Metode kompresije podataka su kljune za multimedijalne aplikacije;

    Sirovi multimedijalni podaci zauzimaju mnogo prostora i propusnog opsega:

    Sirov video sa 30 slika/sec, rezolucijom 640x480 piksela, i bojom definisanom sa 24bita

    Za 1 sec videa treba 30 * 640 * 480 * 3 = 27.6480 Mbytes

    Za 1 sat videa treba oko100 Gbytes

  • TEORIJA INFORMACIJA

    Kompresija podataka pojmovi

    Koder

    (kompresija )

    Memorija

    ili mrea Dekoder

    (dekompresija)

    Podaci-ulaz

    (sekvenca simbola iz

    alfabeta )

    Podaci-izlaz (rekonstruisana

    ulazna sekvenca)

    Kompresija bez gubitaka: rekonstruisani podaci jednaki ulaznim

    Kompresija sa gubicima: rekonstruisani podaci aproksimiraju ulazne

    Kompresioni odnos = (broj bita za prezentaciju ulaza) /

    (broj bita koda)

    Kod (sekvenca kodnih rei )

    Izvor

    informacije

  • TEORIJA INFORMACIJA

    Kompresija podataka entropija

    Broj bita neophodan da se kodira izvor sa donje strane je ogranien entropijom izvora;

    Samoinformacija dogaaja A definisana je

    -logbP(A)

    gde je P(A) verovatnoa dogaaja A

    Ako je b jednako 2, jedinice su bits

    Ako je b jednako e, jedinice su nats

    Ako je b jednako 10, jedinice su hartleys

  • TEORIJA INFORMACIJA

    Kompresija podataka primer entropije

    Izvor ima alfabet od 2 simbola, 0 i 1. Verovatnoe pojavljivanja simbola su P(0) = 0.25, P(1) = 0.75

    Informacija koja se dobije pri prijemu simbola 0 je

    log2(1/0.25) = 2 bita ;

    Informacija koja se dobije pri prijemu simbola 1 je

    log2(1/0.75) = 0.4150 bita .

  • TEORIJA INFORMACIJA

    Osobine samoinformacije (Self Information)

    Simbol sa manjom verovatnoom ima veu samoinformaciju;

    Informacija koja se dobije pri prijemu 2 nezavisna simbola jednaka je sumi samoinformacija ta dva

    simbola

    -log2P(sa,sb)

    = -log2P(sa)P(sb)

    = [-log2P(sa)] + [- log2P(sa)]

  • TEORIJA INFORMACIJA

    Entropija izvora

    Ako izvor ima simbole {s1, s2, , sn}, i ako su simboli nezavisni, onda je srednja samoinformacija

    H = 1n P(si)log2(1/P(si)) [bits]

    H se naziva entropija izvora

    Broj bita po simbolu neophodnih za kodiranje multimedijalnog izvora sa donje strane je ogranien njegovom entropijom.

  • TEORIJA INFORMACIJA

    Izvor ima alfabet od 2 simbola, 0 i 1. Verovatnoe pojavljivanja simbola na izlazu izvora su

    P(0) = 0.25, P(1) = 0.75.

    Entropija je:

    H = 0.25 log2(1/0.25) + 0.75 log2(1/0.75)

    = 0.8113 bits

    Za ovaj izvor neophodno je najmanje 0.8113 bita po simbolu

    za njegovo kodiranje.

    Entropija izvora - primer

  • TEORIJA INFORMACIJA

    Entropija slike - primer

    Neka slika ima 256 moguih nivoa sivog: A={0, 1, 2, , 255}. Pretpostavljajui da su pikseli slike nezavisni i da svaki nivo sivog slike ima jednaku verovatnou, entropija slike je

    H = 256 1/256 log2(1/256) = 8 bita

    ta je sa crno-belom slikom koja ima samo 2 nivoa 0 i 255? Pretpostavljajui da je P(0) = 0.5 i P(255) = 0.5

    H = 1 bit

  • TEORIJA INFORMACIJA

    Procena entropije

    a a a b b b b c c c c d d

    P(a) = 3/13

    P(b) = 4/13

    P(c) = 4/13

    P(d) = 2/13

    Entropija: H = [-P(a)log2P(a)] + [-P(b)log2P(b)] + [-P(c)log2P(c)] + [-P(d)log2P(d)] = 1.95 bita

    Ako su simboli statistiki nezavisni, onda je:

  • TEORIJA INFORMACIJA

    eme kodiranja

    Alfabet izvora: A = {s1, s2, s3, s4}

    P(s1) = 0.125

    P(s2) = 0.125

    P(s3) = 0.25

    P(s4) = 0.5

    s1

    s2

    s3

    s4 0

    1 11

    01 s1

    s2

    s3

    s4 0

    10 111

    110 s1

    s2

    s3

    s4 0

    0 11

    10

    Entropija izvora H = 1.75 bita

    Nisu jednoznano dekodabilni! Dobar kod, dostignuta

    donja granica

  • TEORIJA INFORMACIJA

    Kompresija podataka sa gubicima

    Osim kompresije bez gubitaka, moe se i dalje redukovati broj bita koji predstavljaju multimedijalni

    sadraj. To se postie odbacivanjem nepotrebne informacije.

    Medijski sadraji, kao to su slike, audio i video mogu se modifikovati bez ozbiljne redukcije kvaliteta.

    Standardi kompresije multimedijalnih podataka su JPEG, MPEG, itd.

  • TEORIJA INFORMACIJA

    Metode odbacivanja informacije

    Smanjivanje rezolucije

    Originalna slika Rezolucija smanjena na 1/2

  • TEORIJA INFORMACIJA

    Redukcija nivoa boje piksela

    Smanjenje nivoa boje na Originalna slika

    Metode odbacivanja informacije

  • TEORIJA INFORMACIJA

    Oteenje informacije (distortion)

    Oteenje informacije: mera razlike izmeu kodiranih i originalnih multimedijalnih podataka. Moe se iskazati kroz sledee parametre:

    Srednja kvadratna greka (MSE - Mean Square Error)

    mean( ||xorig xdecoded||2)

    Odnos signal-um (SNR - Signal to Noise Ratio)

    SNR = 10log10(Signal_Power/MSE) (dB)

  • TEORIJA INFORMACIJA

    Funkcija oteenja informacija

    Funkcija oteenja informacije pokazuje odnos izmeu dozvoljenog oteenja informacije i minimalnog protoka

    informacije po simbolu iz izvora. Ako

    oteenje nije dozvoljeno (D=0), onda po simbolu treba preneti koliinu informacija jednaku entropiji, R(0)=H. Ako je

    dozvoljeno oteenje Dmax, onda ne postoji potreba ni za kakvim prenosom.

    D

    R(D)

    0 Dmax

    H

    R(0)=H

  • TEORIJA INFORMACIJA

    Odabiranje, kvantizacija

    Preslikava kontinualan ili diskretan set vrednosti u manji set vrednosti;

    Osnovni metod je da se odbaci deo informacije;

    Kvantizacija se moe koristiti za skalare (pojedinane brojeve) ili vektore (nekoliko brojeva zajedno);

    Posle kvantizacije moe se direktno generisati kod fiksne duine.

  • TEORIJA INFORMACIJA

    Uniformna skalarna kvantizacija

    xmin xmax

    D =(xmax - xmin)/N

    Granice odluivanja Kvantizaciona vrednost

    Pretpostavimo da se x nalazi u opsegu [xmin, xmax]. Opseg

    se deli na N uniformnih regiona bez preklapanja. Tada je

    kvantizacioni korak D :

    Kvantizator (odabira) Q(x) mapira vrednost x u kvantizacionu vrednost regiona kojoj pripada trenutna vrednost x.

  • TEORIJA INFORMACIJA

    Greka kvantizacije

    Da bi se minimizirala vrednost greke kvantizaciona vrednost treba da bude na sredini intervala odluivanja;

    Ako je x sluajna promenljiva, onda je Q(x) uniformno distribuirano u intervalu [-D/2, D/2] .

    xn xn+1

    Greka kvantizacije

    x Kvantizaciona

    vrednost

  • TEORIJA INFORMACIJA

    Kvantizacija kodne rei

    xmin xmax

    Kvantizaciona vrednost moe da odgovara binarnoj kodnoj rei. U gornjem primeru, kodna re odgovara indeksu svake kvantizacione vrednosti.

    000 001 010 011 100 101

  • TEORIJA INFORMACIJA

    Grejov kod (Gray code)

    xmin xmax

    000 001 011 010 110 111

    Kodne rei se razlikuju samo za 1 bit od susednih kodnih rei. Grejov kod je otporniji na greke od prirodnog binarnog koda.

  • TEORIJA INFORMACIJA

    Vrednost jednog bita

    Ako je broj kvantizacionih intervala N, onda je potrebno log2(N) bita da bi se predstavile sve kvantizacione vrednosti

    Za uniformno distribuirano x, odnos signal - um (SNR) za Q(x) je proporcionalno sa 20log(N) = 6.02n, gde je N=2n

    Broj bita

    dB

    1 bit vie

    oko 6db dobitak (gain)

  • TEORIJA INFORMACIJA

    Neuniformni odabira (kvantizator)

    Za audio i vizuelne podatke tolerancija oteenja je proporcionalna veliini signala.

    Zato se kvantizacioni korak D moe uiniti proporcionalnim nivou signala

    Ako distribucija signala nije uniformna, takoe treba primeniti

    neuniformni korak kvantizacije.

    0

    Doivljeno oteenje ~ D / s

  • TEORIJA INFORMACIJA

    Vektorsko odabiranje

    Region odluivanja Kvantizaciona

    vrednost

  • TEORIJA INFORMACIJA

    Kompresija slike primer

    Siva slika (Grayscale Image)

    227878 bytes

    Diferencijalna slika

    Pri kompresiji slike bez gubitaka esto se koristi metod predikcije.

  • TEORIJA INFORMACIJA

    Kod Siva slika (bytes) Diferencijalna slika (bytes)

    Huffman coding: 192163 129397

    Arithmetic coding: 190212 127220

    LZ77 coding (gzip): 151685 128252

    LZW (compress): 158573 136899

    Entropija

    H = 4.4314

    Entropija

    H = 6.6483

    Kompresija slike primer

  • TEORIJA INFORMACIJA

    Kompresija slike JPEG standard

  • TEORIJA INFORMACIJA

    JPEG standard mere kompresije

    binarne slike 2 bita/pikselu,

    raunarska grafika 4 bita/pikselu, grayscale slike 8 bita/pikselu,

    slike u boji 16, 24 ili vie bita/pikselu

    Stepen kompresije:

    Broj bita po pikselu u komprimovanoj slici:

    Srednjekvardratna

    greka:

  • TEORIJA INFORMACIJA

    Kompresija slike primer JPEG

    Originalna slika 500362 piksela i

    kodovana sa 8 bita/pikselu Slika komprimovana 4 puta

    Slika komprimovana 10 puta Slika komprimovana 22 puta

  • TEORIJA INFORMACIJA

    Kompresija slike primer JPEG

  • TEORIJA INFORMACIJA

    Kompresija slike primer JPEG

  • TEORIJA INFORMACIJA

    Kompresija slike primer JPEG

  • TEORIJA INFORMACIJA

    Kompresija slike primer JPEG

  • TEORIJA INFORMACIJA