Upload
zeljko-milovancevic
View
214
Download
0
Embed Size (px)
Citation preview
Državni Univerzitet
NOVI PAZAR
2014/2015
Dr. Ivan ĐOKIĆ
TEORIJA INFORMACIJA
LEKCIJA 6: Verovatnoća, Teorija informacija, Kolmogorova kompleksnost
TEORIJA INFORMACIJA
Zakon totalne verovatnoće
A
B
C
D
Pr(E) = Pr(EA)+ Pr(EB)+ Pr(EC)+ Pr(ED).
A B C D = ,
A, B, C, D međusobno disjunktni
E
TEORIJA INFORMACIJA
Uslovna verovatnoća
Verovatnoća događaja A je |A| / |Ω|, pretpostavljajući da su svi događaji u
Ω jednako verovatni.
• Ako dobijemo dodatnu informaciju da je ishod u skupu B, tada možemo da
izračunamo verovatnoću |A∩B|/ |B|.
• Ako Pr(B) nije jednaka nuli, može se definisati uslovna verovatnoća A ako
je dato B (ako znamo da se desilo B) Pr(A|B) = Pr(A∩B)/Pr(B).
Ω
TEORIJA INFORMACIJA
Disjunktni i nezavisni događaji
(Disjoint events and independent events)
• Ako su dva događaja E i F disjunktni, tj. EF=,
• Onda se oni ne mogu desiti istovremeno
• Pr(E F) = Pr(E) + Pr(F)
• Pr(E F) = 0
• Ako su dva događaja A i B statistički nezavisni, onda
• Pr(AB) = Pr(A)Pr(B),
• AB generalno nisu prazni skupovi.
a E
F
a
A
B
TEORIJA INFORMACIJA
Primer zavisnih događaja
• U torbi ima 6 loptica.
• 3 loptice su crvene a 3 loptice su plave.
• Izvlačimo 1 lopticu slučajno iz torbe (bez zamene ili vraćanja).
• Neka je događaj A ako se prvo izvuče crvena loptica.
• Neka je B događaj da druga loptica bude crvena.
• Pr(A) = Pr(B) = 1/2
• Ova dva događaja nisu statistički nezavisna, zato što ako je prva loptica crvena, onda je druga loptica crvena sa verovatnoćom 2/5.
• Tako je P(B) P(B|A).
TEORIJA INFORMACIJA
Bajesovo pravilo (The Bayes’ rule)
• Neka su A i B dva događaja. Pretpostavimo da je
verovatnoća B različita on nule.
• Verovatnoća A ako znamo B (dogodilo se B) može se
izračunati iz verovatnoće B ako znamo A pomoću relacije:
TEORIJA INFORMACIJA
Klasična interpretacija verovatnoće
• Često se pripisuje Laplasu (Laplace).
• Svi ishodi u prostoru uzoraka imaju istu
verovatnoću.
• Pr(E) = |E| / | |
• To zahteva da je prostor uzoraka konačan.
• Računanje verovatnoće se svodi na
prebrojavanje.
• Klasična interpretacija ne može da modelira
neispravan novčić, nameštene kocke, idr.
TEORIJA INFORMACIJA
Frekventistička interpretacija verovatnoće
• Pripisuje se Richard von Mises-u (1883-1953).
• Može se govoriti o verovatnoći samo ako slučajni eksperiment može ponoviti mnogo puta.
• Verovatnoća nekog događaja je relativna frekvencija njegovog događanja • Npr. Ako bacamo neispravan novčić 1000 puta, i ako
padne pismo 421 puta, onda kažemo da je verovatnoća događaja “pismo” 0.421.
• Ova vrsta interpretacije ne može da modelira situacije kao što su • Neki most neće pasti sledećih 50 godina sa verovatnoćom
0.999.
• Nuklearna elektrana “Krško” je sigurna sa verovatnoćom 0.99999.
TEORIJA INFORMACIJA
Subjektivna inerpretacija verovatnoće
• Verovatnoće su definisane na bazi personalne, lične,
preferencije ili ličnog ubeđenja.
• Koristi se u društvenim naukama, sistemima
odlučivanja i sl.
TEORIJA INFORMACIJA
Primer subjektivne interpretacije verovatnoće
• Dva su osumnjičena u slučaju ubistva, X i Y. Oba su u bekstvu. Početno, protiv X i Y su isti dokazi.
• Posle detaljnije istrage poznato je da ubica ima krvnu grupu B.
• Takođe je poznato da osumnjičeni X ima krvnu grupu B, ali nije poznato koja je krvna grupa osumnjičenog Y.
• Zna se da 10% populacije ima krvnu grupu B.
• Kolika je verovatnoća da je ubica osumnjičeni Y, na bazi poznatih informacija?
TEORIJA INFORMACIJA
• Neka je H1 slučaj da je ubica osumnjičeni X, a slučaj H2 da je ubica osumnjičeni Y.
• Početno je Pr(H1) = Pr(H2) = 0.5. Ovo su subjektivne ocene verovatnoće.
• Neka je E slučaj da osumnjičeni ima krvnu grupu B • Pr(E|H1) = 1
• Pr(E|H2) = 0.1
• Cilj je izračunati Pr(H2|E).
• Koristeći Bajesovo pravilo dobija se:
Pr(H2|E) = Pr(H2E) / Pr(E) = Pr(E|H2) Pr(H2) / Pr(E)
• Iz zakona o totalnoj verovatnoći sledi:
Pr(E) = Pr(EH1) + Pr(E H2)
=Pr(E|H1)Pr(H1)+ Pr(E|H2)Pr(H2)=10.5 + 0.10.5.
• Tada je: Pr(H2|E) = 0.1 0.5 / (1 0.5 + 0.1 0.5) = 9%.
Pr(H1|E) = 1 – 9% = 91%.
Primer subjektivne interpretacije verovatnoće
TEORIJA INFORMACIJA
Mera verovatnoće
• Nezavisno od interpretacije proračun verovatnoće mora da zadovolji neka osnovna pravila;
• Tri osnovna pravila identifikovao je Ruski matematičar Kolmogorov kao aksiome verovatnoće.
• Prema Kolmogorovoj formulaciji dodeljuje se realni broj nekom događaju. Mera verovatnoće je funkcija koja prihvata realni broj kao ulaz i izlaz.
• Model verovatnoće se konstruiše kada se dodele verovatnoće dovoljno velikom broju osnovnih događaja. Verovatnoće drugih događaja mogu se izračunati pomoću unije, preseka i komplemenata osnovnih događaja.
TEORIJA INFORMACIJA
Mera verovatnoće: primer
Zadatak: Koliki je očekivani broj bacanja ispravnog
novčića dok se prvi put pojavi “glava”? Neka je X=Broj bacanja do prvog pojavljivanja “glave”. Tada je
na osnovu nezavisnosti dogadjaja:
TEORIJA INFORMACIJA
Mera verovatnoće: primer
Matematičko očekivanje broja pokušaja da se pojavi
“glava” je:
TEORIJA INFORMACIJA
Kolmogorovi aksiomi
• Andrej Kolmogorov
(1903-1987)
• Ruski matematičar
• Tri aksioma verovatnoće
mogu se naći u knjizi
“Osnove teorije
verovatnoće”,
publikovane 1933.
TEORIJA INFORMACIJA
Kolmogorovi aksiomi
• Neka je prostor uzoraka, koji može biti konačan ili beskonačan.
• Mera verovatnoće dodeljuje realne brojeve događajima u prostoru zadovoljavajući sledeće aksiome:
1) Pr(E) je realan broj između 0 i 1;
2) Pr() = 1
3) Za bilo koju sekvencu međusobno disjunktnih događaja E1, E2, E3, …, važi
Pr (E1 E2 E3 …) = Pr(E1) + Pr(E2) + Pr(E3) + …
TEORIJA INFORMACIJA
Neposredne posledice Kolmogorovih
aksioma
• Iako je iskaz aksioma za beskonačnu sekvencu događaja, on važi i za konačni broj događaja, kao specijalan slučaj:
Ako su E1, E2,…, En disjunktni slučajevi, onda je
Pr(E1 E2 … En) = Pr(E1)+Pr(E2)+…+Pr(En)
Dokaz: Kada se primeni treći aksiom
=En+1= En+2= En+3= En+4 =…
Onda je
Pr(E1 E2 … En En+1 En+2 …)
= Pr(E1)+ Pr(E2) +…+Pr(En)+Pr(En+1)+Pr(En+2)+…
= Pr(E1)+ Pr(E2) +…+Pr(En)+0+0+…
TEORIJA INFORMACIJA
Neposredne posledice Kolmogorovih
aksioma
• Za svaki slučaj E u postoru , neka je Ec komplement slučaja E. Tada je:
Pr(Ec) = 1 – Pr(E),
Zato što je
Pr(E) + Pr(Ec) = Pr() = 1
• Neka je prazan skup (nulti slučaj), onda je:
Pr() = 0,
Dokaz: Pr()+Pr()=Pr() // i su disjunktni
=Pr() // =
Rezultat sledi posle oduzimanja Pr() sa obe strane znaka jednakosti.
TEORIJA INFORMACIJA
A B C D
Neposredne posledice Kolmogorovih
aksioma
• Neka su A i B bilo koja dva slučaja, tada je
Pr(A B) = Pr(A) + Pr(B) – Pr(AB)
Dokaz: Neka je C slučaj A Bc i D slučaj B Ac. Tada je
A B = C D (AB).
Desna strana je unija disjunktnih skupova. Onda je
Pr(A B) = Pr(C) + Pr(D)+ Pr(AB) //treći aksiom
= Pr(C) + Pr(AB) + Pr(D)+ Pr(AB) – Pr(AB)
= P(A) + P(B) – Pr(AB) //treći aksiom
TEORIJA INFORMACIJA
Informacija i algoritamska kompleksnost
• Tri su ključna rezultata:
• Šenonova teorema o kodiranju izvora
• Glavna teorema o sadržaju informacije
• Mera broja bita neophodnih da se specificira očekivani
ishod nekog eksperimenta
• Šenonova teorema o kodiranju komunikacionog kanala u
prisustvu šuma
• Opisuje koliko se informacija može preneti nekim kanalom
• Striktna granica prenosa informacija
• Kolmogorova kompleksnost
• Mera algoritamskog informacionog sadržaja nekog niza
• Funkcija koja se ne može izračunati
TEORIJA INFORMACIJA
Deterministička informacija I0
• Razmatra se skup alternativa: X = a1, a2, a3, …aK
• Kada je ishod a3, kažemo x = a3
• I0(X) je količina informacije potrebna da specificira ishod X
• I0(X) = log2X
• Jedinica je bit (binary digits)
• Odnos bita i binarnih cifara je
• B = 0, 1
• X = BM = skup svih binarnih nizova dužine M bita
• I0(X) = logBM log2M
M bita
TEORIJA INFORMACIJA
Veza informacija i teorije verovatnoće…
• Iznenađujući događaji (neočekivane poruke) sadrže više
informacije nego obični ili očekivani događaji
• Poruke o ređim događajima nose više informacije
• Dakle, informacija o nekom događaju varira inverzno sa
verovatnoćom tog događaja
• Za razmatranje informacije pogodno je da ona bude
aditivna
• Ako poruka xy sadrži delove x i y, potrebno je:
• I(xy) = I(x) + I(y)
• Koristi se logaritamska funkcija:
log(xy) = log(x) + log(y)
TEORIJA INFORMACIJA
Nova definicija informacije
• Definiše informaciju koju sadrži poruka x, kao logaritam
inverzne verovatnoće te poruke:
I(x) = log(1/P(x)) = - log P(x)
• Prvi put je rigorozno definisana i studirana od strane
Šenona (1948)
• “A mathematical theory of communication”
• Prethodne definicije predstavljaju samo specijalan
slučaj ove definicije:
Pretpostavimo da ima n jednako verovatnih simbola
Za svaki simbol x, P(x) = 1/n
I(x) = log(1/P(x)) = log n
TEORIJA INFORMACIJA
Zaključak: postulati teorije informacija
1. Informacija je definisana u kontekstu nekog seta alternativa. Količina informacija kvantifikuje broj bita koji specificira rezultat (jedna od alternativa).
2. Količina informacija ne zavisi od semantike (zavisi jedino od verovatnoće).
3. Količina informacije je uvek pozitivna.
4. Informacija se meri na logaritamskoj skali:
verovatnoće su multiplikativne, ali informacije su aditivne
TEORIJA INFORMACIJA
Kolmogorova kompleksnost
(Algorithmic Information)
• Računari predstavljaju informacije kao uskladištene simbole • Ovo predstavljanje nije probabilističko u Šenonovom smislu
• Da li se informacija može kvantifikovati u algoritamskom smislu?
• Kolmogorova kompleksnost K(s) konačnog binarnog niza s je prirodni broj, koji predstavlja minimalnu dužinu (broj bita) nekog programa p, koji generiše s kada se izvršava na Univerzalnoj Turingovoj Mašini U • K(s) je algoritamski sadržaj informacije niza s
• Kvantifikuje “algoritamsku slučajnost” binarnog niza (algorithmic randomness)
• K(s) je funkcija koja se ne može izračunati • Sličan je argument kao kod problema zaustavljanja (halting problem)
• Kako znamo da smo pronašli najkraći program?
TEORIJA INFORMACIJA
Kolmogorova kompleksnost je neodređena
(undecidable)
Neka je K(x) Kolmogorova kompleksnost niza x.
Da bi se izračunalo K(x), mora se izvršiti svaki program koji
generiše x, odaberu oni koji se zaustave kad izračunaju x, i
izabere onaj koji je najmanji.
Negativno rešenje problema zaustavljanja (halting problem)
dokazuje da je podvučeni korak neodređen.
Tako je i Kolmogorova kompleksnost neodređena.
TEORIJA INFORMACIJA
Formalna definicija Kolmogorove kompleksnosti
Uslovna Kolmogorova kompleksnost :
KU(x|y) = min|p| : p 0,1* and U(p,y) = x
Gde je p opis x (kao što je neki program) i Univerzalna Turingova Mašina U proizvodi
x kada dobije p i neku dodatnu informaciju y.
Drugim rečima, to je najkraći program koji je ulaz za specifičnu Univerzalnu Turingovu
Mašinu koja proizvodi željeni izlaz.
Bezuslovna Kolmogorova kompleksnost:
K(x) = K(x|), gde je prazan niz.
Drugim rečima, nije potrebna dodatna informacija.
Kolmogorova nekompresibilnost (incompressibility):
Definisana je kao uslov K(x) ≥ |x|
Nekompresibilan niz je slučajan, ali ne važi uvek (mada često važi) i suprotno.
Broj Pi, je npr. slučajan u tradicionalnom smislu, ali nije nekompresibilan.
U stvari ovo je primer beskonačnog niza konačne (i male) kompleksnosti.
TEORIJA INFORMACIJA
Kolmogorova kompleksnost: primer
• Slučajnost niza (randomness) je definisana najkraćim
programom koji može da generiše taj niz
• Pretpostavimo da je dat binarni niz x:
“11111111111111….11111111111111111111111”
(1000 jedinica)
• Umesto 1000 bita niz se može komprimovati na nekoliko
desetina bita, koji će predstavljati program koji generiše
niz. Dužina programa je |P|.
For I = 1 to 1000
Print “1”
Očigledno je K(x) ≤ |P|
TEORIJA INFORMACIJA
Primena Kolmogorove kompleksnosti
• Matematika → teorija verovatnoće, logika;
• Fizika → teorija haosa, termodinamika;
• Računarske nauke → analiza srednjeg slučaja, učenje, informacija koju deli više dokumenata, pretraživanje podataka, klasteri;
• Filozofija, Biologija, idr. → slučajnost, zaključivanje, kompleksni sistemi, sličnost sekvenci;
• Teorija informacija → informacija u individualnim objektima, informaciono rastojanje • Klasifikovanje objekata: dokumenti, genomi
• Sistemi pitanja i odgovora (Query Answering systems)
TEORIJA INFORMACIJA