Upload
zeljko-milovancevic
View
3
Download
0
Embed Size (px)
Citation preview
Državni Univerzitet
NOVI PAZAR
2014/2015
Dr. Ivan ĐOKIĆ
TEORIJA INFORMACIJA
LEKCIJA 1: Upoznavanje s predmetom
TEORIJA INFORMACIJA
◊ To je grana matematike (striktno deduktivan sistem). (C.
Shannon, The bandwagon)
◊ To je opšti statistički koncept komunikacija. (N. Wiener,
What is IT?)
◊ Koncept Teorije informacija je izgrađen na na bazi
Šenonovog rada (Shannon, 1948)
◊ Teorija informacija daje odgovor na dva fundamentalna
pitanja u Teoriji komunikacija:
- Koliki je limit kompresije informacija?
- Koliki je limit brzine prenosa informacija u nekom
komunikacionom kanalu?
Šta je Teorija informacija?
TEORIJA INFORMACIJA
Gde se primenjuje Teorija informacija?
TEORIJA INFORMACIJA
Šta je informacija?
Iskazi koji sadrže neke “informacije”:
• Sutra će biti lepo vreme.
• Vreme je bilo kišovito prešlog ponedeljka.
• Predsednik Vlade Srbije daće Ti sutra 100 000 evra!
Drugi iskaz nije mnogo interesantan, već znamo kakvo je bilo vreme. Poslednji
iskaz je mnogo interesantniji. Međutim, da li je verovatno da je tačan?
Još neki primeri:
• Pitanje: Da li je sada temperatura u novom Pazaru viša od 20 stepeni?
Odgovor se može dati sa DA ili NE.
• Pitanje: Rektor DUNP je danas razgovarao sa jednim studentom. Sa kim?
Ovde pitanje ima oko 3500 mogućih odgovora, jer toliko ima studenata.
Očigledno, odgovor na drugo pitanje daje više informacija od odgovora na
prvo pitanje.
CILJ PREDMETA: Sticanje temeljnih znanja iz područja
Teorije informacija, koja u informatičkom društvu uz
znanje predstavlja najvažnije resurse vezane uz procese
u nauci, privredi i društvu.
ISHOD PREDMETA: Studenti će biti osposobljeni za
samostalna istraživanja iz oblasti Teorije informacija kao i
za uspešnu primenu stečenih znanja na konkretnim
zadacima u drugim disciplinama – telekomunikacijama,
fizici, računarskoj tehnici, kriptografiji, ekonomiji, itd.
TEORIJA INFORMACIJA
SADRŽAJ PREDMETA: 1. Opis naučnog područja Teorije informacija; 2. Odnos Teorije informacija prema susednim pdručjima
nauke; 3. Kolmogorova kompleksnost; 4. Definicija informacije, sadržaj, količina informacije; 5. Entropija, vrste i osobine, združena i uzajamna entropija; 6. Kompresija podataka;
TEORIJA INFORMACIJA
SADRŽAJ PREDMETA: 7. Modeli komunikacijskih sistema; 8. Uzajamna informacija, kapacitet kanala; 9. Kodovanje u cilju prenosa po kanalima sa šumom, kodovi za ispravljanje grešaka; 10. Sigurnosno kodovanje, kriptografija; 11. Upravljanje informacijama.
TEORIJA INFORMACIJA
ORGANIZACIJA PREDMETA: Predavanja: 15 x 2 časa Vežbe: 15 x 3 časa LITERATURA: 1. D. B. Drajić: "Uvod u teoriju informacija i kodovanje,"
Akademska misao, Beograd, 2000.
2. V. Sinković: "Informacija, simbolika i semantika,"
Školska knjiga Zagreb, 1997.
3. Cover, T.M., J.A., Thomas, Elements of Information
Theory, J. Wiley & Sons, N. York, 1991.
4. Prezentacije sa predavanja.
TEORIJA INFORMACIJA
TEORIJA INFORMACIJA
POLAGANJE PREDMETA: Kolokvijum 1 .................. 20% - teorija - zadaci Kolokvijum 2 .................. 20% - teorija - zadaci Ispit ............................... 60% - teorija - zadaci - potrebno min 55% od mogućih bodova
FORMIRANJE OCENE: 95 ≤ x ≤ 100 (bod) ................. Ocena 10 85 ≤ x ≤ 94 (bod) ................. Ocena 9 75 ≤ x ≤ 84 (bod) ................. Ocena 8 65 ≤ x ≤ 74 (bod) ................. Ocena 7 55 ≤ x ≤ 64 (bod) ................. Ocena 6 x ≤ 54 (bod) ................. Nije položio
TEORIJA INFORMACIJA
TEORIJA INFORMACIJA
Informacija
• Šta znači reč “informacija”?
• Ne postoji usvojena precizna definicija, ali ipak:
• Informacija nosi neko specifično znanje, koje je sigurno novo za onog ko prima informaciju;
• Informaciju nešto (ili neko) isporučuje u različitim formama (pismo, brojevi, simboli, sekvence brojeva ili simbola, zvuk, slika, ...);
• Informacija ima smisla samo ako onaj ko je prima može da je interpretira.
• Prema Oxford English Dictionary, najstarije istorijsko značenje reči information na engleskom jeziku je act of informing, ili davanje forme, oblika mišljenju.
TEORIJA INFORMACIJA
• Materijalizovana informacija predstavlja poruku;
• Informacija se uvek o nečemu (veličina nekog parametra, dešavanje nekog događaja, itd.)
• Posmatrano na ovaj način informacja ne mora da bude tačna, ona može biti istina ili laž;
• Čak i šum koji se koristi da da onemogući komunikaciju i da generiše nerazumevanje među učesnicima komunikacije, predstavlja jednu formu informacije;
• Generalno, ako količina informacija u primljenoj poruci raste, poruka je tačnija.
Informacija
TEORIJA INFORMACIJA
Podatak, informacija, znanje, mudrost
TEORIJA INFORMACIJA
Podatak, informacija, znanje, mudrost
Science is organized knowledge.
Wisdom is organized life.“
Immanuel Kant
TEORIJA INFORMACIJA
Podatak, informacija, znanje, mudrost
TEORIJA INFORMACIJA
• Kako može da se meri količina informacija?
• Kako može da se obezbedi korektnost informacije?
• Šta da se radi ako je informacija izmenjena zbog
prisustva grešaka?
• Koliko je potrebno memorije da bi se u njoj sačuvala
neka informacija?
Teorija informacija
TEORIJA INFORMACIJA
• Osnovne odgovore na prethodna pitanja, koji su baza
moderne TEORIJE INFORMACIJA (Information
Theory) dao je poznati američki matematičar, inženjer
elektrotehnike i naučnik u oblasti računarske tehnike
Klod Šenon (Claude E. Shannon) u svom radu
“A Mathematical Theory of Communication”
objavljenom u časopisu “The Bell System Technical
Journal” oktobra 1948. godine
Teorija informacija
TEORIJA INFORMACIJA
Claude Elwood Shannon (1916-2001)
Otac Teorije informacija Otac Teorije projektovanja digitalnih kola Karijera: Bell Laboratories (1941-1972), MIT(1956-2001)
TEORIJA INFORMACIJA
Claude Elwood Shannon (1916-2001)
“Before 1948, there was only the fuzziest idea of what a
message was. There was some rudimentary understanding of
how to transmit a waveform and process a received waveform,
but there was essentially no understanding of how to turn a
message into a transmitted waveform.”
[Gallager, Claude Shannon: A Retrospective, 2001 pg. 2683]
TEORIJA INFORMACIJA
Sadržaj informacije
• Šta je sadržaj informacije svake poruke?
• Šenonov odgovor je: Sadržaj informacije neke poruke
sastoji se od niza jedinica i nula koje izvor informacije
emituje.
TEORIJA INFORMACIJA
• Dakle, elementarna jedinica informacije je binarna
jedinica: bit, koja može biti 1 ili 0, “tačno” ili “netačno”,
“da” ili “ne”, “crno” ili “belo”, itd.
• Jedan od osnovnih postulata Teorije informacija je da
informaciju možemo tretirati kao merljivu fizičku
veličinu, kao što su brzina, masa, gustina.
Sadržaj informacije
TEORIJA INFORMACIJA
• Pretpostavimo da neko baca novčić milion puta i zapisuje rezultat sekvencijalno. Ako želi ovu sekvencu da saopšti nekom drugom, koliko mu je potrebno bita?
• Ako je novčić ispravan, dva moguća ishoda (pismo i glava) desiće se sa jednakom verovatnoćom. Tako da se rezultat svakog bacanja novčića može saopštiti jednim bitom informacije. Da bi se saopštila kompletna sekvenca neophodno je milion bita.
Sadržaj informacije
TEORIJA INFORMACIJA
• Pretpostavimo da je novčić neispravan i da se glava događa sa verovatnoćom
samo ¼, a pismo sa verovatnoćom ¾. Tada se cela sekvenca od milion
bacanja može poslati sa 811,300 bita. Ovo ukazuje da svako bacanje novčića
traži 0.8113 bita za slanje.
• Kako se može rezultat bacanja novčića prikazati sa manje od jednog bita, kada
je jedini način za prikazivanja pomoću jedinica i nula?
• Očigledno ne može. Ali, ako je cilj da se pošalje kompletna sekvenca bacanja
novčića, koja ima neku distribuciju verovatnoće rezultata bacanja novčića, tada
se može iskoristiti znanje o distribuciji i izabrati efikasniji način kodiranja
sekvence.
• Drugi način gledanja na ovaj problem je sledeći: Ako verovatnoća ishoda
bacanja novčića favorizuje jedan rezultat, u ovom slučaju pismo, onda
sekvenca koja predstavlja rezultat bacanja sadrži manje “informacije” nego ako
su oba ishoda jednako verovatna. Ako sekvenca ima manje informacije, onda
se ona može predstaviti sa manje bita
Sadržaj informacije
TEORIJA INFORMACIJA
• Teorija informacija smatra važnim samo one simbole koji
su neizvesni za onog ko ih prima.
• Godinama su ljudi slali telegrame izostavljajući reči koje
nisu esencijalne, kao što su u engleskom jeziku "a" i "the“
• Na sličan način se mogu izostaviti predvidivi simboli, kao
što je urađeno u sledećoj rečenici na engleskom jeziku,
"only infrmatn esentil to understandn mst b tranmitd”.
Šenon je pokazao da je neizvesnost suština komunikacije.
Sadržaj informacije
TEORIJA INFORMACIJA
Dva glavna pitanja Teorije informacija
1. Šta uraditi ako je informacija iskvarena greškama?
2. Kako što efikasnije uskladištiti podatke?
• Oba pitanja je postavio i na njih u dobroj meri
odgovorio Klod Šenon 1948. godine:
korišćenjem korekcije greške (error correction) i
kompresije podataka (data compression)
TEORIJA INFORMACIJA
Osnovni principi Šenonove “Teorije informacija”
• Šenonova teorija je pokazala inženjerima koliko
informacija se može preneti kanalom za komunikaciju
idealnog sistema;
• Šenon je precizirao matematički principe kompresije
podataka, koji prepoznaju kako na kraju treba da izgleda
rečenica “only infrmatn esentil to understadn mst b
tranmitd”;
• Šenon je takođe pokazao kako se može preneti
informacija kanalom u prisustvu šuma, sa učestanošću
grešaka koje se mogu kontrolisati.
TEORIJA INFORMACIJA
Zašto je važna teorija informacija?
• Zahvaljujući Teoriji informacija digitalni sistemi
su postali dominantni u oblasti komunikacija i
obrade informacija.
• Modemi,
• Satelitske komunikacije,
• Skladištenje podataka,
• Komunikacije u svemiru,
• Bežične komunikacije.
TEORIJA INFORMACIJA
Komunikacioni kanali (Channels)
• Kanal ise koristi za prenos informacija od
izvora do prijemnika:
Izvor
binarni kanal
0,1,1,0,0,1,1 Prijemnik
Mnogi sistemi se ponašaju kao kanal; Očigledni primeri: telefonske linije, Eternet kablovi, ... Manje očigledni primeri: vazduh kada govorimo, TV ekran, papir kada pišemo, ... Sve su ovo fizički medijumi, i time skloni pojavi grešaka.
TEORIJA INFORMACIJA
Osobine telekomunikacionih kanala
◊ Cilj telekomunikacija: omogućiti prenos informacija između
geografski udaljenih lokacija pomoću komunikacionih kanala adekvatnog
kvaliteta (adekvatne brzine prenosa i pouzdanosti);
◊ Transmisija je bazirana na digitalnim podacima: digitalni podaci se
generalno dobijaju od analognih veličina, pomoću
- odabiranja analognog signala (Nyquist), i
- kvantizacije analognog signala (uvodeći kvantizacioni šum koji
nastaje zaokruživanjem);
◊ Transmisija određenom brzinom: zahteva određeni spektralni
propusni opseg kanala;
◊ Kanal: • pod kanalom se podrazumeva celokupan sistem – koji ima
određeni kapacitet, maksimalnu brzinu prenosa informacija, i određenu
pouzdanost prenosa informacija.
TEORIJA INFORMACIJA
Kanali sa prisustvom šuma
Kanal u kome nema šuma
prenosi bite bez grešaka:
0 0
1 1
Kanal u kome postoji šum dovodi do simetrične promene bita 01 sa verovatnoćom p:
0 0
1 1
1–p
1–p
p p
Šta treba uraditi da se pouzdano prenese informacija kroz kanal u kome postoji šum?
TEORIJA INFORMACIJA
Korekcija greške pre Šenona
• Jednostavna, trivijalna korekcija greške (pretpostavka da je p˂0.5): Umesto slanja “0” i “1”, šalje se “0…0” i “1…1”.
• Prijemnik uzima većinski broj bita kao “nameravanu vrednost” koju je poslao izvor informacije;
• Primer: Ako ponovimo vrednost bita 3 puta, verovatnoća greške opada sa p na p2(3–2p). Ako je npr. p=0.1, verovatnoća greške se smanjuje na 0.028;
• Međutim, sada mora da se pošalje kroz kanal 3 bita da bi se dobio 1 bit informacije, a ovo postaje još gore ako se zahteva još veće smanjenje verovatnoće greške.
TEORIJA INFORMACIJA
Brzina prenosa kroz kanal (Channel Rate)
• Kada se vrši korekcija greške, mora se imati na umu
povećanje broja bita, koji se prenosi, da bi se preneo jedan
bit informacije ( u prethodnom slučaju odnos je 3x);
• Za jednostavan slučaj kodiranja u prethodnom primeru ako
je 00r i 11r , sa odnosom 1/r, verovatnoća greške se
smanjuje p rpr–1;
• Ako se želi izuzetno mala greška pri prenosu informacije,
to zahteva izuzetno malu brzinu prenosa (rx manju), što
predstavlja cenu koja se plaća.
TEORIJA INFORMACIJA
Šenonova korekcija greške
• Šenonovo osnovno zapažanje:
• Korekcija jednog bita dovodi do uzaludnog utroška resursa, neefikasno je. Umesto toga, treba vršiti korekciju bloka bitova.
• Pokazuje se da je moguće dobiti malu verovatnoću greške sa konstantnom brzinom prenosa kroz kanal, 1–H(p), gde je H(p) Šenonova entropija (Shannon entropy), definisana kao
H(p) = –p log2(p) – (1–p) log2(1–p).
TEORIJA INFORMACIJA
Model komunikacionog sistema
• Komunikacioni sistem je statističke prirode;
• Performanse sistema se ne mogu opisati deterministički, one su
uvek date u statističkom smislu;
• Izvor je uređaj koji vrši selekciju i šalje sekvence simbola iz datog
skupa;
• Svaka selekcija simbola je slučajna, mada može biti bazirana na
nekom statističkom pravilu.
• Kanal prenosi dolazeće simbole prema prijemniku. Performanse
kanala su takođe bazirane na zakonu verovatnoće;
• Ako izvor šalje simbol A sa verovatnoćom P{A} , i kanal prenese
simbol A do prijemnika sa verovatnoćom P{A|A}, onda je
verovatnoća da bude poslat A i na prijemu primljen A P{A}∙P{A|A}.
TEORIJA INFORMACIJA
• Kanal je najčešće sa gubicima: deo poslatog sadržaja
ne stiže na odredište ili stiže u izobličenoj formi.
Model komunikacionog sistema
TEORIJA INFORMACIJA
• Značajan posao u komunikacionom sistemu je
minimizacija gubitaka i optimalan oporavak (dobijanje
originalnog sadržaja koji je izmenjen greškama zbog
efekata šuma);
• Metod koji se koristi za poboljšanje efikasnosti kanala
zove se kodiranje (kodovanje).
• Kodirana poruka je manje osetljiva na šum.
Model komunikacionog sistema
TEORIJA INFORMACIJA
• Dekodiranje se koristi da se kodirana poruka
transformiše u originalnu formu, koja je prihvatljiva za
onog ko prima poruku.
Kodiranje (F): I F(I)
Dekodiranje (F-1): F(I) I
Model komunikacionog sistema
TEORIJA INFORMACIJA
Kvantitativna mera informacije
• Pretpostavimo da nam je zadatak da izaberemo neki
uređaj iz kataloga u kome je prikazano n različitih
modela: {x1,x2,...,xn}
• Poželjna količina informacije I(xk), koja je u vezi sa
izborom određenog modela xk mora biti funkcija
verovatnoće izbora xk :
TEORIJA INFORMACIJA
• Ako iz razloga jednostavnosti pretpostavimo da je
izbor svakog od raspoloživih modela jednako
verovatan, tada je poželjna količina informacija
funkcija jedino od n:
40
Kvantitativna mera informacije
TEORIJA INFORMACIJA
• Ako je svaki od uređaja moguće naručiti u jednoj od m
različitih boja, i neka je izbor svake boje jednako
verovatan, onda je količina informacija u vezi sa
izborom boje cj:
Kvantitativna mera informacije
TEORIJA INFORMACIJA
• Izbor uređaja može se izvršiti na jedan od dva načina:
1. Izabrati prvo uređaj, a onda boju nezavisno:
2. Izabrati i uređaj i boju istovremeno, kao jednu od m∙n
opcija:
Kvantitativna mera informacije
TEORIJA INFORMACIJA
• S obzirom da su ove količine informacija jednake,
sledi:
• Među nekoliko rešenja ove funkcionalne jednačine,
najvažnija je:
• Tako, kada statistički eksperiment ima n jednako
verovatnih ishoda, srednja količina informacije u vezi
ishoda je log n .
43
Kvantitativna mera informacije
TEORIJA INFORMACIJA
• Logaritamska mera informacije ima poželjnu osobinu
aditivnosti, pogodnu za statistički nezavisne
eksperimente;
• Najjednostavniji primer je izbor između dva jednako
verovatna slučaja. Količina informacije u vezi izbora
jednog od dva jednako verovatna slučaja daje JEDINICU
INFORMACIJE poznatu kao BIT.
Kvantitativna mera informacije
TEORIJA INFORMACIJA
Teorija informacija i zaštita podataka
• Na problem sigurnosti u računaskim sistemima obično
se gleda sa stanovišta algoritama za šifrovanje-
dešifrovanje (DES, RC4, RSA,…).
• Zašto su razvijeni baš ti algoritmi? Kako ocenjujemo da
su dobri?
• Teorija informacija ovde ulazi u oblast kriptologije ...
• Pretpostavimo da imamo neki sistem šifrovanja i
potencijalnu poruku P, šifrat C, i ključeve K
• Neka je poruka odabrana prema zakonu verovatnoće,
• Neka je ključ K odabran nezavisno od poruke P,
• Rezultujući šifrat ima različite verovatnoće, zavisno od
verovatnoća P i K.
TEORIJA INFORMACIJA
• Sada razmatramo i potencijalnog napadača na šifru ...
Napadač vidi samo šifrat i pojavljuje se nekoliko
sigurnosnih pitanja:
• Šta napadač može da zaključi o P gledajući C ?
• Da li napadač može da otkrije ključ K gledajući C ?
• Ova pitanja su povezana sa Teorijom informacija,
H(P|C) i H(K|C).
• Idealno, zbog neizvesnosti ne želimo da umanjimo ni na
koji način
H(P | C) = H(P)
H(K | C) = H(K)
Teorija informacija i zaštita podataka
TEORIJA INFORMACIJA
Primer: Neka postoje tri poruke {a,b,c} sa verovatnoćom
izbora {0.5, 0.3, 0.2}. Pretpostavimo da postoje dva
ključa, k1 i k2, sa verovatnoćom 0.5 i 0.5. Neka postoje
i tri šifrata U,V,W.
Mogu se izračunati verovatnoće šifrata:
Slično se dobijaju i pC(V)=0.25 i pC(W)=0.25
Ek1(a)=U Ek1(b)=V Ek1(c)=W
Ek2(a)=U Ek2(b)=W Ek2(c)=V
Teorija informacija i zaštita podataka
TEORIJA INFORMACIJA
Pretpostavimo da napadač vidi šifrat U, ako zna prethodne
verovatnoće, onda zna i da je poruka “a”.
Mogu se izračunati uslovne verovatnoće:
Slično se dobijaju i pP(c|V)=0.4, pP(a|V)=0, pP(a|W)=0,
pP(b|W)=0.6 , i pP(c|W)=0.4.
Šta nam ovo govori? Potsetimo se da su verovatnoće
poruka 0.5, 0.3, i 0.2. Tako, ako vidimo šifrat mogu se
razmotriti verovatnoće poruka!
Teorija informacija i zaštita podataka
TEORIJA INFORMACIJA
Entropiju koristimo da kvantifikujemo količinu informacije
koju saznamo kada vidimo šifrat:.
Uslovna entropija poruka P ako znamo šifrat C je:
Dakle, značajna količina informacije se otkriva samo
posmatranjem šifrata!
Teorija informacija i zaštita podataka
TEORIJA INFORMACIJA
• Prethodni primer daje motivaciju da se da informaciono-
teorijska definicija sigurnosti (ili tajnosti)
• Definicija: Kriptosistem ima perfektnu tajnost ako je
H(P|C)=H(P)
• Osnovna ideja je da se pokaže da svaki šifrat ima
jednaku verovatnoću. Onda se mogu izvesti i sledeće
manipulacije:
Izjednačavajući gornje izraze i stavljajući da je H(K)=H(C),
dobija se rezultat → H(P|C)=H(P)
Zašto?
Teorija informacija i zaštita podataka
KAKO UČITI ?
TEORIJA INFORMACIJA
TEORIJA INFORMACIJA