AV Kompresija

Embed Size (px)

Citation preview

AUDIO I VIDEO KOMPRESIJA

KODOVANJE AUDIO SIGNALA

Prilikom pojave dva frekvencijski bliska audio signala dolazi do maskiranja slabijeg signala jaim signalom, te ne ujemo slabiji signal koji bismo inae uli u uslovima tihog okruenja. Sljedea slika prikazuje efekat frekvencijskog maskiranja. Jaki signal frekvencije 1 KHz e maskirati sve audio signale koji su ispod granice na slici oznaene granicom maskiranja (Masking threshold). U ovom primjeru, audio signali iz opsega 500 Hz do 5 kHz se nee uti, dok bi ih normalno uli u uslovima nepostojanja jakih, frekvencijski bliskih audio signala, kada je granica ujnosti prikazana na slici crtkanom linijom (Threshold in quiet).

Osim frekvencijskog maskiranja, gdje se podrazumijeva istovremena pojava audio signala razliitih frekvencija pa se naziva i simultano maskiranje, neophodno je uzeti u obzir i vremensko maskiranje koje se deava kad se u kratkom vremenskom intervalu pojavljuje jaki i slabi audio signal. Trajanje maskiranja moe biti 50 do 200 ms.

Perceptualno kodovanje MPEG audia Efikasan algoritam za kodovanje audia treba da ispuni sljedee ciljeve:

uklanjanje statistike redundanse izmeu susjednih odmjeraka,

uklanjanje nebitnih informacija koje ne moemo uti, zasnovano na perceptualnom modelu.

Algoritam za alokaciju bita uzima u obzir perceptualne karakteristike i maskiranje. Nad PCM audiom se uradi FFT kako bi se dobio kompletan spektar signala iz kog je mogue odrediti maskirajue signale, na osnovu kojih se odreuje globalna granica maskiranja. Princip je prikazan na sljedeoj slici. Primjenjuje se dinamika alokacija bita na osnovu razlike nivoa signala u odnosu na granicu maskiranja.

MPEG Audio

Za nekomprimovani stereo audio potrebna bitska brzina iznosi 16 bita/odmjerku 44100 odmjeraka/sekundi 2 kanala = 1411.2 Kb/s. Kodovanje audio signala u MPEG standardu je kodovanje sa gubicima. Zasnovano je na podopsenom kodovanju i koritenju psihoakustikih modela pri odluivanju koje frekvencije treba potisnuti ili potpuno izbaciti iz signala, a da se i dalje ima zadovoljavajui kvalitet zvuka. Pri tome se ini kompromis izmeu veliine fajlova i kvaliteta. MPEG-1 Audio

MPEG-1 standard definie tri sloja (layer), odnosno nivoa sloenosti MPEG audio kodovanja:

1. MP1 ili MPEG-1 Layer 1 (MPEG-1 Audio Layer 1)

2. MP2 ili MPEG-1 Layer 2 (MPEG-1 Audio Layer 2)

3. MP3 ili MPEG-1 Layer 3 (MPEG-1 Audio Layer 3)

Razlike izmeu slojeva su posljedica koritenja razliitih psihoakustikih modela. Layer 1 algoritam je najjednostavniji, ali zbog toga ima i najmanji stepen kompresije te je potrebna vea bitska brzina.

Fraunhofer Gesellschaft (FhG), koji je vlasnik patenta, publikovao je sljedee stepene kompresije koje je mogue postii pojedinim slojem:

Layer 1: 384 kbit/s, kompresija 4:1,

Layer 2: 192-256 kbit/s, kompresija 8:1...6:1 ,

Layer 3: 112-128 kbit/s, kompresija 12:1...10:1.

Rezultati istraivanja kod korisnika se neto razlikuju (pretpostavlja se da su ovo realniji rezultati):

Layer 1: odlian kvalitet pri 384 kbit/s,

Layer 2: odlian kvalitet pri 256-384 kbit/s, veoma dobar kvalitet pri 224-256 kbit/s, dobar kvalitet pri 192-224 kbit/s,

Layer 3: odlian kvalitet pri 224-320 kbit/s, veoma dobar kvalitet pri 192-224 kbit/s, dobar kvalitet pri 128-192 kbit/s.

MP2 (MPEG-1 Audio Layer II) je audio kodek. Ekstenzija fajlova koji sadre audio podatke u ovom formatu je .mp2. Iako je u PC i internet aplikacijama potisnut sa MP3, jo uvijek je dominantni standard u oblasti radio-televizijskog emitovanja, kada se radi sa veim bitskim brzinama (256 do 384 kbit/s). MPEG layer 2 je standardni format za Video CD.

MP3 (MPEG-1 Audio Layer III) MPEG-1 Audio Layer 3, poznatiji kao MP3, je popularni digitalni audio koder sa gubicima, standardizovan 1991. godine. Algoritam koji se koristi za kompresiju je slian JPEG algoritmu za kompresiju slika.

MP3 Surround je verzija MP3, uvedena u decembru 2004 godine koja podrava 5 kanala.

MP2 razdvaja signal na 32 podopsega i ako se zakljui da je audio signal iz nekog podopsega neujan, taj podoseg se ne prenosi. S druge strane MP3 transformie signal u 576 frekvencijskih komponenti, te ima veu frekvencijsku rezoluciju nego MP2 to omoguava bolju primjenu psihoakustikog modela i veu kompresiju.

Moderne metode audio kompresije

Postoji nekoliko algoritama moderne kompresije i metoda za skladitenje audio sadraja u kompjuterskoj tehnologiji:

MP3 (MPEG-1 Layer-3) Sastoji se od psihoakustinog modela, FFT analiza, hibridnih filtera,

nelinearne kvantizacije, Huffman-ovog kodovanja, 2 kanala sa konstantnim

ili promjenjivim brzinama bita od 32 do 256 kb/s i koji je uspjeno

implementiran u moderne CD/DVD i portabl plejere, mobilne telefone,...

MP3 Pro Kreiran od strane Coding Technologies Laboratory, zasniva se na

principima formiranja MP3 formata, sastoji se od SBR (Spectral Band

Replication) tehnologije koja koduje visoko frekventni opseg (od 10 do 15

kHz) sa veoma malom brzinom bita. AAC (MPEG-2 Advanced Audio Coding) Kreiran od strane AT&T, Dolbija, Fraunhofer IIS i Sonija, je ISO standard

MPEG-2 koji se sastoji od osnovnih principa MP3 formata ukljuujui

psihoakustini model, hibridne filtere, skalabilne brzine odmjeravanja, 2

kanala sa brzinama bita od 48 do 576 kbps.

AAC Plus Potie od AAC formata, sastoji se od SBR-a sa brzinom bita do 100 kbps.

WMA (Windows Media Audio) Kreiran od strane Mikrosofta, sastoji se od DRM (Digital Rights Management),

CBR i VBR, WMA kodovanja digitalnog audia bez gubitaka (brzine bita 2:1

do 3:1), WMA profesionalno kodovanje viekanalnog audia (128 do 768 kbps)

i WMA za kodovanje glasa (od 4 do 20 kbps).

VQF (Vector Quantization File) Kreiran od strane NNT Human Interface Laboratories i Yamaha, nastao je

na osnovu MP3 principa, kompleksnijeg kodovanja, 25-35% bolja kompresija

u odnosu na MP3 kompresiju. Advanced Audio Coding (AAC)

Advanced Audio Coding (AAC) kao nasljednik MP3 standarda za kodovanje digitalnog audio signala, generalno postie bolji kvalitet zvuka na istim bitskim brzinama.

AAC primjenjuje dvije osnovne strategije kako bi redukovao koliinu podataka neophodnu za predstavu visokokvalitetnog digitalnog audia:

1. Komponente signala koju su perceptualno beznaajne se odbacuju;

2. Eliminie se redundansa u audio signalu.

Signal se konvertuje iz vremenskog u domen modifikovane diskretne kosinusne transformacije MDCT koristei banku filtara. Signal se u frekvencijskom domenu kvantuje na osnovu psihoakustikog modela i koduje. Ugraeni su mehanizmi korekcije greaka.

AAC je standardizovan kao Part 7 MPEG-2 i Part 3 MPEG-4. MPEG-2 standard sadri vie metoda kodovanja audia, ukljuujui MP3 kodnu emu. AAC postie dobar kvalitet pri brzini od 320 kb/s za pet kanala (5.1) a pri brzini od 128 kb/s za stereo.

High-Efficiency Advanced Audio Coding (HE-AAC) je proirenje AAC, optimizovano za male bitske brzine (streaming), standardizovano po prvi put 2003. godine i publikovano kao dio MPEG-4 standarda.

AAC je projektovan da popravi performanse MP3 formata koji je specificiran u MPEG-1 i u MPEG-2. Poboljanja se ogledaju u sljedeem:

vei izbor frekvencija odmjeravanja (8-96 kHz) nego MP3 (16-48 kHz),

do 48 kanala (MP3 podrava dva kanala u MPEG-1 i maksimalno 5.1 kanal uMPEG-2),

promjenljiva bitska brzina, banka filtara sa visokim preformansama, AAC koristi modifikovanu DCT MDCT,

velika efikasnost pri kodovanju stacionarnih signala (AAC koristi veliinu bloka od 1024 odmjerka, a MP3 od 576 odmjeraka),

koritenje posebno projektovanih prozorskih funkcija koje dobro eliminiu curenje spektra,

bolji rad sa frekvencijama iznad 16 kHz, itd.

MPEG kompresija video i audio signala

Nastojana za standardizaciju u oblasti razmjene videa datiraju od ranih osamdesetih godina prolog vijeka. International Telephone Consultative Committee (CCITT), zajedno sa International Radio Consultative Committee (CCIR), i International Standards Organization / International Electrotechnical Commission (ISO/IEC) su pokrenuli brojne inicijative za standardizaciju. Moving Picture Experts Group ili MPEG (pod oficijelnom oznakom ISO/IEC JTC1/SC29 WG11) je radna grupa koja je zaduena za razvoj standarda za video i audio kodovanje, te memorisanje i pretraivanje multimedijalnih sadraja. Prvi sastanak ove grupe odran je u Hanoveru, 1988. godine. Na svakom sastanku ove radne grupe uestvuje oko 350 lanova iz razliitih oblasti industrije, sa univerziteta i istraivakih institucija. MPEG je do sada odobrila sljedee formate za kompresiju i standarde:

MPEG-1: Prvi video i audio standard, kasnije koriten za Video CD, koji ukljuuje i popularni MP3 format kompresije audio signala.

MPEG-2: Namijenjen za transport, video i audio standard kojim se postie televizijski kvalitet. Koristi se u digitalnoj televiziji i (sa malim modifikacijama) za DVD video diskove.

MPEG-3: Originalno namijenjen za televiziju visoke definicije, ali je povuen kad je otkriveno da je MPEG-2 dovoljno efikasan i za HDTV.

MPEG-4: Proirenje MPEG-1 u smislu podrke video/audio objektima, 3D sadrajima i malim brzinama prenosa.

MPEG-7: Formalni sistem za opis multimedijalnog sadraja.

MPEG-21: MPEG opisuje ovaj standard kao multimedijalno okruenje.

MPEG-1

MPEG-1 je standard iz 1990-tih godina, koriten za kompresiju audio i video digitalnih podataka. MPEG-1 video je VCR kvaliteta i koriten je za video CD format. Optimalna brzina prenosa je 1.5 Mb/s. Za video je rezervisano oko 1.2 Mb/s. Format videa je: slika formata 352x240 (etvrtina TV ekrana) sa 30 frejmova u sekundi. Primarna mu je namjena bila da poslui kao format za memorisanje, ali je pokazao veoma dobre rezultate i pri strimingu na brzinama prenosa koje podrava. Uz to, podrane su sljedee opcije: sluajni pristup frejmovima preko I-frejmova, brzo pretraivanje naprijed-nazad (fast-forward i fast-reverse, FF/FR ), emitovanje videa unazad i mogunost editovanja uz prihvatljivo kanjenje pri kodovanju i dekodovanju od oko 1 sekunde.

MPEG-1 audio layer 3 je puno ime popularnog MP3 audio formata. Kasnije je MPEG-1 AV format unaprijeen i nastali su MPEG-2 I MPEG-4 formati koji postiu vei nivo kompresije.

MPEG-1 obuhvata vie dijelova:

1. Transportni sloj koji obuhvata dio za sinhronizaciju i multipleksiranje video i audio podataka;

2. Codec (koder i dekoder) za kompresiju video signala bez preplitanja (progresivno skeniranje);

3. Codec za perceptualno kodovanje audio signala;

4. Procedure za testiranje usaglaenosti.

MPEG-1 video

MPEG-1 je inicijalno bio projektovan za brzinu prenosa od 1.5 Mb/s i rezoluciju 352x254 za NTSC i 352x288 za PAL. Kasnije je prilagoen brzini prenosa od 4 Mb/s, uz poboljanje kvaliteta video signala. Na etiri bita luminanse dolazi po jedan bit hrominentnih komponenti. Trenutno je MPEG-1 najkompatibilniji format i upotrebljiv je na skoro svim plejerima.

MPEG-1, slino kao H.261, koristi i intra-frajm i inter-frajm kodovanje. Meutim, inter-frejm kodovanje je ovdje puno sloenije jer omoguava bidirekcionalnu vremensku predikciju. Ideja bidirekcionalnog kodovanja je prikazana na sljedeoj slici. Makrobloku tekueg frejma se trai najsliniji makroblok u prethodnom i sljedeem frejmu i odreuju se dva vektora pomjeraja. Makroblok za kodovanje se formira kao razlika tekueg makrobloka i usrednjenih vrijednosti (na slici je usrednjavanje oznaeno sa %) najslinijih makroblokova iz susjednih frejmova, ukoliko se nae dovoljno slian makroblok u oba frejma. Ukoliko se slian blok nae samo u jednom frejmu, on se zadrava i ne radi se usrednjavanje. Frejmovi za koje se radi bidirekcionalna predikcija su oznaeni kao B-frejmovi.

Potreba uvoenja bidirekcionalne predikcije postaje jasna ako se pogleda sljedea slika.

Lopta tekueg frejma je u prethodnom frejmu bila maskirana drugim objektom i sasvim je jasno da je predikcija makrobloka koji sadri loptu na osnovu sljedeeg frejma mnogo bolja (signal razlike nakon pomjeraja je manji) nego na osnovu prethodnog frejma.

Tipian raspored frejmova u grupi slika (group of pictures - GOP) kod MPEG-1 kodovanja je prikazan na sljedeoj slici. Prvi frejm u svakoj video sekvenci mora biti I-frejm. I-frejmovi se ponavljaju i na poetku svake grupe slika. Iako se kod I-frejmova postie mali stepen kompresije, njihovo koritenje je neophodno kako bi bio mogu sluajni pristup, FF/FR i oporavak od greaka. Prvi P-frejm se koduje N frejmova nakon I-frejma. N-1 frejmova izmeu I-frejma i P-frejma ili izmeu dva P-frejma se koduju kao B-frejmovi. Predikcija pri kodovanju P-frejma se vri na osnovu prethodnog P-frejma ili I-frejma. Treba napomenuti da redoslijed slanja frejmova nije isti kao redoslijed njihovog pojavljivanja u vremenu, jer je za rekonstrukciju B-frejmova neophodno poznavanje susjednih I-frejmova ili P-frejmova.

Za razliku od H.261, vektor pomjeraja kod MPEG-1 je precizniji (do piksela) i moe da poprimi vrijednost iz skupa [-512, 511.5]. MPEG-1 bitski tok doputa sluajni pristup jer je svaka grupa slika (GOP) neovisno kodovana. Tipian broj bita neophodan za kodovanjeI-slika je vei nego kod P-slika, dok je najmanji kod B-slika. Prosjean stepen kompresije I,P i B slika je dat sljedeom tabelom. Prosjean faktor kompresije video signala u MPEG-1 standardu iznosi 27:1.

Na sljedeoj slici prikazana hijerarhijska struktura, odnosno nain formiranja sekvence bita kod MPEG-1 standarda. Ova sekvenca bita je podijeljena na nekoliko slojeva. Najvii sloj je video sekvenca. Ovaj sloj sadri informacije kao to su: veliina frejmova, bitska brzina i uestanost frejmova. GOP sloj sadri informacije o brzom pretraivanju i sluajnom pristupu video podacima. GOP zaglavlje sadri podatke o pozicijama I, P B frejmova. Sloj slike sadri kodovane segmente (grupe makroblokova). Segmenti jednog frejma mogu da sadre razliit broj makroblokova, te da startuju i zavre bilo gdje, i svaki segment se neovisno koduje. Uvoenje segmenata u MPEG-1 radi ponovnog uspostavljanja sinhronizacije u sluaju gubitka ili oteenja dijela signala predstavlja jo jednu od bitnih razlika u odnosu na H.261. Dalje, sloj segmenta sadri makroblokove, sloj makrobloka blokove i konano, sloj bloka sadri intra-kodovane blokove.

Veliki nedostatak MPEG-1 je to podrava samo progresivno skeniranje videa, to je i bio osnovni razlog uvoenja MPEG-2.

MPEG-2

MPEG-2 (1994) standard za kompresiju audio i video signala je projektovan za distribuciju digitalnog TV signala, ali se iroko koristi i za skladitenje videa na DVD. Kvalitet je uporediv sa VHS standardom. Bitska brzina iznosi izmeu 4 i 9 Mb/s, ali se uz dodatna poboljanja moe koristiti i za HDTV do rezolucije od 1920x1080 piksela i 30 frejmova u sekundi (to znai brzinu prenosa od 80 Mb/s). Dakle, MPEG-2 omoguava visokokvalitetni video uz bitsku brzinu veu od 4 Mb/s. Ovo je prvi standard koji podrava video sa preplitanjem, sa mogunou predikcije frejmova ili polja, kada se dva polja koduju zajedno kao jedan frejm. Snaga MPEG-2 standarda je u njegovoj skalabilnosti, to e biti kasnije detaljnije prikazano.

Kodovanje video signala je slino kao kod MPEG-1, ali je podran video signal sa preplitanjem. MPEG video kompresija takoe definie DC slike (D-slike), koje su sline I-slikama, ali sadre samo DC komponente svakog bloka i omoguavaju brzo pretraivanje.

MPEG-1 nije optimizovan za male brzine prenosa (manje od 1 Mb/s) i nije pogodan kao internet sriming tehnologiju. Bitska brzina kod MPEG-2 moe biti konstantna ili varijabilna. Maksimalna bitska brzina je odreena medijem koji se koristi za prikaz, npr. za DVD iznosi 10.4Mbit/s. U cilju postizanja konstantne bitske brzine prilagoava se nain kvantizacije.

MPEG-2 unosi nove metode kodovanja audio signala, tako da omogueno kodovanje do 5 kanala.

Osnovne razlike u odnosu na MPEG-1 su:

Podrano je vie video formata DVD, ATV, HDTV, te ema: 4:2:2 i 4:4:4

Zbog uvoenja polja kod skeniranja sa preplitanjem, MPEG-2 moe da koristi 5 naina predikcije,

koristi se nelinearna kvantizacija,

bolja otpornost na greke u prenosu.

Pojedinano za DVD, DVB (Digital Video Broadcasting) SDTV i HDTV se uvode dodatne restrikcije i modifikacije MPEG-2.

MPEG-3

MPEG-3 je standard namijenjen za rad sa HDTV signalima u opsegu 20 do 40 Mbit/s.

Kako je otkriveno da je sa MPEG-2 uz male modifikacije mogue postii jednako dobre rezultate, ovaj standard se prestao koristiti.

MPEG-4

MPEG-4 je uveden krajem devdesetih (1994, a postao je standard 2000. godine), za web striming i prenos mobilnom mreom, ali i za distribuciju TV signala i videotelefoniju. On predstavlja proirenje prethodnih standarda u smislu podrke video/audio objektima, 3D sadrajima i malim brzinama prenosa. Optimalna bitska brzina iznosi 385 do 768 Kb/sec.

Za razliku od svojih prethodnika, umjesto rada sa pravougaonim blokovima slike, MPEG-4 je objektno orijentisan. Audio-vizuelni objekti video sekvence se odvojeno koduju i prenose zasebnim sekvencama bita. Korisniku se omoguava niz interaktivnih aplikacija sa videom.

Standard pokriva irok opseg bitskih brzina, od veoma niskih (5-64 Kb/s) do 2 Mb/s za TV/film aplikacije.

Istraivanja u okviru ovog standarda su jo uvijek aktuelna, posebno vezano za internet streaming, beini prenos videa i digitalne kamere u mobilnim ureajima.

Ciljevi uvoenja ovog standarda su bili:

manipulacija sadrajem i editovanje sekvence bita u komprimovanom domenu,

mogunost kombinovanja sintetizovanih i prirodnih scena i objekata,

sluajan pristup frejmovima i objektima,

bolji vizuelni kvalitet na uporedivim bitskim brzinama, u odnosu na prethodne standarde,

mogunost kodovanja viestrukih pogleda, npr. stereoskopski vid,

otpornost na greke,

skalabilnost sa finom granularnou u sadraju, kvalitetu i sloenosti.

Audio i video podaci su vezani za sadraj, to omoguava neovisan pristup i manipulaciju pojedinanim objektima u komprimovanom domenu: transformaciju postojeih objekata (repozicioniranje, skaliranje, rotaciju), dodavanje novih i uklanjanje postojeih objekata sa scene, a sve to jednostavnim operacijama nad komprimovanom sekvencom bita. Audio-vizuelni objekti su slojeviti i svaki sloj se koduje u elementarnu sekvencu bita (elementary stream - ES).

Dok su u prethodnim standardima standardizovani kompletni algoritmi, MPEG-4 slijedi princip toolbox-eva. Video alati sadre kompletan algoritam ili individualne module, npr. kodovanje oblika, teksture, kompenzaciju pokreta, koji se povezuju pomou MPEG-4 System Description Language (MSDL). MSDL se ugrauje u kodovanu sekvencu bita i prenosi, te tako odreuje pravila dekodovanja.

Kako bi se postigla interaktivnost na nivou sadraja, sekvenca se posmatra kao kolekcija audio-vizuelnih objekata (AVO), koji mogu biti govor, muzika, ili video objekti koji predstavljaju neki sadraj, npr. dijalog, portret (glavu i poprsje) osobe, objekat u pokretu ili statiku/promjenljivu pozadinu, itd... Izgled video objekta u jednom frejmu se definie kao jedna ravan video objekta (video object plane VOP) i najee prestavlja elementarnu formu reprezentacije sadraja. Ulazna video sekvenca se segmentira u niz regiona proizvoljnog oblika (VOP-ovi). Oblik i poloaj regiona variraju od frejma do frejma. Informacije o obliku, pokretu i teksturi VOP-ova koji pripadaju istom video objektu se koduju i prenose kao jedan sloj (Video Object Layer - VOL). Kako postoji vie video objekata, sekvenca bita mora sadravati i informaciju o nainu kombinovanja VOL-ova kako bi bila mogua rekonstrukcija videa.

Na sljedeoj slici je prikazan jedan frejm video sekvence. Informacija o nainu segmentiranja u VOP objekta i drugi VOP pozadine sadri binarna tzv. Alfa-ravan, koja slui kao maska poloaja objekta.

Sljedea slika daje optu emu kodovanja i dekodovanja. Scena se prvo segmentira u niz VOP-ova. Niz VOP-ova koji odreuju jedan sadraj sekvence slika se grupiu u VOL. Originalnu video sekvencu je mogue rekonstruisati ukoliko se uzmu u obzir svi VOL-ovi. Ipak, sadraje je mogue dekodovati uzimajui u obzir samo podskupove VOL-ova, dakle, omoguena je interaktivnost na nivou sadraja u komprimovanom domenu.

MPEG-4 podrava prostornu, vremensku i tzv. sprite skalabilnost, koja se odnosi na pozadinu scene.

Koncept digitalizacije video signala

Slika koja se dobija na senzoru kamere (analizatorska cijev ili CCD ip) moe se posmatrati u prostoru i vremenu. Slika posmatrana u prostoru se definira kao pravilna matrica pixela (elemenata slike), kao u primjeru datom na sljedeoj slici, gdje je prezentiran isjeak plohe senzora.

Svaki od ovih elemenata slike ima odreenu sjajnost koja je predstavljena analognim iznosom napona. Osvjetljaji ovih pixela u jednoj liniji formiraju video signal jedne linije, to znai generisanje signala luminanse. Sve to smo rekli odnosi se ipak na analogni video signal. Razmotrimo sada kako e nastati digitalni signal.

Uzmimo kao primjer digitalizaciju analognog signala u domenu vremena samo za luminantni signal, to je ilustovano primjerom sa sljedee slike:

Digitalizacija se sastoji u diskretizaciji po vremenu to je proces uzorkovanja i

diskretizaciji po amplitudi to je proces kvantizacije. Oitane vrijednosti uzoraka se u

koderu pretvaraju u binarne cifre, nakon ega se formira digitalna transportna struja.

Vidimo da dobijeni digitalni video moemo prenositi serijski ili paralelno.

Meutim, za prenos kolor video signala potrebno je prenijeti podatke o dominantnoj talasnoj duini (Hue) i pobudnoj istoi (Exitation purity). U analognom sistemu to se postie formiranjem ili primarnih komponentnih signala RGB ili kombinovanjem signala razlike boje, tj. pomou signala Y, U'B-Y i U'R-Y. To znai da emo formirati jo dvije superponirane ravni digitalnih vrijednosti videa istih pixela, ali sada za signale

razlike boja. U tom sluaju potrebna je trodimenzionalna memorijska matrica da bi se predstavio digitalni signal, to je ilustrovano na sljedeoj slici.

Evidentno je da u ovom sluaju nastaju pored struje digitalnih podataka o luminansi i struje podataka o krominantnim digitalnim signalima. Pretpostavili smo da se numerike vrijednosti luminanse i krominanse svakog pixela pohranjuju u trodimanzionalnu memorijsku matricu. Na taj nain je

pohranjena jedna slika. Sada se postavlja pitanje kako reproducirati pokretnu sliku u digitalnom domenu. To emo postii tako to emo omoguiti periodino auriranje namerikih vrijednosti RGB ili Y, U'B-Y i U'R-Y svakog pixela. Na ovaj nain se formira trodimenzionalna matrica, gdje dvije prostorne ose prikazuju raspored pixela u slici, dok trea prezentira tok promjene vrijednosti veliine lume i krome svakog pixela u vremenu. Ovaj princip je ilustrovan na sljedeoj slici:

Vidimo da se reprodukcija digitalnog signala svodi na cikliko oitavanje auriranih

stanja iz trodimenzionalne matrice. Ovim je prezentiran princip digitalne reprodukcije,

sa napomenom da se sve ove digitalne vrijednosti prethodno pretvaraju u analogne

veliine postupkom D/A konverzije, jer samo prezentiranje digitalnih vrijednosti signala

ne bi imalo smisla za gledaoca.

Formati digitalnih video signala

Razlikujemo dvije kategorije video signala: kompozitni i komponentni.

Kompozitni signal CCVS kombinuje luminansu Y i kominansu C u jedinsvenu struju koja se pohranjuje i prenosi. Primjeri analognog kompozitnog signala su emitiranje TV signala i snimanje na VHS kasetu.

Razmotrimo koncept digitalizacije PAL kompozitnog video signala. Polazno pitanje u digitalizaciji studijskog kompozitnog video signala je izbor frekvencije uzorkovanja. Usvojeno je da ona iznosi multipl od frekvencije podnosioca boje fSC, tj.

FS = 4fSC = 4*4,43 MHz = 17,73 MHz

Drugo znaajno pitanje je izbor broja bita n po uzorku, obzirom da ovaj izbor utie na kvalitet signala. Na raspolaganju su uglavnom rezolucije kvantizacije sa 8 bita i sa 10 bita. Sada emo prikazati numeraciju uzoraka u domenu vremena, za jednu kompletnu liniju, pomou primjera sa naredne slike.

Vidimo da se numeracija uzoraka posebno vri za interval video signala i posebno za interval horizontalnog blanking intervala.

Sada emo razmotriti i strukturu digitalnog rastera za jednu PAL liniju, uz pretpostavku da se posmatra color bar test signal tipa 100/0/100/0. Amplitudni raster, odnosno PALnivoi kompozitnog signala prikazani su na sljedeoj slici, za sluaj rezolucije kvantizacije

od 10 bita po uzorku.

Trajanje digitalne aktivne linije premauje trajanje aktivne analogne linije. Vidimo da je najvii nivo kvantizacije neto nii od 100% nivoa krome za sluaj kolor bar testa tipa

100/0/100/0, tako da se pojavljuje negativni headroom. To znai da ne postoji rezerva u preoptereenju A/D konvertora. Digitalni nivoi od 000 do 003 su zatieni i nisu dozvoljeni u struji podataka.

Komponentni signal sadri struje luminanse Y i krominanse Cr i Cb. Pri tome postoje dvije varijacije komponentnih signala: Y/C komponentni i RGB komponentni. Y/C koristi separatne kanale za transport informacija o luminansi i krominansi, dok RGB signal zahtjeva separatne kanale za svaki signal primarne boje. Komponentni signali imaju bolji kvalitet slike od kompozitnog videa.

Digitalizacija komponentnog videa znai digitalizaciju tri signala, to implicira sljedee karakteristike:

Utroak sklopova je znatno vei za tri lanca komponentnog signala, nego za jedan lanac kompozitnog video signala.

Postupak digitalizacije je jednostavniji, jer nema podnosioca boje.

Kljuno pitanje i u sluaju digitalizacije komponentnog signala je izbor frekvencije uzorkovanja. Kod kompozitnog signala je uzeta samo jedna frekvencije fS = 4 fSC.

Meutim za digitalizaciju tri komponentna signala moramo odabrati tri frekvencije

uzorkovanja. U vezi frekvencije uzorkovanja, dogovorena je jedinstvena referentna frekvencija od:

fr = 216*fl = 216*15 625 Hz = 3,375 MHz

Frekvencije uzorkovanja luminanse i krominanse su stoga multipli ove referentne frekvencije.

Razlikujemo vie sistema uzorkovanja, koji nose nazive prema faktorima multiplikacije referentne frekvencije:

Sistem uzorkovanja 4:1:1 znai da frekvencija uzorkovanja lume iznosi

13,5 MHz (4 x 3.375MHz), dok su frekvencije uzorkovanja krome po 3,375 MHz.

Ovaj sitem ima reduciranu horizontalnu kroma rezoluciju i koristi se u ureajima nieg kvaliteta. Podesan je za situacije gdje propusni opseg krominantnih signal ne premauje 1.5 MHz.

Sistem 4:2:0 ima reduciranu vertikalnu rezoluciju krome. U ovom sluaju kroma uzorci susjednih linija u poluslici su interpolirani u cilju produkcije jedinstvenog kroma uzorka, koji je prostorno lociran na pola razmaka jednog od originalnih uzoraka i lokacije iste linije, ali suprotne poluslike.

Sistem 4:2:2 oznaava frekvencije uzorkovanja od 13.5 MHz (4 x 3.375 MHz) za luminantni signal Y i 6.75 MHz (2 x 3.375 MHz) za krominantne signale U'B-Y i U'R-Y. Ovaj sitem ima najiru primjenu, te je usvojen za digitalnu studijsku tehniku.

Sistem 4:4:4 znai da su frekvencije uzorkovanja svih komponentnih signala

13.5 MHz. Sistem se koristi za opremu visokog nivoa studijskog kvaliteta.

Primjena ovog sitema je ograniena obzirom da zahtjeva velike bitske brzine

prenosa, odnosno enormno irok frekventni opseg.

Sistem 4:2:2

Nau panju emo usmjeriti na sistem uzorkovanja 4:2:2. Kako je ve reeno, ovaj system oznaava frekvencije uzorkovanja od 13.5 MHz (4 x 3.375 MHz) za luminantni signal Y i 6.75 MHz (2 x 3.375 MHz) za krominantne signale U'B-Y i U'R-Y.

Prikazaemo uporedo spektre uzorkovanih komponentnih video signala u sistemu kodiranja 4:2:2, pomou sljedee slike:

Vidimo da izbor frekvencija uzorkovanja lume od 13.5 MHz i krominantnih

komponenata od 6.75 MHz eliminira mogunost nastanka sprezanja (aliasing) i

intermodulacije spektara baseband luminantnog i krominantnih signala sa moduliranim uzorcima lume i krome.

Neki od osnovnih parametara sistema 4:2:2 su:

Broj uzoraka po totalnoj liniji: Y=864, CB=432 i CR=432

Broj uzoraka po digitalnoj aktivnoj liniji: Y=720, CB=360 i CR=360

Frekvencija uzorkovanja: Y: 864 x fl = 13.5 MHz; CB i CR: 432 x fl = 6.75 MHz

Rezolucija kvantizacije: 8 ili 10 bita po uzorku za svaki komponentni signal: Y, CB i CR.

Na osnovu pomenutih parametara vidimo da rezolucija kvantizacije moe biti 8 bita po uzorku, to znai raspon od 256 nivoa, dok kvantizacija od 10 bita po uzorku omoguava raspon od 1024 nivoa. Izraunaemo sada potrebnu brzinu digitalnog protoka za sluajeve rezolucije od 8 bita po uzorku i 10 bita po uzorku:

Rezolucija 8 bita: BR = (13.5 + 2 x 6.75) MHz x 8 = 216 Mbit/s

Rezolucija 10 bita: BR = (13.5 + 2 x 6.75) MHz x 10 = 270 Mbit/s

U oba sluaja se radi o velikim brzinama prenosa, ali se one mogu koristiti za studijsku distribuciju pod uslovom da se radi o malim distancama prenosa. Za distribuciju na druge sisteme, tj. za vee distance koriste se sistemi kompresije video signala, koji omoguuju znatno nie brzine BR.Kompresija video signala

Kompresija digitalnog video signala zapoinje ve pri formiranju komponentnog video

signala, jer su luminantna i dvije krominantne komponente predstavljene jednom transportnom strujom, unutar jedinstvenog propusnog opega od 5 MHz. Pomou ovog signala se formiraju digitalni komponentni signali, ije transportne struje imaju veoma visok digitalni protok, tj. visok BR (Mbps). Za signal tipa 4:2:2, pri rezoluciji od 8 bita po

uzorku nastaje digitalni protok od BR=216 Mbps, a pri rezoluciji od 10 bita po uzorku nastaje transportna struje od 270 Mbps, to zahtjeva velike propusne opsege, odnosno ograniava daljinu prenosa na primarnu distribuciju unutar prostora studija i reije.

Za potrebe sekundarne distribucije i zapisa neophodno je izvriti kompresiju video i audio signala, to praktino znai smanjivanje digitalnog protoka.

Razmotrimo stoga najprije teorijsku podlogu na osnovu koje se koncipira postupak kompresije. Osnovu ini utvrivanje neophodne koliine informacija iz izvora koju treba prenijeti kako bi se ista mogla reproducirati na strani prijema, kao i onog dijela informacije koja predstavlja viak informacije. To znai da u cilju kompresije video signala utvrenu suvinu informaciju ne treba prenositi.

Srednja koliina informacija skupa dogaaja predstavlja entropiju, a ona uzima maksimalnu vrijednost, ako svi dogaaji imaju jednaku vjerovatnou. Odstupanje entropije od njene maksimalne vrijednosti predstavlja redundancu. Redundanca je dakle onaj viak informacije, koji generira izvor, koji nije neophodno prenijeti da bi se identifikovala izvorna informacija.

Redundanca u slici

Za postizanje ekonominosti prenosa informacija potrebno je smanjiti redundanciju i svesti prenijetu informaciju na entropiju izvorne informacije. Prema enonovoj teoremi prosjena duina kodne rijei izvora ne moe biti kraa od entropije izvora.

Moemo prihvatiti interpretaciju po kojoj se kompresija zasniva na procesu redukcije informacija koje sadri slika ili grupa slika za iznos redundancije koje one sadre.

Postupak utvrivanja i redukcije redunadancije se moe definisati analizom statistike prediktabilnosti, tj. predvidivosti video signala.

Veina signala ima neki stepen prediktabilnosti. Navedimo dva ekstremna primjera prediktabilnosti:

Sinusni signal je potpuno predvidiv, jer ima samo jednu frekvenciju, odnosno ne trai poseban propusni opseg.

Na drugoj krajnosti se nalazi um, koji je potpuno neprediktabilan.

Signali u stvarnosti padaju negdje izmeu ove dvije ekstremne kategorije.

Razlikuje dvije kategorije redunadancije: psihofizika redundancija i statistika redundancija podataka.

Psihofizika redundancija

Psihofizika redundancija oznaava injenicu da vrijednosti digitaliziranih uzoraka u slici nisu jednako percipirane od strane vizuelnog sistema ovjeka HVS (Human Visual System). To znai da neke greke HVS ne registrira, a ne registrira ni ako se neke vrijednosti uzoraka promjene ili ak i odstrane. Razlikuju se optika iluzija, prepoznavanje uzoraka i efekat nagnutosti.

Oko ovjeka ima odreenu osjetljivost na promjene u prostoru, pri emu moemo konstatirati da veliki objekti imaju nisku prostornu frekvenciju, a mali objekti visoku. To praktino znai da zbog smanjenja osjetljivosti oka na visoke prostorne frekvencije moemo takve sadraje slike podvrgnuti grubljem stepenu kvantizacije, a greke kodiranja u blizini granine frekvencije prostorne rezolucije oko nee ni zamjetiti.

Mozak takoe ima uticaja na vienje slike. To znai da neke nekompletne structure registrira i automatski kompenzira stvarajui impresiju kompletne slike.

Oko ovjeka se adaptira na okolinu, pri emu se fokusira na horizontalne i vertikalne oblike, dok slabije reagira na druge. To oznaava efekat nagnutosti prikazan u gornjem primjeru: paralelnost, razmjetaj i irinu pravougaonika oko jasno razaznaje, dok je kosa rezolucija slabija. To praktino znai da dijagonalne prostorne frekvencije mogu biti

grublje kvantizirane, to e znaiti dodjelu manjeg broja bita po uzorku, a time i smanjenje bitske brzine, to je krajnji efekat kompresije.

Statistika redundacija

Statistika redundancija podataka znai da sve slike sadre veliki iznos identinih podataka, kao posljedica npr. identinih vrijednosti nekih oblasti pixela u slici. U pokretnom video signalu se razlikuju prostorna i vremenska redundancija.

Prostorna redundancija postoji unutar pojedine slike, odnosno unutar jednog frame-a, a to moe biti velika oblast uzajamno slinih pixela, kao to je npr. vedro nebo ili slika sa jednom dominantnom prostornom frekvencijom, npr. zid od cigle.

Prvi korak u veini sistema kompresije ovog tipa je identifikacija prostorne redundancije, koja je prisutna u svakoj poluslici (field) ili slici (frame).

Kompresija koja se ostvaruje na osnovu eliminacije prostorne redundance u frame-u se naziva Intra-frame kompresija.Vremenska redundancija se pojavljuje izmeu slika u kojima postoji velika slinost susjednih slika. Kompresija koja se ostvaruje putem uklanjanja redundance izmeu frame-ova naziva se Inter-frame kompresija.Standardi video kompresije

MPEG

Razlikujemo vie stepena kompresije u MPEG formatu, koji e biti prezentirani pojedinano, pri emu e posebna panja biti posveena MPEG-2 formatu, kao za sada najrairenijem formatu kompresije video signala.

MPEG-1

MPEG-1 dozvoljava dvosmjerno predvianje sa nadomjetanjem pokreta, pri kojem se trenutno procesirana slika ne uporeuje samo s prethodno projeciranim slikama, nego i sa slikama koje se u izvornoj video sekvenci nalaze iza nje.

Izvorni format slike za MPEG-1 standard je SIF (Source Input Format) koji ima rezoluciju luminantne komponente 360x240 elemenata slike za NTSC ili 360x288 elemenata slike za PAL, dok je rezolucija krominantne komponente jednaka polovici rezolucije luminantne komponente u horizontalnom i vertikalnom smjeru.

Model kodiranja video signala u MPEG postupku je organizovan u est slojeva

prikazanih u tabeli:

BLOK je najmanja jedinica kodiranja sastavljena od 64 elementa slike. To je osnovna jedinica za primjenu diskretne kosinusne transformacije DCT. Svaki luminantni element slike odgovara jednom elementu slike. Kromatska informacija se poduzorkuje u omjeru 2:1 u horizontalnom i vertikalnom smjeru, tako da se jedna kromatska informacija sastavljena od dvije krominantne komponente izvodi za etiri elementa slike.

MAKROBLOK je osnovna jedinica za kodiranje sa nadomjetanjem pokreta koja se sastoji od podruja 16 elemenata slike u 16 linija za luminantnu komponentu (4 bloka od

8x8 elemenata slike) i prostorno jednakog podruja sa 8 elemenata slike u 8 linija za svaku od krominantnih komponenata. To znai da makroblok sadri 4 luminantna bloka i

2 krominantna bloka, pri emu je podruje slike pokriveno sa 4 luminantna bloka jednako podruju slike koje je pokriveno pojedinim krominantnim blokom.

ISJEAK SLIKE (Slice) je horizontalni niz makroblokova koji je osnovna jedinica za uspostavljanje sinhronizacije izmeu postupaka kodiranja koji se provode na razini bloka i makrobloka. Prilikom pojave greke unutar slike zbog gubitka u prenosu, nije potrebno odbaciti cijelu sliku, ve je iz postupka dekodiranja mogue izostaviti samo isjeak slike i nastaviti dekodiranje sa sljedeim ispravno primljenim isjekom slike.

SLIKA je osnavna jedinica u MPEG postupku kodiranja. Slike se dijele na:

I-slike (Intra Coded Pictures) koje su samostalno kodirane unutarnjim prostornim (ancore picture) kodiranjem,

P-slike (Predictive Coded Pictures) koje su direktno kodirane sa predvianjem, uz nadomjetanje pokreta, pri emu se kao polazna slika u postupku predvianja koriste prethodne I-slike.

B-slike (Bidirectionall Coded Pictures) koje se dvosmjerno kodirane sa predvianjem, uz nadomjetenje pokreta, a mogu se genirirati iz prethodne, ali i iz naredne I ili P-slike.

Odnosi izmeu ovih slika su grafiki predstavljeni na sljedeoj slici.

Pri tome se kao polazne slike u postupku predvianja koriste i prethodne i budue I-slike ili P-slike i D-slike (DC Coded Pictures) kod kojih se kodira samo istosmjerni (DC) koeficijent diskretne kosinusne transformacije.

GRUPA SLIKA (GOP, Group of Pictures) se sastoji od jedne ili vie slika, a predstavlja najmanju jedinicu koja moe biti neovisno dekodirana unutar video sekvence.

SEKVENCA je najvii sloj u hijerarhijskoj strukturi kodiranja koja se sastoji od zaglavlja i odreenog broja grupa slika. Zaglavlje sekvence uspostavlja poetno stanje dekodera kako prethodno dekodirane sekvence ne bi imale uticaja na trenutni proces dekodiranja.

MPEG-2

Potreba da se ogromna koliina podataka unutar digitalnog video signala smjesti u znatno manji prostor, stvorila je novu oblast kompresije u proizvodnji i emitovanju televizijskog signala: MPEG-2. MPEG-2 predstavlja grupu standarda sa razliitim profilima i nivoima.

Profil moe biti razmatran kao podskup skupa parametara koji potpuno definiraju video sintaksu, dok je nivo skup ogranienja koja vrijede za parametre video sintakse. Video sintaksa moe biti podjeljena u dvije glavne kategorije: slojevitu i cjelovitu sintaksu.

Cjelovita sintaksa definira neophodne postupke za kompresiju izvornih formata video signala, ukljuujui i analiziranje s proredom. Slojevita sintaksa prua mogunosti rekonstrukcije slike iz dijelova ukupnog toka podataka, to je postignuto podjelom ukupnog toka podataka na dva ili vie slojeva poevi od osnovnog sloja koji moe biti nadopunjen dodatnim slojevima.

Osnovni algoritam kodiranja predvien MPEG-1 standardom je zadran i u MPEG-2 standardu, a manje izmjene su nastale zbog potrebe za prilagoavanjem MPEG-2 standarda ulaznom formatu slike koji koristi analiziranje s proredom, gdje se jedna slika dijeli na dvije poluslike sastavljene od parnih i neparnih linija. MPEG-1 standard doputa samo progresivno analiziranje, dok MPEG-2 standard, kao opi standard, mora sadravati rjeenja i za progresivne formate izvorne slike i za formate izvorne slike s proredom, koji zahtjevaju sloenije naine predvianja. Glavne osobine MPEG-2 standarda su:

MPEG-2 = MPEG-1 + alati inerlace + prifili i nivoi

Nova field/frame predikcija i DCT modovi za analizu s proredom (interlace)

Kvantizacija u veem podruju i adaptivnost

Novi VLS (Variable Length Codes)

Proirena skalabilnost (prostorna, SNR, vremenska)

Sistemski sloj za viestruke transportne struje

Audio proiren na multi-kanalni zvuk

Slojevitost je kljuni koncept, ijom primjenom je mogue postii kompatibilnost

MPEG-2 postupka kodiranja sa postojeim algoritmima kao to su JPEG, MPEG-1, ali je to i vrlo djelotvorna tehnika za rjeavanje optih problema vezanih za vierezolucijske ulazne formate, kodiranje sa promjenljivom brzinom prenosa i sueljavanje sa mreama zasnovanim na asinhronom nainu prenosa. MPEG-2 standard predvia nekoliko razliitih oblika slojevitosti, kao to su odjeljivanje podataka, slojevitost u odnosu na omjer signal/um, prostorna slojevitost i vremenska slojevitost. Podrane su i kombinacije ovih osnovnih oblika slojevitosti, koje daju hibridnu slojevitost. Osnovna slojevitost dozvoljava podjelu video signala u dva sloja, dok hibridna slojevitost podrava podjelu u tri sloja.

MPEG-2, kao opti standard za kodiranje video signala, mora biti prilagoen razliitim primjenama i formatima izvornih slika, to je postignuto primjenom strukture profila i nivoa. Profil je difiniran kao skup od jednog ili vie osnovnih standarda, dok je nivo definiran podrujem parametara kao to se veliina slike, frekvencija izmjene slika, brzina prenosa i dr.

MPEG-2 standard predvia pet razliitih profila:

Osnovni profil, s najniom kvalitetom i bez mogunosti slojevitog kodiranja.

Glavni profil, istih svojstava kao i osnovni, ali bez mogunosti interpolacije slika.

Profil sa slojevitou u odnosu na omjer signal/um, u kome su podrane razliite kvalitete slike iskazane preko omjera signal/um.

Profil sa prostornom slojevitou, u kome su podrane razliite prostorne

rezolucije slike.

Vrni profil, koji podrava potpunu slojevitost.

MPEG-2 standardom su utvrena etiri nivoa:

Niski nivo, koji odgovara CIF formatu slike iz H.261 standarda ili SIF formatu

slike iz MPEG-1 standarda.

Glavni nivo, koji odgovara standardnim formatima TV slike (NTSC, PAL,

SECAM).

Visoki 1440 nivo, koji odgovara TV signalu visoke kvalitete sa 1440 uzoraka po liniji.

Visoki nivo, koji odgovara TV signalu visoke kvalitete sa 1920 uzoraka po liniji.

Nivoi su pridrueni svakom profilu, ali nisu mogue sve kombinacije profila i nivoa.

Zbog ovakve strukture MPEG-2 standard podrava veliki raspon horizontalnih i vertikalnih rezolucija, formata slike i brzina prenosa.

MPEG-4

MPEG-4 ima za cilj osigurati opti i djelotvoran postupak kodiranja audiovizuelnih podataka u razliitim oblicima, koji se nazivaju audiovizuelni objekti. Cilj MPEG-4 standarda je prikaz svijeta koji nas okruuje kao kompozicije audiovizuelnih objekata, koja je popraena tekstom koji opisuje njihove prostorne i vremenske odnose.

MPEG-4 standard e omoguiti ineraktivnu mobilnu multimedijsku komunikaciju, video

telefoniju, mobilnu audiovizuelnu komunikaciju, elektronsko novinarstvo, videotekst itd.

MPEG-4 standardni postupak se sastoji od etiri osnovna dijela: MSDL (MPEG-4 Syntactic Description Language), alati, algoritmi i profili. MSDL treba omoguiti odabir, opis i prenos alata, algoritama i profila, te opisivati na koji se nain analizira i procesira elementarni tok podataka.

Osnovna svojstva MPEG-4 standarda video kompresije moemo svrstati na sljedei nain:

Poboljana kodna efikasnost na niskim brzinama digitalnog protoka (BR)

- poboljana kompenzacija kretanja

- separatno kodiranje objekata

- pozadina se rjee kodira u odnosu na pokretne objekte

- mogua primjena na niim MPEG-2 bitskim brzinama

Nove funkcije zasnovane na interaktivnosti sadraja

- separatno kodirani objekti se mogu koristiti za proizvodnju raznovrsnih rezultujuih programa zasnovanih na interakciji sa korisnikom