MM skripta 11 - racunarstvo550.xyz. semestar/Multimedijske... · kojima se mogu obrađivati neki ili svi multimedijski elementi (objekti), ali tipično s bitno manjim mogućnostima

Embed Size (px)

Citation preview

  • Fakultet elektrotehnike, strojarstva i brodogradnje u Splitu

    MULTIMEDIJSKI SUSTAVI

    Hrvoje Dujmi

    oujak 2012.

  • 1

    SADRAJ 1. Povijest ................................................................................................................................ 32. Osnovno o multimediji ....................................................................................................... 53. Pregled multimedijskih softverskih alata ............................................................................ 84. Dizajn multimedijskih aplikacija ...................................................................................... 135. Signali ............................................................................................................................... 186. Audio signal ...................................................................................................................... 217. Kompresija audio signala .................................................................................................. 358. boja u slikama i video signalima ....................................................................................... 519. Slikovni signali (slike i grafika) ........................................................................................ 6910. Osnove videa i televizije ............................................................................................... 7911. Kompresija slikovnih signala ........................................................................................ 8512. Koncept kompresije video signala ................................................................................ 9713. Standardi za kompresiju video signala ........................................................................ 10614. Virtualna stvarnost ...................................................................................................... 134

  • 2

    MULTIMEDIJSKI SUSTAVI

    Hrvoje Dujmi

    Uvod Multimedijski sustavi izuzetno su znaajni u svim aspektima informacijske tehnologije te bitno utjeu na dizajn hardvera, softvera te raznih aplikacija i mrea. Prouavanje multimedijskih sustava zahtijeva interdisciplinarni pristup jer ukljuuje kako hardver i softver tako i mree, ali i razne aspekte percepcije i teorije signala. To je podruje gdje se sastaje nekoliko znaajnih industrija: raunarstvo, telekomunikacije, izdavatvo, audio i video potroaka elektronika, TV i filmska industrija. Naroito znaajan rast multimedijski sustavi doivljavaju poetkom 90tih godina i zajedno s Internetom predstavljaju jedan od najbre rastuih, ali i ekonomski najznaajnijih aspekta informacijske i telekomunikacijske industrije te time i gospodarstva openito.

    U ovoj knjizi ukratko su prikazani temelji multimedijskih sustava ukljuujui i mrene aspekte kao i upravljanje informacijama. Takoer se daje prikaz naina na koji su multimedijski sustavi implementirani kao i detalje o dizajnu raznih komponenti multimedijskih sustava. U ovoj knjizi su dani koncepti i objanjenja koristei onoliko matematike koliko je nuno za shvaanje multimedijskih sustava i njihove uloge u irem informacijskom sustavu.

    itajui ovu knjigu imajte na umu da su promjene u podruju kojim se ona bavi tako brze i velike da je praktino nemogue napisati knjigu koja bi bila toan prikaz trenutno najpopularnijih i najboljih tehnologija. Tek to se neka tehnologija ili algoritam probije meu korisnicima kao najbolji ve se javlja drugi, bolji i zanimljiviji, i tako u neprestanoj spirali jedna tehnologija smjenjuje drugu.

  • 3

    1. POVIJEST MULTIMEDIJE Razni aspekti koji tvore multimedijski sustav kao to su npr. slike, tekst i govor te njihova obrada poznati su ve odavno. Prvi oblici smislenog zapisivanja informacija pojavili su se prije otprilike 6000 godina da bi jo 2000 godina trebalo da se pojavi i prva abeceda. Veliki napredak predstavljao je izum tiskarskog stroja u Kini u XI stoljeu, a u Europi 1451. godine kada Guttenberg tiska prvu europsku knjigu. Sredinom XIX st. izmiljen je nain pohranjivanja slika fotografski aparat, a zatim i nain pohranjivanja zvuka. Razvitak koji je slijedio bio je strelovit, a kulminirao je dananjom digitalizacijom praktino svih medija. Ipak, to su bili tek segmenti koje je tek trebalo udruiti u jedan jedinstveni sustav multimedijski sustav.

    Prvi spomen ideje odnosno koncepta bliskog dananjem poimanju multimedije bio je u lanku "As We May Think" [Bush 1945] koji je Vannevar Bush objavio 1945. u asopisu Atlantic Monthly. Naime, oito je da ljudski um ne radi na linearan nain. Naprotiv, um uvijek tei stvoriti asocijacije kada mislimo o neemu redovito mislimo i o jo neemu povezanom s tim. Jednostavno skaemo s jedne teme na neku drugu, blisku temu. Slijedei tu ideju, Vannevar je predloio foto-elektrino-mehaniki ureaj koji bi bio u stanju slijediti veze izmeu dokumenta pohranjenih na mikrofilmovima. Indeksiranje veza (linkova) kakve je on predloio u naelu su isti kao i koncept koji se danas koristi u World Wide Web linkovima. Taj svoj ureaj on je nazvao Memex i openito se Vannevarov lanak smatra poetkom multimedije. Vannevar je bio puno ispred svog vremena trebalo je proi nekoliko desetljea da se koncept koji je on nazvao Memex iroko prihvati. Dvadeset godina poslije Ted Nelson je za taj koncept predloio rije hipertekst (engl. hypertext). U to vrijeme ljudsko znanje je ve bilo toliko naraslo da ga linearna veza meu podacima vie nije mogla uspjeno povezivati. Tada je sazrelo vrijeme za iroku primjenu Vannevarove ideje sada nazvane hipertekst. Sreom, tada su se poeli masovnije koristiti ureaji koji su omoguili primjenu koncepta hiperteksta u praksi to su bila raunala.

    Kratka povijest razvitka multimedijskih sustava odnosno raznih ideja, koncepata i aplikacija znaajnih za razvitak multimedijskih sustava dana je nastavku [www.w3.org], [www.isc.org], [www.isoc.org].

    4000 pne pismo 2000 pne abeceda 1000 tiskarski stroj u Kini (1451 u Europi) 1835 telegraf (Samuel Morse) 1839 foto aparat 1872 pisai stroj 1876 telefon (Alexandar Graham Bell) 1895 film (braa Lumiere) 1919 radio broadcasting (Kanada, Nizozemska) 1935 TV broadcasting (Njemaka, Velika Britanija) 1945 Vannevar Bush (1890-1974) predloio koncept veza meu podacima pohranjenim na

    mikroipove i nazvao ga Memex 1953 TV u boji 1965 Ted Nelson u lanku "A File Structure for the Complex, the Changing, and the

    Intermediate" [Nelson 1965] prvi put upotrijebio rije "hyperteks" 1969 u okviru ARPA projekta (ARPANET mrea) spojena etiri vora (UCLA, Standford

    Research University, University of California Santa Barbara i University of Utah) i to s raunalima Honeywell DDP-516 s 12K memorije smatra se poetkom ARPANET/Interneta

  • 4

    1972 Ray Tomlinson modificirao e-mail program za ARPANET i odabrao znak @ za znaenje "at" (tj. u, na); prvi e-mail program nastao je 1971., telnet 1972., FTP 1973.

    1977 broj hostova preao 100 1979 Kevin MacKenzie predloio da se u suhoparni tekst dodaju "emocije" kao npr. :). Iako u

    poetku ismijan, posebni karakteri koji odraavaju emocije postali su kasnije ope prihvaeni.

    1984 broj hostova preao 1000 1986 stvoren NSFNET (koji formira backbone onoga to danas zovemo Internet) omoguivi

    eksploziju hostova na Internetu posebice sveuilinih (backbone je u poetku bio 56Kbit/s); ARPANET je ugaen 1990.

    1987 Apple predstavio prvi hipertekstualni sustav za editiranje dostupan irokom krugu korisnika HyperCard koji se isporuivao besplatno uz svaki Macintosh

    1990 Tim Berners-Lee na CERNu zavrio razvitak hipertekstualnog GUI browser/editora. Tim jo od 1980. radi na razvoju hipertekstualnih sustava i u Internetu je vidio priliku da se koncept hiperteksta prihvati na iroj razini. Taj svoj program Tim je nazvao WorldWideWeb1. Prvi web server nxoc01.cern.ch.

    1992 Jean Armour Polly stvorio izraz "Surfati Internetom" (Surfing the Internet) 1992 broj hostova preao 1000000 1993 prvi grafiki browser za WWW Mosaic razvijen od National Center for

    Supercomputing Applications. Te godine WWW promet ini 1% ukupnog prometa na NSFNET. Nakon zavretka studija, studenti koji su radili na razvitku Mosaica osnivaju Netscape Communications Corporation te 1994. razvijaju browsers koji e godinama dominirat tritem.

    1994 prvi put mogue naruiti (pizzu) preko Interneta 2001 broj hostova preao 100 milijuna [33]

    1 U dokumentu [Barners-Lee 1989] kojim je Barners-Lee pokuao uvjeriti upravu CERNA da prihvati rad na tom projektu, za ideju koristi naziv Mesh. Kasnije e, u tijeku izrade programa, promijeniti naziv u World Wide Web,

  • 5

    2. OSNOVNO O MULTIMEDIJI to je to zapravo multimedija? U emu je razlika izmeu hiperteksta, hipermedije i multimedije? Multimedija bi se mogla definirati kao bilo koja aplikacija koja osim standardnih ukljuuje i druge tipove medija. Pri tome pod standardnim medijima smatramo tekst, crtee i slike, a pod drugim tipovima medija smatramo tzv. kontinuirane medije kao to su video, audio i animacije. Multimedija bi se dakle mogla definirati kao integracija kontinuiranih medija (video, zvuk, animacija) i diskretnih medija (tekst, grafika, slike) tako da se informacija na prikladan nain prezentira korisniku. Po ovoj definiciji tekst procesor koji bi obraivao tekst i slike ne bi bio multimedija. Da bi se radilo o multimediji trebao bi biti ukljuen barem jedan kontinuirani medij, npr. video.

    Rije multimedija sastavljena je od dviju rijei: multi i medij. Prefiks multi dolazi od latinske rijei multus (brojan). Medij dolazi takoer od latinske rijei media to je mnoina od medium (sredina, centar), ali ima i znaenje radne tvari koja je nosilac energije u nekom procesu, kao i znaenje sredstva prenoenja informacija.

    Multimedija je pojam koji se danas koristi kod raznih sustava, proizvoda, koncepata, i sl., a moe imati bitno ire i drugaije znaenje nego je to ovdje definirano. I pojam medij koji ovdje koristimo u smislu percepcije (video, slika, audio, tekst, itd.) moe se puno ire promatrati. Tako postoji medij za pohranu, medij za prijenos, medij za prezentaciju, itd. Guojun Lu "Multimedia is system capable of handling at least one type of continuous media in digital form as well as static media." Franklin Kuo: "Multimedia concerns the representation of mixed modes of information text, data, image, audio and video as digital signals. Multimedia Communications concerns the technology required to manipulate, transmit, and control these audiovisual signals across a communications channel." Lawrence A. Rowe "U stvarnosti je pojam multimedije toliko esto, nepotrebno i neodgovarajue upotrebljavan; praktino zloupotrijebljen do te mjere da danas pojam multimedija ne znai gotovo nita."

    Hipertekst je tekst koji sadri veze (linkove) na druge tekstove i openito je nelinearan. Koncept hipermedije je slian konceptu hiperteksta, ali bez ogranienja na tekst. Hipermedija moe dakle ukljuiti i duge medije kao to su slike, crtei, audio, video. Tipian primjer hipermedijske aplikacije je World Wide Web (WWW).

    Oito je da se hipertekst/hipermedija moe smatrati jednom od multimedijskih aplikacija pa se u tom smislu ta dva izraza moraju i razlikovati. Slika 2.1 ilustrira razliku izmeu obinog teksta, hiperteksta i hipermedije. Multimedijski sustavi nuno imaju neka svojstva kao to su:

    istodobno koritenje diskretnih i kontinuiranih medija, integracija, neovisnost medija, raunalno upravljanje.

    Osim toga, veina multimedijski aplikacija su interaktivne (slika 2.2).

  • 6

    obini tekst hipertekst hipermedija

    Slika 2.1 Koncept hiperteksta i hipermedije

    tekst

    interakcija

    slika/grafika

    video/animacija

    audio/govor

    Slika 2.2 Multimedijski dokumenti/aplikacije su redovito interaktivne Primjeri multimedijskih aplikacija:

    audio/video konferencija, video na zahtjev (Video on Demand VoD), sadraj na zahtjev (Content on Demand), interaktivna TV, virtualna stvarnost, igre, web, digitalne knjinice, editiranje digitalnog audio/videa i postprodukcija, multimedijsko stvaranje (Multimedia Authoring), elektronike novine, kupovanje putem Interneta.

    Zato je multimedija tako zanimljiva?

    Rad na daljinu i sline aplikacije koje ukljuuju komunikaciju ljudi na udaljenim mjestima sve su zanimljivije kako zbog sigurnosnih tako i zbog financijskih aspekata.

    Konvergencija raunala i komunikacija, ali i TV, integrira razliite tipove podataka pa je tako bliska ljudskom nainu razmiljanja.

  • 7

    Veliki potencijal razvitka raznih aplikacija (uenje, zabava, rad, ...). Tehniki/inenjerski je jako zanimljiva. Zabavna je (igre, umjetnost, ...).

    to je omoguilo tako nagli razvitak multimedijskih aplikacija?

    Digitalizacija praktino svih medija. Digitalizacija praktino svih ureaja. Razvitak podatkovnih i komunikacijski mrea. Poveanje pojasne irine (naroito pojasne irine na zahtjev). Brzi procesori naroito audio/video specijalizirani. Veliki kapaciteti ureaja za pohranjivanje. Novi algoritmi i strukture podataka. Objektno orijentirane paradigme i objektno orijentirano modeliranje. Bolji softver (operativni sustavi, koderi/dekoderi).

    Hardver i softver potreban za multimedijske sustave:

    Ureaji za skupljanje podataka (Capture devices) - video kamera, video rekorder, mikrofon, tipkovnica, mi, grafika ploa (graphical

    tablet), 3D ulazni ureaji, ureaji virtualne stvarnosti (miris, dodir), ureaji za digitalizaciju/uzorkovanje;

    Ureaji za pohranu - vrsti disk, CD, DVD, disketa, brza memorija, DAT, memorijske kartice;

    Komunikacijske mree - Ethernet, Token Ring, FDDI, ATM, Intranet, Internet;

    Raunalni sustavi - multimedijski PC, Radna stanica, MPEG/VIDEO/DSP hardver;

    Ureaji za prikazivanje (Display Devices) - zvunici, TV, HDTV, monitor, LCD, printer, projektor.

    Podruja koja obuhvaaju multimedijski sustavi prikazani su na slici 2.3, a mogu se podijelit u etiri

    skupine: osnove, sustavi, usluge i primjene. Osjenani su oni aspekti koji e se prouavati u ovoj knjizi.

    Slika 2.3 Najznaajnija podruja koja obuhvaaju multimedijski sustavi

  • 8

    3. PREGLED MULTIMEDIJSKIH SOFTVERSKIH ALATA Multimedijske softverske alate moemo podijeliti u dvije skupine:

    alati za obradu pojedinih multimedijskih objekata, alati za izradu multimedijskih dokumenata.

    Multimedijski objekt moemo definirati kao jedinstven skup (cjelinu) informacija, a fiziki je to najee datoteka u memoriji raunala. Osnovni tipovi multimedijskih objekata su tekst, slike, grafika, audio, video i animacija.

    Izrada multimedijskih dokumenata (engl. Multimedia Authoring) je u naelu povezivanje multimedijskih objekata. Mnogi od alata za izradu multimedijskih dokumenata u sebi sadre i dijelove kojima se mogu obraivati neki ili svi multimedijski elementi (objekti), ali tipino s bitno manjim mogunostima od za to specijaliziranih alata. Alati za izradu multimedijskih objekata i multimedijskog materijala ne smiju se mijeati s programima za vizualizaciju tj. prikazivanje multimedijskih objekata tzv. preglednicima (engl. viewers). Tako postoji preglednici koji prikazuju slike, preglednici koji prikazuju video, itd. (slika 3.1).

    Slika 3.1 Razliiti preglednici za razliite medije 3.1. ALATI ZA IZRADU/OBRADU MULTIMEDIJSKIH OBJEKATA Alati za izradu/obradu multimedijskih objekata nazivaju se jo i editori. U ovu skupinu spadaju alati kojima se izrauje/obrauje:

    tekst (npr. Microsoft Word), digitalni audio (npr. Steinberg Wavelab), glazba (npr. Steinberg Cubase), animacija (npr. Avid SoftImage), grafika (npr. Adobe Illustrator), slike (npr. Adobe Photoshop), video (npr. Adobe Premiere).

  • 9

    Izrada/obrada multimedijskih objekata nije jednostavan zadatak te je praktino nemogue

    napraviti takav editor kojim bi se mogli obraivati svi ili veina multimedijskih objekata. Stoga se najee razliiti multimedijski objekti obrauju razliitim editorima (slika 3.2). Dakle, ovakvi programi ne slue za izradu multimedijskih sustava ve samo pojedinih elemenata pa se nee detaljnije razmatrati.

    Slika 3.2 Razliiti editori za razliite medije 3.2. IZRADA MULTIMEDIJSKIH DOKUMENATA Multimedijski dokument se sastoji od vie razliitih multimedijskih objekata. Svaki multimedijski dokument ima internu strukturu koja definira na koji nain su multimedijski objekti povezani. Ti multimedijski objekti obino se stvaraju i editiraju neovisno o samoj izradi multimedijskog dokumenta. Objekti sadrani u multimedijskom dokumentu mogu biti

    fiziki ukljueni u dokument (engl. embedding), pridrueni dokumentu preko veza (engl. linking).

    Kako multimedijski dokument esto ima i elemente interakcije i praktino ulogu aplikacije, to

    se esto umjesto izraza dokument koristi s neto proirenim znaenjem i izraz aplikacija pa se govori o multimedijskoj aplikaciji. Izrada multimedijskih aplikacija (engl. Multimedia Authoring) je postupak kojim se udruuju multimedijski objekti te se kombinira i kontrolira njihov tok. Drugim rijeima Multimedia Authoring je postupak kojim se stvaraju multimedijske aplikacije/dokumenti, a programi (razvojni alati, sustavi) kojima se to radi nazivaju se Multimedia Authoring Tools ili Multimedia Authoring Systems. Proces izrade multimedijske aplikacije/dokumenta ilustriran je na slici 3.3.

  • 10

    Multimedia Authoringsustavi

    Editori

    - tekst - audio - glazba - animacija - grafika - slike - video

    Slika 3.3 Izrada multimedijskog dokumenta/aplikacije

    Postoji vie metodologija (tzv. metafora, paradigmi engl. metaphor, paradigm) koje se koriste u postupku izrade multimedijskih aplikacija. Pojedini od alata za izradu multimedijskih aplikacija se temelje na jednoj ili vie tih metodologija, odnosno same multimedijske aplikacije mogu biti izraene slijedei jednu ili vie metodologija. Openito, upotrebom alata za izradu multimedijskih aplikacija (engl. Multimedia Authoring Tools) izrada multimedijskih aplikacija je znaajno bra u odnosu na standardno programiranje. Tipino se smatra da je vremenski odnos 1:8.

    1. Skripting paradigma kod ovog pristupa koriste se specijalni, tzv. skripni jezici za stvaranje pojedinih multimedijskih komponenti kao to je npr. kontrola mia, interaktivnost i sl. Takvi jezici imaju i razne elemente programiranja kao to su petlje, uvjeti, skokovi, funkcije i sl. i od svih metodologija za izradu multimedijskog materijala najsliniji su standardnom programiranju (slika 3.4). Izrada ovakvim alatima je relativno spora, ali su mogunosti velike. /AfterGRASP (besplatan za nekomercijalne primjene)/

    Multimedijski objekti

    Objekt 2

    Objekt 4

    Objekt 3

    Objekt 1

    Interna struktura(script)

    Operacija 1Operacija 2Operacija 3Operacija 4Operacija 5Operacija 6Operacija 7Operacija 8Operacija 9

    Slika 3.4 Skripting paradigma

  • 11

    2. Card/Scripting paradigma kod ovog pristupa skriptni jezik prua velike mogunosti, ali je ogranienje index-card struktura. Idealna za hipertekst/hipermedija aplikacije i posebice one aplikacije kod kojih je intezivno koritenje navigacije. Kod veine zabavnih aplikacije prototipovi su napravljeni u card/scripting sustavima pa su onda kodirani u nekom programskom jeziku. /MetaCard (MetaCard)/

    3. Cast/Score/Scripting paradigma koristi se "notni" (score) pristup na nain da su svi elementi

    koje treba sinkronizirati poredani u razliitim vodoravnim trakama s time da se vremenska os prati po vertikali. Snaga ovog pristupa je u sposobnosti da se programira skripnim jezikom (scripting) svaki od zdruenih (cast) lanova (slika 3.5). Ovaj je pristup najbolji za aplikacije s puno animacija i intenzivnom potrebom za sinkronizacijom. Cast/Score/Scripting paradigma poznata je i kao paradigma vremenske skale (engl. timeline). /Director (Macromedia-Adobe); Flash (Macromedia-Adobe)/

    Multimedijski objekti(cast)

    Objekt 2

    Objekt 4

    Objekt 3

    Objekt 1

    (score + scripting)

    t

    audio

    video

    animacija

    animacija

    Operacija 1Operacija 2Operacija 3Operacija 4Operacija 5Operacija 6Operacija 7Operacija 8Operacija 9

    Interna struktura

    Slika 3.5 Cast/Score/Skripting paradigma

    4. Iconic/Flow Control paradigma vremenski brza izrada multimedijskih aplikacija koja se esto koristi za izradu sustava za treniranje (uenje). Osnova je paleta ikona (koje sadre mogue funkcije/interakcije programa) i dijagram toka (Flow Control) koji pokazuje veze meu ikonama. Ovakav pristup rezultira aplikacijom ije je izvrenje relativno sporo. /Authorware (Macromedia)/

    5. Frame paradigma slina Iconic/Flow Control paradigmi jer ukljuuje paletu ikona. Meutim

    linkovi izmeu ikona su konceptualni i ne odgovaraju uvijek stvarnom toku programa. Stoga je ispravljanje greaka kod ovakvih sustava oteano, ali je s druge strane multimedijsku aplikaciju mogue izraditi izuzetno brzo. /iShell (Tribeworks); QuarImmedia (Quark)/

    6. Hierarchical Object paradigma multimedijski objekti i njihova svojstva predstavljeni su

    stablastom strukturom. Obino se koristi kod aplikacija koje se temelje na upotrebi izbornika. /Katabounga (Abvent), Dazzler (Dazzlersoft)/

    7. Hypermedia Linkage paradigma slina Frame paradigmi jer pokazuje konceptualne veze

    meu elementima, ali za razliku od Frame paradigme nema vizualno povezivanje. /Formula Graphics Multimedia System (Formula Software Pty Ltd)/

  • 12

    8. Tagging paradigma koristi tagove u tekstualnim fajlovima (npr. HTML, VRML i sl.) kako bi povezali stranice, te tako omoguava interaktivnost i ukljuivanje multimedijskih elemenata (slika 3.6). /Lexicographer (Abiogenesis Software)/

    Tag 3

    Tag 2

    Tag 1

    Tag 3

    Tag 2

    Tag 1

    Slika 3.6 Tagging paradigma

    9. Slide Show paradigma u osnovi je to linearna prezentacija. /Power Point (Microsoft)/

  • 13

    4. DIZAJN MULTIMEDIJSKIH APLIKACIJA Izrada multimedijskih objekata, a posebice njihova integracija u multimedijsku aplikaciju nije jednostavan i lagan zadatak. Iako je snaga multimedije u integraciji razliitih medija (objekta) uspjeh nije zagarantiran pukim ukljuivanjem velikog broja razliitih objekata. Tako npr. korisnik moe jednostavno biti izritiran ili e u najboljem sluaju izgubiti interes ako se zvuni efekti preesto koriste, ako animacije predugo traju, itd. Uspjeh vie ovisi o paljivom odabiru objekata i uspjenosti njihovog povezivanja nego o njihovom broju. Multimedijska aplikacija trebala bi biti takva da je:

    korisna (da korisniku prui ono to on eli), jednostavna (da ne zahtjeva previe napora prilikom koritenja), zanimljiva (da rezultira pozitivnim osjeajem i eljom za ponovnim koritenjem).

    Postoje standardi kojima se definiraju neki od elemenata koji su potrebni kod dizajniranja

    multimedijskih elemenata kao to je npr. standard ISO 9241: Ergonomic requirements for office work with visual display terminals. Tim se standardom definiraju temeljna naela vezana uz ljudsko doivljavanje multimedijskih objekata (npr. propisuje minimalnu i maksimalnu snagu zvuka) ali i detalji vezani uz dizajn standardnih suelja i formi kao to su npr. izbornici, struktura navigacije, odnos prema ljudima sa specijalnim potrebama i sl. Ipak, takav openiti standard, ali i neki drugi koji su specifini, imaju samo ogranienu primjenu. Openiti standardi daju samo temeljna naela i apstraktne modele koje tek treba razraditi u stvarnoj primjeni. S druge strane specifini (detaljni) standardi imaju previe iznimaka pa je njihova primjena sloena.

    Izrada multimedijskih aplikacija bitno ovisi o potrebama korisnika, cilju, opem kontekstu u kojem e se koristiti, razini znanja, starosti i edukaciji korisnika, razini interaktivnosti, nainu distribucije i o nizu drugih faktora. Ipak neke temeljna naela, ali i specifine detalje, definirane standardima, korisno je poznavati i primjenjivati to je mogue vie, jer su uspjene multimedijske aplikacije temeljene upravo na takvim zahtjevima. U nastavku poglavlja bit e prikazani neki od tih zahtjeva koje bi trebalo zadovoljit kako bi multimedijska aplikacija bila uspjena. Tri su elementa o kojima treba voditi rauna prilikom dizajniranja multimedijskih aplikacija

    dizajn sadraja, vizualni dizajn, tehniki detalji.

    4.1. DIZAJN SADRAJA Prilikom dizajna (kreiranja) sadraja najprije se susreemo s izborom vrste medija. Moemo kazati da postoji pet vrsta medija koje moemo koristiti:

    tekst, grafika/slike, animacija/video, audio/govor, interakcija.

  • 14

    Izbor medija ovisi o znanju i iskustvu korisnika, tipu aplikacije i sl. Najee se postavlja pitanje izbora izmeu audio i vizualnih medija pri emu pod vizualne medije moemo smatrati tekst, video i grafiku. U tablici 4.1 dane su preporuke vezane uz izbor audio odnosno vizualnog medija.

    audio medij je prikladan vizualni medij je prikladan

    ako je poruka kratka i jednostavna ako je poruka sloena i/ili dugaka ako se nee ponavljati ako e se ponavljati ako zahtijeva trenutnu reakciju posebno ako je reakcija govorna

    ako zahtijeva reakciju miom, tipkovnicom i sl.

    Tablica 4.1 Preporuke za izbor izmeu audio i vizualnog medija

    4.1.1. Tekst Najvei broj multimedijskih aplikacija ukljuuje tekst, ak i ako se grafika intenzivno koristi. Tekst je najfleksibilniji nain prezentiranja informacija na zaslonu. esto je korisnije razmotriti kako tekst prezentirati na odgovarajui nain nego ga pokuati zamijeniti s govorom ili slikom. Treba voditi rauna da:

    Tekst mora biti to je mogue jednostavniji. Reenice trebaju biti kratke i precizne. esto je korisno napisati cjelovitu poruku/poruke

    pa ih onda skraivati. Svaka sistemska poruka treba biti takva da je napisana sa stajalita korisnika, a ne

    programera. Korisniku se ne smije kazati da je napravio neto pogreno treba mu kazati kako da napravi ispravno.

    Skraenice treba upotrebljavati to je mogue manje i samo ako su ope poznate te njihova upotreba treba biti konzistentna u cijelom tekstu.

    Tekst ima prednost jer se s njim:

    lako manipulira (zahtijeva malo vremena za izradu), lako pohranjuje (zahtijeva malo memorije), lako prenosi (zahtijeva malu pojasnu irinu).

    S druge strane sami tekst najee nije dovoljan (treba puno teksta da bi se objasnio

    jednostavni koncept). 4.1.2. Grafika/slike Slikom se moe vrlo efikasno prenijeti informacija ("Jedna slika vrijedi tisuu rijei"). Temeljna razlika izmeu slike i grafike je to se slika snima, a grafika kreira. Obino je puno lake generirati sliku (snimanje) nego grafiku (kreiranje). 4.1.3. Animacija/video Animirati treba samo kada to ima jasno odreeni cilj. Treba se paljivo koristiti raznim efektima koje omoguavaju alati za izradu multimedijskih aplikacija. Npr. tekst koji se mie po zaslonu izuzetno je

  • 15

    teko itljiv i treba ga izbjegavati odnosno barem, nakon to se zaustavi, ostaviti dovoljno vremena korisniku da ga proita. Animacija slui za:

    naglaavanje (pokretni tekst, pojavljivanje karaktera u ritmu kako se i pie, tekst koji pulsira, tekst koji mijenja boju, itd.),

    "humaniziranje" objekta, objanjenje koncepta ili radnje.

    Video je, u odnosu na animaciju, obino puno lake napraviti, ali je redovito i manje efikasan (koristan). Trajanje video/animacije (zbog zadravanja panje) treba kod veine aplikacija biti ogranien na:

    video ne due od 60 sekundi, animacija ne due od 30 sekundi.

    4.1.4. Audio/govor Audio (glazba) se koristi kao pozadina, najee nekom video zapisu i u tom smislu predstavlja cjelinu s video zapisom.

    Zvuni efekti najee se koriste da korisniku prue informaciju o stanju sustava (npr. "beep" za greku) ili da prue dodatnu informaciju o objektu koji se vizualno prikazuje (npr. um potoka). I glazba i zvuni efekti imaju relativno malu informacijsku vrijednost, ali mogu znaajno pridonijeti ugodnosti rada.

    Govor moe posluiti kako za unos informacija (npr. prepoznavanje govora u funkciji upravljanja aplikacijom) tako i za izlaz iz multimedijske aplikacije (npr. opis slike koja se prikazuje). Pri tome je potrebno voditi rauna da je sluanje govora sporije od itanja, pa korisnik u istom vremenu moe prihvatiti manje informacija sluajui nego itajui. 4.1.5. Interaktivnost Multimedijska aplikacije gotovo uvijek ukljuuje neke elemente interaktivnosti. Interaktivnost se tipino realizira putem:

    izbornika, linkova (hipermedija), simulacija (igre, simulatori leta), glasa (upravljanje glasom).

    4.2. VIZUALNI DIZAJN Uspjenost vizualnog dizajna najvie ovisi o spretnosti i iskustvu dizajnera/programera. U nastavku poglavlja dan je skup osnovnih pravila i zapaanja koji mogu biti od koristi prilikom stvaranja vizualnog identiteta multimedijskog objekta/aplikacije.

  • 16

    4.2.1. Teme i stilovi Multimedijske aplikacije (odnosno prezentacije) trebale bi imati konzistentnu temu/stil koja odgovara tipu aplikacije. Veina alata za izradu multimedijskih aplikacija ima set predodreenih stilova i tema koji mogu znaajno ubrzati vizualni dizajn. Isto tako korisnik moe i sam kreirati vlastite teme i stilove. 4.2.2. Font Korisno je obratiti panju da:

    Font ne smije biti premali niti prevelik. Tipina greka je premali font. Za gledanje na zaslonima ekrana minimalni font koji bi se trebao koristiti je 12pt, a za gledanje preko projektora 14pt.

    Sans serif fontovi (npr. Times) obino se koriste za labele i kratke poruke. Ravni fontovi (npr. Helvetica) puno su itljiviji pa su pogodniji za due tekstove, iako su vizualno manje atraktivni.

    Bolje je koristiti mala slova jer se puno bre i lake itaju u odnosu na velika slova. Velika slova koristiti samo kad elimo privui panju i to za relativno kratki tekst.

    Najvie jedna treina zaslona treba biti ispunjena tekstom. U jednom redu bi trebalo biti oko 10 rijei (60 karaktera) kako bi se postigla optimalna

    brzina itanja. Razmak izmeu linija bi trebao biti oko 1:2 do 1:2.7, tj. prazni prostor izmeu linija teksta

    trebao bi biti jednak ili neto vei od visine samih karaktera. 4.2.3. Boje Upotreba boja u grafikim prikazima omoguuje bre i lake razumijevanje nego koritenje samo kontura. Meutim boje nije lako ispravno upotrebljavati. Tako npr. ambijent moe utjecati na nain percepcije boja, a ponekad treba voditi rauna da relativno veliki broj ljudi ne razlikuje boje (npr. 8% mukaraca je slabovidno na boje najee se ne razlikuju nijanse crvene i zelene). Stoga je, ako je mogue, korisno uz boje upotrebljavati i druge redundantne elemente kao to je npr. uzorak, rafura, oblik i sl. Prednosti upotrebe boja:

    dijele prostor na podruja, pokazuju odnos meu funkcionalno povezanim objektima, naglaavaju pojedini objekt u odnosu na pozadinu te tako smanjuju vrijeme pretraivanja, privlae panju korisnika (alarm i sl.), omoguavaju kodiranje (bojom) razliitih logikih elemenata u slici.

    Nedostatci upotrebe boja:

    boja nije pogodna za male elemente, korisnika percepcija boja ovisi o uvjetima okoline (npr. osvjetljenje), kodiranje teksta razliitim bojama treba koristiti vrlo ogranieno i samo za kratke

    tekstualne elemente, boje treba birati paljivo tako da se izbjegnu neeljeni efekti, te da po mogunosti ne

    stvaraju probleme ljudima s ogranienim vidom za boje.

  • 17

    Ne bi se smjelo koristiti vie od 5 razliitih boja ili nijansi iste boje ako se eli da korisnici svakoj boji/nijansi pridrue odgovarajue znaenje. Pri tome upotreba boja treba biti konzistentna (ujednaena) u cijeloj aplikaciji.

    Treba voditi rauna da ljudi nekoj boji ve unaprijed pridruuju odgovarajue znaenje i tu injenicu treba koristiti (npr. crvena boja znai opasnost ili upozorenje). Ako boje nemaju funkcionalnu ulogu, nego samo dekorativnu, to treba biti sasvim jasno jer e u protivnom korisnici trait razlog zato su boje odabrane upravo tako.

    Karakteristike kao i openiti savjeti vezani uz upotrebu boja dani su u tablici 4.2 (Odnosi se na tzv. zapadnu kulturu. Neke kulture i narodi bojama pridjeljuju drugaije znaenje).

    boja znaenje privlaenje panje dobro je koristiti s izbjegavati upotrebu s

    crvena opasnost, toplina, stop, alarm, financijski gubitak dobro bijela zelena

    uta opasnost, upozorenje, rizik, nestandardno stanje dobro crna, tamno plava, zelena bijela

    zelena sigurnost, normalno stanje, idi, zadovoljstvo slabo bijela crvena

    svjetlo plava savjet, hladnoa jako slabo crna uta tamno plava savjet slabo bijela uta magenta alarm dobro bijela

    bijela savjet slabo zelena, crna, crvena, tamno modra, magenta svjetlo plava, uta

    crna slabo bijela, svjetlo plava, uta

    Tablica 4.2 Nain koritenja boja preporuke i karakteristike 4.3. TEHNIKE KARAKTERISTIKE Razni tehniki aspekti ciljane korisnike platforme bitno utjeu na razvitak i konani izgled aplikacije. Tako vizualni izgled moe bitno ovisiti o:

    video modu, rezoluciji i broju boja korisnike platforme, operacijskom sustavu (Windows, Macintosh, Unix, ...), raspoloivoj memoriji i prostoru na disku, nainu distribucije aplikacije (CD, DVD, diskete, Internet, ...).

    Treba voditi rauna i o ureajima koji e korisniku sluiti za unos podataka i interakciju s

    aplikacijom kao to su npr.: tipkovnica, mi, Trackball/Rollerball, zaslon osjetljiv na dodir (Touch Screen), Touch Pad, grafika ploa (Graphics Tablet), upravljaka ruica (Joystick), svjetlosna olovka (Light Pen).

    Trajanje aplikacije ne smije biti predugo jer korisnik gubi koncentraciju i panju. Poeljno je da aplikacija, ovisno o vrsti traje:

    self-running aplikacija 2-3 min, ograniena interakcija 5-6 min, kompleti demo 30 min.

  • 18

    5. SIGNALI Signali kojima opisujemo realni svijet su promjene u nekom mediju (npr. tlak zraka, udarac fotona i sl.). Moemo kazati da su signali vremenski ovisne fluktuacije u nekom mediju. Gotovo svi signali realnog svijeta su kontinuirani veliine (dakle realni, a ne cijeli brojevi) pa za takve signale kaemo da su ANALOGNI.

    Raunala koriste DIGITALNI zapis (temelje se na cijelim brojevima odnosno nulama i jedinicama) pa da bi u raunalu mogli obraivati signale realnog svijeta, analogne signale moramo pretvoriti u digitalne. To je postupak koji se zove analogno/digitalna (A/D) pretvorba. Obrnuti postupak, tj. pretvorba digitalnih signala u analogne, naziva se digitalno/analogna (D/A) pretvorba. Shematski prikaz postupka analogno/digitalne i digitalno/analogne pretvorbe dan je na slici 5.1. Analogno/digitalna pretvorba sastoji se od:

    uzorkovanja, kvantiziranja, kodiranja.

    Digitalno/analogna pretvorba sastoji se od dekodiranja i niskopropusnog filtriranje kojim se

    od digitalnog signala dobije analogni.

    uzorkovanje kvantiziranje kodiranje

    pohrana

    dekodiranje

    prijenos

    nisko propusnofiltriranje

    analognisignal

    analognisignal

    digitalnisignal

    Slika 5.1 Analogno/digitalna (A/D) i digitalno/analogna (D/A) pretvorba Uzorkovanje Uzorkovanje signala vri se mjerenjem vrijednost signala u odreenim, vremenski jednako razmaknutim, trenucima, pa uzorkovanje predstavlja diskretizaciju u vremenu. Da bi sauvali cjelokupnu informaciju frekvencija uzorkovanja mora biti vie nego dvostruko vea od gornje granine frekvencije. To je poznati teorem uzorkovanja:

    cs f2f > gdje je fs frekvencija uzorkovanja, a fc gornja granina frekvencija. Na slici 5.2 ilustrirano je uzorkovanje signala.

  • 19

    t

    A

    trenutciuzorkovanja

    Slika 5.2 Uzorkovanje signala

    Kvantiziranje Kvantiziranjem se stvarnoj vrijednosti pridrui jedna od vrijednost iz konanog diskretnog skupa vrijednosti (kvantizacijskih razina). Ako se uzorkovanje vri u skladu s teoremom uzorkovanja onda se uzorkovanjem ne unosi nikakva greka pa se s niskopropusnim filtrom signal moe u potpunosti rekonstruirati. Meutim kvantizacija (diskretizacija po amplitudi) u svakom sluaju unosi greku. To je greka kvantizacije i jednaka je razlici stvarne vrijednosti i pridruene diskretne vrijednosti. Mjera greke kvantizacije je signal/um omjer (SNR) odnosno u ovom konkretnom sluaju signal/um omjer kvantizacije (QSNR)

    QNSlog10QSNR =

    gdje je S snaga signala, a NQ um kvantizacije. Neka je broj bita po svakom uzorku jednak m to znai da je ukupno mogue definirati m2

    razliitih razina signala. Moe se pokazati da je u tom sluaju najgori mogui signal/um omjer kvantizacije jednak

    [ ]dBm02.6QSNR = Drugim rijeima, svaki bit u kvantizatoru znai 6 dB vei signal/um omjer kvantizacije. Tako

    npr., za 8 bita QSNR = 48 dB, a za 16 bita QSNR = 96 dB. Kvantizacija osim linearne moe biti i nelinearna. Tako se za kodiranje govornog signala

    koristi logaritamska kvantizacija (A-zakon u Europi i -zakon u SAD). Logaritamska kvantizacija aproksimira percepcijsku nelinearnost i efektivno znai poveanje broja kvantizacijskih razina.

    Osim greke kvantizacije moe se kod postupka kvantizacije javiti i greka preoptereenja kada stvarni signal prelazi izvan podruja kvantizacije pa se kvantizira s najviom odnosno najmanjom kvantizacijskom razinom. Greka kvantizacije i greka preoptereenja ilustrirane su na slici 5.3.

  • 20

    000

    101

    010

    011

    111

    110

    001

    100

    kvantizacijskerazine

    t

    Agreka

    preoptereenja grekakvantizacije

    kod

    Slika 5.3 Kvantiziranje i kodiranje signala Kodiranje Kodiranjem se svakoj diskretnoj vrijednosti (kvantizacijskoj razini) pridrui jedinstveni zapis KOD. Kod je najee niz nula i jedinica. Kodiranje i kvantiziranje signala prikazano je na slici 5.3. Transformacija signala Realni signali mogu se matematiki analizirati rastavljanjem na osnovne valove odnosno prebacivanjem iz vremenske u neku drugu domenu. Taj se postupak zove TRANSFORMACIJA. Transformacijom se signal prebacuje u takvu domenu (npr. frekvencijsko podruje) u kojoj je bitno olakana analiza i obrada signala. Obino je transformacija takva da se koriste periodike funkcije, npr. sinusna funkcija kod Fourierove transformacije.

    Na slici 5.4 prikazano je rastavljanje signala na osnovne valove (sinusoide) kod Fourierove transformacije. Dodatna pogodnost kod Fourierove transformacije je to transformirano (frekvencijsko) podruje ima i fizikalno znaenje.

    + +=

    Slika 5.4 Rastavljanje signala na osnovne valove (Fourierova transformacija)

  • 21

    6. AUDIO SIGNAL 6.1. OSNOVE AUDIO SIGNALA Zvuk je kontinuirani (longitudinalni) val koji putuje kroz neko sredstvo, a nastaje uslijed razlike tlakova. Npr., udarac palicom u bubanj rezultira pomicanjem molekula zraka zbog razlike tlaka prouzroenog tim udarcem. Bilo koji vibrirajui objekt moe proizvesti zvuk. Kad se objekt pomie naprijed stvara podruje visokog tlaka i suprotno, kad se pomie natrag, podruje niskog tlaka.

    Zvuk ima uobiajena valna svojstva (difrakcija, refleksija, refrakcija, interferencija, itd.). Tako npr., valovi koji nisu u fazi mogu prouzroiti interferenciju. Nadalje, zvuk se reflektira od zida ako ima malu valnu duljinu, a ovija oko zida ako je valne duljina velika. Na slici 6.1 prikazan je vremenski odnos direktnog zvuka, rane refleksije i jeke. Da bi osjetili efekt jeke, potrebno je barem 100 ms razlike izmeu dolaska direktnog i reflektiranog vala do uha.

    Slika 6.1 Direktni zvuk, rana refleksija i jeka

    Grana tehnike koja prouava zvuk odnosno generiranje, prijenos i prijem zvunih valova naziva se AKUSTIKA. Najvaniji aspekti akustike su psihoakustika, glazba, analiza i sinteza govora, MIDI standard, itd. Psihoakustika se bavi ljudskim ujnim sustavom te se na rezultatima psihoakustike temelje moderni sustavi za kompresiju audio signala.

    Audio signal (zvuni val) moe biti periodiki ili neperiodiki. Tipino su periodiki signali samoglasnici i drugi "isti" tonovi dok su neperiodiki signali razni praskavi zvukovi ("p", "t" i sl.) te umovi. Prirodni zvukovi su najee neperiodiki. Periodike zvukove generiraju glazbeni instrumenti ili npr. pjev ptice pa se kod periodikih zvukova najee radi o glazbi. Na slikama 6.3 i 6.5 prikazani su neperiodiki i periodiki zvuni val (govor).

  • 22

    6.2. AUDIO SIGNAL U VREMENSKOM I FREKVENCIJSKOM PODRUJU Openito se smatra da ovjek moe uti zvune valove s frekvencijom od 20 Hz do 20 kHz koje onda zovemo audiosonini valovi odnosno skraeno audio valovi/signali. U skladu s tim ureaji za snimanje i reprodukciju zvuka rade maksimalno u tom frekvencijskom opsegu2. Ipak nisu sve frekvencije jednako znaajne za ljudsku percepciju. Percepciji puno vie doprinose niske frekvencije nego visoke i to najvie na frekvencijama od priblino 700 Hz do 6600 Hz. To je i frekvencijsko podruje koje je blisko frekvenciji ljudskog glasa. Tako frekvencijski spektar prirodnog ljudskog glasa, koji zovemo govorni signal, varira u rasponu od 80 Hz do 3400 Hz. Za usporedbu gornja nota klavira je na frekvenciji3 4186 Hz. Zvune valove po frekvencijskom podruju moemo podijeliti na slijedea podruja:

    infrasonini valovi: od 0 Hz do 20 Hz, audiosonini valovi: od 20 Hz do 20 kHz, ultrasonini valovi: od 20 kHz do 1 GHz, hipersonini valovi: od 1 GHz do 10 THz.

    Neke ivotinje mogu uti i zvune valove koje ovjek ne moe, npr.:

    tuna: 50 1,100 Hz kanarinac: 250 8,000 Hz krava: 23 35,000 Hz pas: 67 45,000 Hz maka: 45 - 64,000 Hz mi: 1,000 91,000 Hz imi: 2,000 110,000 Hz bijeli kit: 1,000 123,000 Hz dupin (obina pliskavica): 75 150,000 Hz

    Brzina zvuka ovisi o sredstvu kroz koji se prostire, a u zraku na standardnoj temperaturi i

    tlaku iznosi 343 m/s. U skladu s tom brzinom valna bi duljina za audio signal frekvencije 20 Hz bila 17.2 metra, a za signal frekvencije 20 kHz 1.72 centimetra.

    Na slici 6.2 prikazan je govorni signal u vremenskom podruju za rije SPEKTAR te su na slikama 6.3, 6.4 i 6.5 prikazani uveani detalji za karakteristina slova S (bezvuni glas), T (praskavi glas) i A (zvuni glas). Na slici 6.6 dan je frekvencijski spektar gore navedenih signala.

    2 Novija istraivanja pokazuju da, iako ovjek ne uje izvan tog frekvencijskog podruja, on ipak osjea vibracije pa i druge frekvencije doprinose ukupnom osjeaju glazbe. 3 Treba napomenuti da je to samo osnovna frekvencija, a da se osim te frekvencije u ukupnom spektru zvunog signala nalaze i vii harmonici osnovne frekvencije (8372 Hz, 12558 Hz, ...) koji mogu bitno utjecati na percepcijski doivljaj zvuka.

  • 23

    ampl

    ituda

    0.05

    0

    -0.1

    -0.05

    00

    5000.0625

    10000.125

    20000.25

    15000.1875

    25000.3125

    30000.375

    35000.4375

    40000.5

    uzorcivrijeme [s]

    0.1

    0.1

    45000.5625

    50000.625

    S P E K T A R

    Slika 6.2 Govorni signal (8 kHz, 16 bita/uzorku, rije SPEKTAR)

    ampl

    ituda

    0

    -0.015350 400

    0.05450 550500

    0.0625600

    0.075650 700

    0.0875750 uzorci

    vrijeme [s]

    0.015S

    Slika 6.3 Govorni signal (8 kHz, 16 bita/uzorku, bezvuni glas S iz rijei SPEKTAR)

    ampl

    ituda

    0

    -0.043550 3600

    0.453650 37503700

    0.462538000.475

    3850 39000.4875

    3950 uzorcivrijeme [s]

    0.04T

    Slika 6.4 Govorni signal (8 kHz, 16 bita/uzorku, praskavi glas T iz rijei SPEKTAR)

  • 24

    ampl

    ituda

    0

    -0.0438000.475

    3850 39000.4875

    40000.5

    3950 4050 41000.5125

    4150 42000.525

    uzorcivrijeme [s]

    0.04A

    Slika 6.5 Govorni signal (8 kHz, 16 bita/uzorku, zvuni glas A iz rijei SPEKTAR)

    ampl

    ituda

    0

    0 500 1000 20001500 2500 3000 3500 4000f [Hz]

    0.3S

    ampl

    ituda

    0

    0 500 1000 20001500 2500 3000 3500 4000

    4SPEKTAR

    ampl

    ituda

    0

    0 500 1000 20001500 2500 3000 3500 4000

    1.2T

    ampl

    ituda

    0

    0 500 1000 20001500 2500 3000 3500 4000f [Hz]

    2.5A

    Slika 6.6 Spektar govornog signala (8 kHz, 16 bita/uzorku, rije SPEKTAR te glasovi S, T i A)

    6.3. DETEKCIJA I MJERENJE RAZINE ZVUKA Zvuk se detektira (prijemnik) mjerenjem razine tlaka to radi npr. mikrofon u zvunom polju ija se membrana giba u skladu s tlakom. Nakon toga se u mikrofonu energija gibanja membrane pretvara u elektrinu energiju.

  • 25

    Generator zvuka (predajnik) je zvunik koji radi suprotnu operaciju. Pretvara elektrini signal u pomicanje membrane ime se stvara razlika tlaka odnosno zvuk. Kada je poetkom XX stoljea izmiljen zvunik predstavljao je revoluciju i pravi poetak glazbene industrije. Poslije je, nakon niza eksperimenata ustanovljeno da za veinu ljudi dvokanalni sustav (stereo) generira bitno bolji zvuk pa se stereo zvuk i danas najee koristi. Poslije su razvijeni i viekanalni sustavi, npr. 6 kanalni sustav kod kunog kina. To je tzv. surround zvuk koji omoguuje jo potpuniji doivljaj zvuka.

    Budui da punica, smjetena u unutranjem uhu, na stimulaciju zvunim valom reagira logaritamski to je i skala za mjerenje razine zvuka u decibelima. Razina zvuka nekih karakteristinih zvukova dana je u tablici 6.14. Prag ujnosti ispod kojeg ovjek ne moe uti je, u apsolutnom iznosu, 20 Pa (mikroPaskala) na 1000 Hz. To je manje od 10-9 atmosferskog tlaka. Razina zvuka od 0 dB odnosi se upravo na taj tlak od 20 Pa. Prag bola je oko 105 puta vei, ali jo uvijek manje od 1/1000 atmosferskog tlaka. Razina zvuka (engl. sound level) naziva se jo i razina tlaka zvuka (engl. sound pressure level SPL).

    Zvukovi iste razine ali razliitih frekvencija ne moraju nunu zvuati jednako glasno. Ljudska percepcija glasnoe sloena je i osim o razini zvuka (razlici tlakova) ovisi i o ljudskoj slunom aparatu.

    izvor zvuka razina zvuka

    ne uje se zvuk 0 dB ukanje papira 20 dB tihi dom 35 dB buna ulica 70 dB orkestar (najglasnije) 80 dB rock koncert 120 dB granica ujnosti - bolno 130 dB

    Tablica 6.1 Primjeri razliitih zvukova i pripadnih razina

    6.4. KAKO OVJEK UJE ? Ljudsko se uho (slika 6.7) sastoji od tri dijela: vanjskog, srednjeg i unutranjeg uha. Zvukovod, iji poetak vidimo u uki, zavrava bubnjiem (membrana tympani) koji je granica prema srednjem uhu. Bubnji svojim pomicanjem prenosi zvuni val (tj. promjene u tlaku zraka) na sustav koica (malleus-eki, incus-nakovanj, stapes-stremen) koje pripadaju srednjem uhu. Te koice provode dalje zvuni val do unutranjeg uha. Ono se sastoji od dva funkcionalno razliita dijela. To su tri polukruna kanala (canales semicirculares) koji sudjeluju u formiranju osjeta ravnotee i punica (cochlea) s osjetnim stanicama koje imaju sposobnost "prevesti" zvune valove u elektrine impulse. Te impulse sluni ivac (nervus statoacusticus) prenosi do mozga, a mi ih u krajnjem ishodu doivljavamo kao zvuk.

    4 Vrijednosti ovise o frekvenciji. Primjerice prag bola za frekvenciju od 50 Hz je oko 140dB, dok za frekvenciju od 3000 Hz iznosi 125dB.

  • 26

    Slika 6.7 Ljudsko uho

    Zvukovi koje nae uho uje razliitih su visina (frekvencija). Pojedine frekvencije zvunog

    vala podraavaju samo one osjetilne stanice koje se nalaze na specifinim mjestima unutar punice (slika 6.8) to znai da uho praktino radi spektralnu analizu, pri emu se amplituda doivljava kao glasnoa.

    Slika 6.8 Spektralna analiza ljudskog uha (punice)

    Prostorni poloaj izvora zvuka (lijevo/desno) odreuje se na temelju razliitih signala koji dolaze do lijevog i desnog uha (slika 6.9). Maksimalna vremenska razlika u dolasku zvuka do lijevog i desnog uha je 0.7 do 0.8 ms. To je sluaj kada se izvor zvuka nalazi pod kutom od 90 (ili 270) u odnosu na sluaa. Poloaj ispred/iza moemo odrediti zahvaljujui obliku i poloaju unih koljki.

  • 27

    Slika 6.9 Osjeaj prostornosti temelji se na razliitim vremenima dolaska signala u lijevo

    i desno uho 6.5. KAKO OVJEK GOVORI ? Na slici 6.10 prikazan je ljudski govorni sustav (engl. vocal tract). Da bi se generirao govor, plua kroz dunik pumpaju zrak koji zatim prolazi kroz govorni sustav i to od glasnica do usta. Dio zraka dolazi i u nosnu upljinu.

    Slika 6.10 Ljudski govorni sustav [Wolfe 1995]

    Govorni sustav ima osobinu rezonatora ije se karakteristike mijenjaju promjenom oblika (npr. pomicanje jezika). Te rezonantne karakteristike mijenjaju toka zraka iz glasnica kako bi kreirale specifian zvuk. Rezonantne frekvencije zovu se formanti.

    Postoje tri vrste zvukova koje ovjek moe generirati. Svi zvukovi pripadaju ili nekom od tih zvukova ili njihovoj mjeavini:

  • 28

    Zvuni glasovi stvaraju se kada glasnice vibriraju, otvaraju i zatvaraju. Time iz glasnica izlaze periodiki impulsi zraka. Brzina kojom se glasnice otvaraju i zatvaraju odreuje osnovnu frekvenciju, tzv. pitch period glasa (u prosjeku mukarci 125Hz/8ms, ene 200Hz/5ms, djeca 300Hz/3.3ms).

    Bezvuni glasovi stvaraju se kada su glasnice otvorene, ali ne vibriraju. Zrak prolazi slobodno kroz glasnice, a oblikuje ga samo govorni sustav.

    Praskavi glasovi nastaju zadravanjem zraka iza govornog sustava i njegovim naglim otputanjem.

    Moemo kazati da je govor odreen oblikom vokalnog trakta (formantima) i tipom uzbude

    (pitch period). Vana injenica je da se oblik vokalnog trakta i tip uzbude (tok zraka iz glasnica) relativno sporo mijenjaju. Tako se govorni signal moe smatrati praktino stacionarnim za intervale do 20 ms. Osim toga govorni signal ima veliku autokorelaciju pa se moe relativno lako predviati. 6.6. PSIHOAKUSTIKA Audio specifini algoritmi temelje se na specifinostima ljudske percepcije zvuka i mogu se koristiti iskljuivo za kodiranje audio signala. Neke od injenica na kojima se temelje audio specifini algoritmi su:

    frekvencijski raspon ujnosti od 20 Hz do 20 kHz, najosjetljivije podruje 700 Hz do 6600 Hz, dinamiko podruje (najtii do najglasniji) 120 dB, ovjek je manje osjetljiv na promjene u "glasnom" zvuku nego na promjene u "tihom"

    zvuku, rezolucija ovjekova ujnog sustava je ograniena i frekvencijski ovisna, prag ujnosti, frekvencijsko maskiranje, vremensko maskiranje.

    Rezolucija ovjekovog ujnog sustava

    Rezolucija ovjekovog ujnog sustava je ograniena, a uz to i frekvencijski ovisna. Ve smo vidjeli da se u punici nalaze osjetilne stanice koje reagiraju na audio valove. Punica pri tome funkcionira kao banka filtara (frekvencijskih) i to tako da filtri blie poetku punice imaju najvei odziv na najvie frekvencije, a filtri blie kraju imaju najvei odziv na najnie frekvencije.

    To znai da ovjek ima ogranienu sposobnost razlikovati razliite frekvencije pri emu sposobnost razlikovanja razliitih frekvencija ovisi upravo o naim audio filtrima. Pojasna irina tih filtara je razliita za razliite frekvencije, a moe se odrediti eksperimentalno. irine audio filtara nazivaju se Kritini pojasevi (engl. Critical Band). Pri tome treba voditi rauna da nai audio filtri nemaju otru granicu nego se jako preklapaju, pa je podjela na Kritine pojaseve samo aproksimacija stvarnosti.

    Kritini pojas irok je 100 Hz za niske frekvencije, odnosno vie od 4 kHz za najvie frekvencije, pa je cijeli pojas audio frekvencija podijeljen je na 25 kritinih pojaseva. Jedinica za mjeru kritinog pojasa je Bark (od Barkhausen). Skala Bark je linearna do frekvencije od 500 Hz, a priblino logaritamska na viim frekvencijama. U tablici 6.2 dana je podjela spektra audio frekvencija na kritine pojaseve.

  • 29

    Dva zvuka jednake glasnoe a male razlike u frekvenciji, zvuat e gotovo jednako glasno kao i pojedinani zvukovi. Razlog je u injenici da se oba nalaze unutar jednog kritinog pojasa pa uzbuuju iste osjetilne stanice to ne doprinosi znaajnom poveanju glasnoe. S druge strane, ako dva zvuka upadaju u razliite kritine pojaseve, njihovo istodobno sluanje rezultirat e znaajnim poveanjem glasnoe. Stoga irokopojasni zvukovi iste razine zvue glasnije nego uskopojasni zvukovi (oni koji upadaju u jedan kritini pojas).

    Kritini pojasevi igraju znaajnu ulogu i kod mogunosti frekvencijskog razlikovanja dvaju zvukova. Minimalna primjetna razlika izmeu dvije uzbude (dva tona) naziva se tek zamjetljiva razlika (just noticeable difference - jnd). Tek zamjetljiva razlika (jnd) za pitch (frekvenciju) ovisi o frekvenciji, razini, trajanju i vrsti zvuka. Unutar jednog kritinog pojasa nalazi se oko 30 tek zamjetljivih razlika (jnd). To znai da smo za niske frekvencije u stanju razlikovati tonove razmaknute za oko 3 Hz, ali je za visoke frekvencije to znaajno vie. Tek zamjetljiva razlika (jnd) postoji i za razine zvuka. I kada je u pitanju razina zvuka jnd znaajno ovisi karakteristikama zvuka, a naelno moemo kazati da je jnd oko 1 dB. Vidimo da je uistinu rezolucija ovjekovog ujnog sustava ograniena, a uz to i ovisna i to ne samo o frekvenciji nego i o drugim karakteristikama zvuka.

    Kritini pojas je mjera koja je bliska mjeri mel (od melody). Mel je percepcijska skala (definirana od sluaa) takva da razlika u distanci izmeu pojedinih jedinica percepcijski ima uvijek isto poveanje frekvencije. To znai da poveanje frekvencije od Barka 3 do Barka 4 (od 250 Hz do 350 Hz) percepcijski doivljavamo isto kao i poveanje frekvencije od Barka 14 do Baka 15 (od 2150 Hz do 2500 Hz).

    Bark donja granica [Hz] sredina [Hz] gornja

    granica [Hz] Bark donja

    granica [Hz] sredina [Hz] gornja

    granica [Hz]

    1 0 50 100 14 2000 2150 2320 2 100 150 200 15 2320 2500 2700 3 200 250 300 16 2700 2900 3150 4 300 350 400 17 3150 3400 3700 5 400 450 510 18 3700 4000 4400 6 510 570 630 19 4400 4800 5300 7 630 700 770 20 5300 5800 6400 8 770 840 920 21 6400 7000 7700 9 920 1000 1080 22 7700 8500 9500 10 1080 1170 1270 23 9500 10500 12000 11 1270 1370 1480 24 12000 13500 15500 12 1480 1600 1720 25 15500 19500 13 1720 1850 2000

    Tablica 6.2 Podjela spektra audio frekvencija na kritine pojaseve

    Prag ujnosti Zamislimo slijedei eksperiment. Nalazimo se u tihoj prostoriji. Generirajmo zvuni val na nekoj frekvenciji (npr. 1 kHz) vrlo male razine (npr. 0.1 dB). Na toj frekvenciji i s tom razinom neemo uti zvuk. Poveajmo razinu dok ne ujemo zvuk, to e na toj frekvenciji biti oko 10 dB. Ponovimo eksperiment za sve frekvencije. Time smo dobili osjetljivost ljudske percepcije zvuka u ovisnosti o frekvenciji (prag ujnosti) to je prikazano na slici 6.11. To je zapravo prag ujnosti (na tiini) koji kae kolika je razina zvuka potrebna na pojedinim frekvencijama da bi zvuni val uope uli.

  • 30

    razi

    na [d

    B]60

    40

    0

    20

    80

    100

    0.02 0.05 0.1 0.50.2 1 2 5 10 20

    frekvencija[kHz]

    ujno

    neujno

    Slika 6.11 Prag ujnosti (na tiini) Dakle, signal na odreenoj frekvenciji treba biti iznad praga kako bi ga mogli uti. Naravno,

    ako je signal ispod praga ujnosti nema niti potrebe da ga prenosimo. Ovu karakteristiku koriste mnogi koderi kako bi uinkovitije komprimirali audio signal. Frekvencijsko maskiranje Frekvencijsko maskiranje je percepcijska pojava kod koje signal manje razine (maskirani signal) moe postati neujan (maskiran) ako istovremeno postoji i signal vee razine (maskirajui signal). Frekvencijsko maskiranje je najvee u kritinom pojasu u kojem je maskirajui signal lociran, dok je utjecaj u susjednim kritinim pojasevima manji.

    Zamislimo slijedei eksperiment. Generirajmo zvuni val na nekoj frekvenciji (npr. 1000 Hz) s razinom koja je iznad praga ujnosti (npr. 80 dB). Paralelno s tim tonom generirajmo jo jedan zvuni val bliske frekvencije (npr. 1050 Hz) malo iznad praga ujnosti. Bez obzira to je drugi ton iznad praga ujnosti neemo ga uti jer je frekvencijski maskiran zbog prisustva glasnijeg tona bliske frekvencije. Dakle, prag ujnosti se mijenja u ovisnosti o razini frekvencijski bliskih signala.

    Prag ujnosti kod frekvencijskog maskiranja za signal frekvencije 1 kHz razine 80 dB prikazan je na slici 6.12. Krivulja praga ujnosti je manja strma prema viim frekvencijama to znai da se vie frekvencije lake frekvencijski maskiraju.

    Slika 6.12 Frekvencijsko maskiranje audio signala u ovisnosti o amplitudi

  • 31

    Na slici 6.13 prikazano je frekvencijsko maskiranje za sluaj iste razine, ali razliitih frekvencija. Oito je da je na veim frekvencijama efekt maskiranja (pojasna irina) vei nego na niim frekvencijama to je u skladu i sa irinom kritinih pojaseva. Tako e veina ljudi primijetiti razliku izmeu tonova od 1kHz i 3kHz dok je samo manji broj ljudi u stanju primijetiti razliku izmeu tonova od 14kHz i 17kHz.

    Ovdje je opisano samo maskiranje uslijed jednog maskirajueg signala. Ako istovremeno postoji vie maskirajuih signala, svaki od njih ima svoj prag maskiranja, te je u tom sluaju potrebno izraunati globalni prag maskiranja.

    Efekt frekvencijskog maskiranja moe se iskoristiti za kompresiju audio signala tako da se ne kodiraju oni signali koji su frekvencijski maskirani tj. oni koji su ispod praga ujnosti. Ali, efekt frekvencijskog maskiranja moe se iskoristiti i tako da se za prijenos signala koji nisu maskirani potroi manje bita nego to bi to bio sluaj bez maskiranja. Distorzija (koja se moe uti) u danom podpojasu je NMR (slika 6.14) i mjeri se kao:

    ( ) ( ) [ ]dBmSNRSMRmNMR = gdje je

    ( )mNMR - Omjer uma i maskiranja za m-bitni kvantizator (engl. noise-to-mask ratio), SMR - Omjer signala i maskiranja (engl. signal-to-mask ratio) - maksimalna vrijednost je na

    lijevoj granici kritinog pojasa a minimalna je na frekvenciji maskirajueg signala i iznosi oko 6dB, ( )mSNR - Omjer signala i uma za m-bitni kvantizator (engl. signal-to-noise ratio).

    razi

    na [d

    B]

    60

    40

    0

    20

    80

    100

    0.02 0.05 0.1 0.50.2 1 2 5 10 20

    frekvencija[kHz]

    ujno

    neujno

    fm=0.25 fm=1 fm=4B=0.1 B=0.16 B=0.7

    Slika 6.13 Frekvencijsko maskiranje audio signala pojasna irina u ovisnosti o frekvenciji

    um zbog greke kvantizacije nee se uti sve dok je ispod praga ujnosti. To znai da se distorzija, unutar kritinog pojasa, nee uti sve dok je ( )mSNR vei od SMR, odnosno dok je

    ( )mNMR negativan. to je efekt maskiranja vei, to je manje bita potrebno da bi razina uma bila ispod praga ujnosti. um zbog greke kvantizacije e u susjednim pojasevima takoer biti maskiran ali u manjoj mjeri nego unutar kritinog pojasa.

    Opisali smo sluaj samo jednog maskirajueg signala. Kao to smo ve rekli, ako se signal sastoji od vie maskirajuih signala potrebno je odrediti globalni prag maskiranja.

  • 32

    Slika 6.14 Frekvencijsko maskiranje i um kvantizacije Vremensko maskiranje Vremensko maskiranje je percepcijska pojava u vremenskom podruju koja se javlja kada u kratkom vremenskom razmaku postoje dva zvuna signala.

    Zamislimo slijedei eksperiment. Generirajmo neki zvuni val (ton) koji je iznad praga ujnosti te paralelno s tim tonom generirajmo jo jedan na bliskoj frekvenciji koji je takoer iznad praga ujnosti (za sluaj tiine), ali koji se u ovom sluaju ne uje jer je frekvencijski maskiran. Zatim prekinimo generiranje tona kojeg ujemo. Signal koji je do tada bio maskiran neemo odmah uti nego tek nakon nekog vremena. Ta pojava se zove vremensko maskiranje to je prikazano na slici 6.15.

    U ovisnosti o razinama signala, jai zvuk moe maskirati slabiji ak i ako maskirani signal prethodi maskirajuem (pre-maskiranje). Efekt post-maskiranja traje od oko 50 ms do oko 200 ms, dok je efekt pre-maskiranja znaajno krai, oko jedne desetine post-maskiranja. Vremensko maskiranje se, kao i frekvencijsko, moe iskoristiti za kompresiju audio signala.

    Slika 6.15 Vremensko maskiranje audio signala (maskirajui signal 1 kHz, 60 dB;

    maskirani signal 1.1 kHz)

  • 33

    Zajedniki utjecaj vremenskog i frekvencijskog maskiranja Na slici 6.16 prikazan je zajedniki efekt vremenskog i frekvencijskog maskiranja. Bilo koji zvuni val koji je ispod praga (3D povrine) ne moemo uti.

    Slika 6.16 Zajedniki efekt vremenskog i frekvencijskog maskiranja 6.7. DIGITALIZACIJA AUDIO SIGNALA Audio signal je potrebno digitalizirati da bi se mogao koristiti u raunalima. Za to je potrebno definirati frekvenciju uzorkovanja i broj bita po uzorku. U tablici 6.3 dane su, za nekoliko tipinih audio signala, frekvencije uzorkovanja i broj bita po uzorku kao i neke druge karakteristike koje proizlaze iz tih vrijednosti.

    Kvaliteta/ format

    frekv. uzorkovanja

    (Hz)

    frekvencijski pojas (Hz)

    mono/stereo

    bita po uzorku

    dinamiko podruje

    (dB)

    brzina prijenosa

    (kb/s)

    memorija za 1 min

    (MB/min)

    Telefonija 8000 300-3400 mono 8 48 64 0.48 AM radio 11025 mono 8 48 88.2 0.6615 FM radio 22050 stereo 16 96 705.6 5.292 Telekonferencija 16000 50-7000 stereo 16 96 512 3.840

    CD 44100 20-20000 stereo 16 96 1411.2 10.584 DAT 48000 20-20000 stereo 16 96 1536 11.520

    Tablica 6.3 Osnovne karakteristike za neke tipine audio signale

  • 34

    6.8. FORMATI ZA POHRANU AUDIO SIGNALA Datoteka koja sadri podatke iz kojih se generira audio signal naziva se audio datoteka. Postoji niz razliitih formata u kojima se audio signal moe pohraniti. Slino kao i kod formata slika, audio datoteka moe sadravati dva tipa podataka i to:

    uzorke audio signala (zvuna datoteka - slino rasterskom formatu kod slika), digitalni kod tipa, oblika i redoslijeda upotrijebljenih nota (glazbena datoteka - slino

    vektorskom formatu kod slika). U tablici 6.4 dan je prikaz nekih najeih formata za pohranu audio signala.

    naziv ekstenzija koder/dekoder

    AIFF - Audio Interchange File Format (Mac) .aif, .aiff PCM AU - audio (Sun/Next) .au -law CDDA - CD audio - Compact Disc Digital Audio - PCM MP3 .mp3 MPEG Audio Layer-III WMA - Windows Media Audio .wma Proprietary (Microsoft) QT - QuickTime .qt Proprietary (Apple Computer) RA - RealAudio .ra, ram Proprietary (Real Networks) MIDI - Musical Instrument Digital Interface .mid, .rmi glazbena datoteka MOD - modules .mod glazbena datoteka WAV wave (Microsoft) .wav PCM

    Tablica 6.4 Najei formati za pohranu audio signala

  • 35

    7. KOMPRESIJA AUDIO SIGNALA Komprimiranje (saimanje) je postupak kojim se smanjuje broj bita potreban za prijenos i pohranu, u ovom sluaju audio signala. Tip kompresije ili kompresijski algoritam esto se naziva codec (compressing/decompressing). Saimanje moe biti

    s gubicima (engl. lossy) kod kojeg se dio informacije nepovratno gubi, bez gubitaka (engl. lossless) kod kojeg se informacija nakon kodiranja moe u potpunosti

    vratiti na originalni oblik.

    Kodiranje bez percepcijskog gubitka (engl. perceptually lossless) je cilj kojim tei veina kodera audio signala. Kod tog pristupa postoji gubitak informacije, dakle spada u lossy kodiranje, ali sluatelj ne moe uti razliku izmeu originalnog i komprimiranog zvuka. MP3 je primjer takvog tipa kompresije.

    Saimanje bez gubitaka ukljuuje algoritme poput Shannon-Fano, Huffman, Lempel-Ziv-Welch, aritmetiko, run length i sl. Takvi se algoritmi uglavnom koriste za kompresiju podataka. Kad se radi o elementima multimedije onda su takvi algoritmi zanimljivi gotovo iskljuivo za kodiranje slika. Openito su u multimediji puno zanimljiviji algoritmi s gubicima, naroito oni kod kojih nema percepcijskog gubitka (engl. perceptually lossless) pa e u nastavku biti rije uglavnom o takvim algoritmima. Algoritme (tehnike) za kodiranje audio signala moemo podijeliti na:

    Generike tehnike - diferencijalno kodiranje (DPCM, ADPCM, DM, ADM), - vektorska kvantizacija;

    Audio-specifine tehnike - transformacijski i percepcijski temeljeno kodiranje;

    Govor-specifine tehnike - sinteza govora.

    Generike tehnike mogu se koristiti za komprimiranje bilo kojeg drugog signala, a ne samo za

    audio signal. Za razliku od generikih tehnika, audio-specifine tehnike mogu se koristiti iskljuivo za kodiranje audio signala jer koriste neka njegova specifina svojstva. Pod audio signalom podrazumijevamo zvuni signal iz cijelog ujnog frekvencijskog spektra (20 Hz do 20 kHz). Govor-specifine tehnike mogu se koristiti iskljuivo za kodiranje govornog signala gdje pod govornim signalom podrazumijevamo zvuk koji ovjek moe generirati svojim govornim sustavom tj. ono to je ovjek u stanju izgovoriti. U praksi se to uglavnom odnosi na onaj dio audio signala koji se prenosi u fiksnoj telefoniji (300 Hz-3400 Hz). 7.1. GENERIKE TEHNIKE 7.1.1. Diferencijalna pulsno kodirana modulacija (DPCM) Diferencijalna PCM iskoritava redundanciju meu uzorcima kako bi smanjila brzinu prijenosa. Kako je autokorelacija zvunog, a naroito govornog signala jako velika (0.9 za pomak od jednog uzorka),

  • 36

    to znai da se razlika izmeu dva susjedna uzorka moe kodirati sa znaajno manje bita nego originalni uzorci. Dakle kod DPCM-a se prenosi razlika uzoraka, a ne uzorci signala. DPCM omoguuje da se 8-bitni audio signal (8 kHz, 64 kb/s) uz percepcijski istu kvalitetu kodira s 7 bita/uzorku to daje ukupno 56 kb/s. Na slici 7.1 prikazana je shema DPCM kodera i dekodera. U najjednostavnijem sluaju prediktor je element za kanjenje.

    7-bitni DPCM

    (razlika)++

    +

    -

    8-bitni PCM(uzorak) kvantiziranje

    razlike

    +prediktor (L)+

    +

    prediktor (L)

    +

    +

    koder dekoder

    7-bitni DPCM(razlika)

    8-bitni PCM(uzorak)

    Slika 7.1 Shema DPCM kodera i dekodera

    Problem kod DPCM-a je to se signal razlike za visoke frekvencije ne moe predstaviti s malo bita. To je problem preoptereenja koji vodi do neugodnih distorzija na visokim frekvencijama. Problem preoptereenja kod DPCM-a ilustriran je na slici 7.2.

    000

    101

    010

    011

    111

    110

    001

    100 t

    A greka preoptereenja

    t00.125ms

    !!

    t

    !!korak kvantizacije

    korak kvantizacije

    Slika 7.2 Problem greke preoptereenja kod DPCMa

  • 37

    7.1.2. Adaptivna diferencijalna PCM (ADPCM) ADPCM koristi vee kvantizacijske korake za kodiranje razlike meu uzorcima na visokim frekvencijama i manje korake kvantizacije za kodiranje razlika meu uzorcima na niim frekvencijama. Shema ADPCM kodera dana je na slici 7.3. Temeljem prethodnih uzoraka, predviaju se slijedei uzorci i adaptivno mijenja korak kvantizacije te se potom kodiraju razlike izmeu stvarne i predviene vrijednosti. Time se uspjeno rjeava problem greke preoptereenja prisutan kod DPCM to je ilustrirano na slici 7.4.

    x-bitni ADPCM(razlika)

    ++

    +

    -

    8-bitni PCM(uzorak) kvantiziranje

    razlike

    +prediktor (L)+

    podeavanjekoraka

    dekvantiziranje

    Slika 7.3 Shema ADPCM kodera

    razl

    ika

    t

    korakkvantizacije

    Slika 7.4 ADPCM - rjeavanje problema greke preoptereenja

    Primjer ADPCMa je sustav definiran standardom ITU-T G.726 koji podrava brzine prijenosa od 40 kb/s, 32 kb/s, 24 kb/s i 16 kb/s. 7.1.3. Delta modulacija i Adaptivna delta modulacija Delta modulacija (DM) koristi jedan bit za kodiranje razlike izmeu susjednih uzoraka pa je to zapravo jednobitni PCM. Koder DM sustava prikazan je na slici 7.5. Ovakav pristup pretpostavlja da se susjedni uzorci nikada ne mijenjaju za vie od jednog koraka kvantizacije. Ako taj uvjet nije

  • 38

    ispunjen javlja se greka preoptereenja. Osim greke preoptereenja koja se javlja na brzo promjenjivim dijelovima signala, javlja se i greka granulacije na dijelovima signala koji se ne mijenjaju, odnosno koji se sporo mijenjaju. Greka granulacije i greka preoptereenja ilustrirani su na slici 7.6. Da bi ukupna greka DM sustava bila relativno mala potrebno je bitno poveati frekvenciju uzorkovanja. Osim toga, korak kvantizacije se moe adaptivno mijenjati to vodi na adaptivne DM sustave (ADM).

    DM signal++

    -ulazkvantiziranje

    integriranje

    e

    Slika 7.5 Koder DM sustava

    t

    A grekapreoptereenja

    grekagranulacije

    razl

    ika

    t

    Slika 7.6 Greka granulacije i greka preoptereenja kod DM sustava 7.1.4. Vektorska kvantizacija (VQ) Kod vektorske kvantizacije (VQ) saimanje signala se vri na temelju usporedbe (po pravilu najblieg susjeda) ulaznog vektora s nizom unaprijed definiranih vektora koji tvore kodnu knjigu. Za to je potrebno podijeliti ulazni signal na niz vektora. Potom se, uz odgovarajuu mjeru distorzije, pronae u kodnoj knjizi vektor najblii ulaznom vektoru. U kanal se alje indeks vektora kodne knjige za ije je prenoenje potrebno manje bita nego za prenoenje vektora ime je izvrena kompresija. Dekodiranje je jednostavno pretraivanje kodne knjige gdje se za dani indeks pronae odgovarajui vektor. Shema kodera i dekodera vektorskog kvantizatora prikazana je na slici 7.7.

  • 39

    Najvei problem kod vektorske kvantizacije je formirati odgovarajuu kodnu knjigu koja e na najbolji mogui nain (s najmanjom grekom) reprezentirati sve mogue ulazne vektore.

    pravilo najbliegsusjeda

    [x1,x2,...,xn]

    [a1,a2,...,an][b1,b2,...,bn][c1,c2,...,cn]

    [z1,z2,...,zn]

    ... ... ...

    koder

    kodna knjiga

    index pretraivanje

    [a1,a2,...,an][b1,b2,...,bn][c1,c2,...,cn]

    [z1,z2,...,zn]

    ... ... ...

    dekoder

    kodna knjiga

    index [x1,x2,...,xn]

    Slika 7.7 Koder i dekoder vektorskog kvantizatora 7.1.5. Usporedba generikih tehnika za kodiranje govora U tablici 7.1 dana je usporedba kodera govora koji koriste generike tehnike kodiranja. Usporedba je za razliite metode kodiranja dana sa stajalita brzine uzorkovanja, broja bita po uzorku i brzine prijenosa.

    Metoda kodiranja Brzina uzorkovanja (kHz) Bita po uzorku Brzina (kb/s)

    PCM 8 7-8 56-64 DPCM 8 4-6 32-48 ADPCM 8 2-5 16-40 DM 64-128 1 64-128 ADM 48-64 1 48-64

    Tablica 7.1 Usporedba kodera govora (generike tehnike)

    7.2. AUDIO SPECIFINI ALGORITMI TEMELJENI NA NELINEARNOM

    KVANTIZIRANJU Nelinearno kvantiziranje temelji se na injenici da je ovjek manje osjetljiv na promjene u "glasnom" zvuku nego na promjene u "tihom" zvuku. Stoga se uzorci s malom amplitudom kvantiziraju s veom tonou (vie bita) nego uzorci s velikom amplitudom i to tako da se korak kvantizacije logaritamski smanjuje s razinom signala. Nelinearno kvantiziranje omoguuje percepcijski 14(13)-bitnu kvalitetu (dinamiko podruje) uz 8-bitno kodiranje za govorni signal uzorkovan s 8 kHz. Na slici 7.8 ilustrirano je nelinearno kvantiziranje.

  • 40

    t

    A

    kodiran s6 bita

    kodiran s10 bita

    kodiran s14 bita

    Slika 7.8 Nelinearno kvantiziranje

    Nelinearno kvantiziranje za govorni signal definirano je standardom ITU-T G.711. Standard G.711 kvantizira s brzinom 64 kb/s, a definirana su dva oblika: A-zakon (Europa) i - zakon (SAD, Japan) koji komprimiraju linearni PCM u 8 bitni komprimirani PCM. Na slici 7.9 prikazana je karakteristina krivulja nelinearnog kvantizatora za A-zakon.

    Slika 7.9 Karakteristina krivulja nelinearnog kvantizatora (A-zakon)

  • 41

    7.3. AUDIO SPECIFINI ALGORITMI KOD MPEG-A 7.3.1. MPEG-1/2 audio kompresija Danas praktino svako kodiranje audio signala poinje od CD audio formata. Podsjetimo se, to je standard koji je jo 1982. godine definirao osnovne karakteristike digitaliziranog audio signala, a to su: frekvencija uzorkovanja od 44.1 kHz, 16 bita po uzorku (dvostruko vie za stereo) koji su ravnomjerno kvantizirani. Tako kodirani audio signal treba za pohranu ili prijenos oko 10MB/min.

    Brojni algoritmi koriste sve ili veinu svojstava psihoakustikog modela ljudskog slunog sustava kako bi to je mogue vie komprimirali audio signal. Najpoznatiji meu njima su skupina audio kodera nastalih u okviru MPEG standardizacijske organizacije.

    MPEG (Motion Picture Expert Group) je radna skupina koja radi u okviru ISO (International Organization for Standardization) i IEC (International Electrotechnical Commision). Ta skupina radi na razvoju standarda za kodiranje pokretnih slika i audio signala [www.chiariglione.org]. Do sada je zavren ili je jo uvijek u tijeku rad na standardima MPEG-1, MPEG-2, MPEG-4, MPEG-7 i MPEG-21. O video aspektu MPEG standarda bit e vie rijei u drugim poglavljima. Kada je u pitanju audio kompresija prvenstveno je zanimljiv MPEG-1/2 jer se kod njega koristi danas najpopularniji audio standard za saimanje MP3.

    Povijest MP3 standarda poinje 1987. kada je Fraunhofer Institut zajedno sa Sveuilitem u Erlangenu (Njemaka) poeo rad na audio koderu i to u okviru EUREKA projekta. Taj rad rezultirao je algoritmom koji je standardiziran kao ISO-MPEG Audio Layer 3 popularni MP3 (www.iis.fhg.de/amm/techinf/layer3/index.html). Dakle, MP3 nikako nije MPEG-3, tovie MPEG-3 i ne postoji. MPEG Audio Layer 3 standard ISO i IEC prihvatili su krajem 1992. godine5. Rad na nekim drugim projektima rezultirao je s MPEG Audio Layer 1 i Layer 2. Osnovne tehnike karakteristike MPEG-1/2 audio kodera MPEG-1/2 koriste slinu audio kompresiju6. Algoritam je definiran kroz tri sloja (layer I, II, III) uz neke dodatne mogunosti kod MPEG-2 (npr. surround zvuk). MPEG-1 audio podrava frekvencije uzorkovanja od 32 kHz, 44.1 kHz (CD) i 48 kHz (DAT) te etiri moda:

    1. Monophonic jedan audio kanal, 2. Dual-monophonic dva neovisna kanala, npr. za engleski i hrvatski jezik, 3. Stereo za stereo kanale, 4. Joint-stereo za stereo kanale koji koriste korelaciju kako bi komprimirali signal.

    MPEG-2 je, u odnosu na MPEG-1, proirio frekvencije uzorkovanja jo i na 16 kHz, 22.05

    kHz i 24 kHz te je jo dodao i mogunost viekanalnog moda (5+1 kanala surround zvuk). Algoritam kompresije koji se koristi u MPEG-1/2 ima slijedee korake:

    5 Vrlo brzo je MP3 standard postao iznimno popularan, pa je Fraunhofer Institut 1998. godine poeo traiti licencna prava od kompanija koje su koristile njihove algoritme u okviru MP3 standarda (danas to rade preko kompanije Thomson - www.mp3licensing.com). Kako je time koritenje Fraunhoferovih algoritama prestalo biti besplatno, poeli su se razvijati i drugi algoritmi kao alternativa njihovima. To je rezultiralo koderima kao to su Ogg Vorbis, Windows Media Audio, TwinVQ. Osim toga, nastavljen je rad i na poboljanju audio kodera unutar MPEG grupe, to je takoer rezultiralo novim koderima kao to je MPEG AAC. 6 MPEG-2 podrava praktino isti audio koder kao i MPEG-1. Meutim, MPEG-2 podrava jo jedan koder, MPEG AAC, koji ima znaajna poboljanja u odnosu na MPEG-1 audio koder.

  • 42

    1. Audio signal transformirati u frekvencijsko podruje, te dobiveni spektar podijeliti u 32 frekvencijska podpojasa koja se meusobno ne preklapaju to je podpojasno filtriranje (engl. subband filtering).

    2. Odrediti, upotrebom psihoakustinog modela, iznos maskiranja koje uzrokuje susjedni pojas. 3. Ako je snaga u trenutnom pojasu manja od praga maskiranja, pojas se ne kodira. 4. U protivnom, odrediti broj bita potreban za prijenos koeficijenta koristei psihoakustiki

    model i to tako da je um kvantizacije manji od efekta maskiranja (jedan bit manje u kvantizatoru poveava um za 6 dB). Ako je greka kvantiziranja manja od praga maskiranja tada se komprimirani audio signal nee (percepcijski) razlikovati od originalnog signala.

    5. Formirati tok bitova (engl. bitstream).

    MPEG-1/2 definiraju 3 razliita sloja (metode kompresije) za audio signal. Temeljni model je isti, ali sloenost raste sa svakim slojem. Na slici 7.10 dana je pojednostavljena shema MPEG-1/2 audio kodera i dekodera. U nastavku su dane detaljnije sheme za MPEG sloj I/II te III.

    Slika 7.10 Pojednostavljena shema MPEG-1/2 audio kodera i dekodera

    MPEG-1/2 audio algoritmom podaci se dijele u okvire od kojih svaki sadrava 384 uzorka (12 uzoraka za svaki od 32 podpojasa), to je prikazano na slici 7.11. Ekvivalent 384 uzorka, uz frekvenciju uzorkovanja od 44100 Hz, je 8.71 msec.

  • 43

    Slika 7.11 MPEG-1/2 audio: podjela na okvire Osnovna svojstva MPEG-1/2 kodera/dekodera po pojedinim slojevima su: Sloj I: Za podpojasno filtriranje koristi se Filter bank. Koristi se samo jedan okvir. Psihoakustini

    model koristi samo frekvencijsko maskiranje. Sloj II: Kao i Sloj 1 koristi Filter bank za podpojasno filtriranje. Koristi tri okvira u filtru (prethodni,

    trenutni i slijedei ukupno 3x384=1152 uzorka). Koristi osim frekvencijskog maskiranja i jedan dio vremenskog maskiranja.

    Sloj III: Koristi bolji filtar za podpojasno filtriranje (filter bank + MDCT (Modified DCT)), koristi tri okvira, psihoakustiki model koristi osim frekvencijskog maskiranja i vremensko maskiranje, moe uzeti u obzir i stereo redundanciju. Koristi Huffmanovo kodiranje.

    U tablici 7.2 dane su osnovne karakteristike pojedinih slojeva MPEG-1/2 audio algoritma.

    sloj podrane brzine (kb/s)

    Ciljana bitska brzina

    (kb/s) Omjer

    Kvaliteta na 64kb/s (MOS)

    Kvaliteta na 128kb/s (MOS)

    Teoretsko minimalno

    kanjenje7 (ms)

    Pohrana (MB/min)

    1 32-448 192x2 4:1 - - 19 2.88 2 32-384 128x2 6:1 2.1 do 2.6 >4 35 1.92 3 32-320 64x2 11:1 3.6 do 3.8 >4 59 0.96

    Tablica 7.2 MPEG audio kodiranje: karakteristike slojeva 1, 2 i 3

    Sloj 1 je bio ciljano napravljen za DCC (Digital Compact Cassette). Sloj 3 je imao cilj komprimirati audio signal to je mogue bolje (vie) bez obzira na sloenost algoritma. Sloj 2 je napravljen kao kompromis izmeu sloenosti sloja 3 i performansi sloja 1.

    Ciljana brzina je ona koja praktino osigurava CD kvalitetu. Iskoritavajui stereo efekt, moe se postii i manja brzina (to moe samo sloj 3). Tipine brzine i pripadajue kvalitete (stereo signala) za MP3 su:

    192-256 CD kvaliteta, 160 uglavnom CD kvaliteta, 96-128 skoro CD kvaliteta, 36-64 skoro FM kvaliteta.

    Uz brzinu prijenosa od 2x128 kb/s niti ekspert ne moe razlikovati originalni i kodirani audio.

    Podsjetimo, originalni CD audio ima brzinu 1.411 Mb/s pa je to kompresija od skoro 6 puta. To znai da glazbeni CD koji inae moe sadravati oko 1 sat glazbe (tonije 650MB=74 min) sada moe sadravati skoro 6 sati glazbe CD kvalitete ili 12 sati glazbe skoro CD kvalitete.

    7 Stvarno kanjenje je oko 3 puta vee od teoretskog.

  • 44

    MPEG-1/2 audio koder sloj I i II MPEG-1/2 sloj I i II imaju slinu strukturu (slika 7.12). Najvea razlika je neto boljoj (finijoj) kvantizaciji koja se koristi kod sloja II u odnosu na sloj I te to sloj II koristi dio vremenskog maskiranja.

    Slika 7.12 Shema MPEG-1/2 audio sloja I i II

    Sloj I i II koristi banku filtara (pojasne filtre) da bi podijelio ulazni signal na 32 jednako razmaknuta podpojasa. Primjerice, za frekvenciju uzorkovanja od 44.1 kHz, irina podpojaseva je 689 Hz. Jednako razmaknuti podpojasevi ne odgovaraju kritinim pojasevima. Dapae, na niim frekvencijama jedan podpojas obuhvaa nekoliko kritinih pojaseva to predstavlja nedostatak ovog pristupa.

    Psihoakustiki model za odreivanje praga maskiranja ne koristi banku filtara nego posebno i neovisno prebacivanje iz vremenskog u frekvencijsko podruje jer za izraun praga maskiranja treba puno preciznija frekvencijska rezolucija. Za to se koristi Fourierova transformacija. Sloj I koristi FFT (Fast Fourier Transform) s analizom 512 uzoraka, a Sloj II i Sloj III FFT s analizom 1024 uzorka.

    Prije kvantiziranja se na bloku od 12 uzoraka izvri skaliranje i to tako da se vrijednosti uzoraka podijele s faktorom skaliranja tako da je vrijednost najveeg uzorka jednaka jedan. Potom se potreban broj bita za svaku spektralnu komponentu odreuje dinamikim alociranjem bita na temelju psihoakustikog modela. Pri tome algoritam za alociranje bita, osim psihoakustikog modela uzima u obzir i raspoloivu (eljenu) brzinu. Iterativna procedura minimizira NMR (noise-to-mask ratio) u svakom podpojasu. Alociranjem bita definira se broj bita kojim e se kodirati svaki uzorak. Ukoliko je taj broj bita razliit od nula, dekoderu se alje jo i faktor skaliranja. Faktor skaliranja je broj kojim e dekoder pomnoiti kvantiziranu vrijednost da bi dobio stvarnu vrijednost uzorka. Kombinacijom alociranja bita i faktora skaliranja moe se dobiti dinamiko podruje i vee od 120dB (ali ne za sve podpojaseve).

    Sloj II, za razliku od Sloja I, koristi blokove od 3x12 uzoraka, pri emu faktor skaliranja moe biti isti za sva tri bloka od 12 uzoraka, isti samo za dva ili razliit za sva tri bloka uzoraka, u ovisnosti o njihovim stvarnim vrijednostima. Ako to nee prouzroiti distorzije, koristi se isti faktor skaliranja za sva tri bloka. Ovim pristupom se smanji potreban broj bita za prijenos faktora skaliranja u odnosu na Sloj I i to je jedna od veih razlika sloja I i II. U konanici se do dekodera prenose skalirane i kvantizirane spektralne vrijednosti, faktor skaliranja i informacija o broju alociranih bita.

  • 45

    MPEG-1/2 audio koder sloj III Shema MPEG-1/2 audio sloja III dana je na slici 7.13. Najznaajnije razlike MPEG-1/2 sloja III u odnosu na slojeve I i II su:

    MDCT. Kako bi postigao bolju frekvencijsku rezoluciju bliu podjeli na kritine pojaseve, Sloj III dodatno u frekvencijskom podruju dijeli svaki od 32 podpojasa i to pomou modificirane diskretne kosinusne transformacije (MDCT - Modified Dicrete Cosine Transform).

    Faktor skaliranja u pojasevima. Za razliku od Sloja I i II koji svakom podpojasu pridijele posebni faktor skaliranja, Sloj III koristi isti faktor skaliranja za vie MDCT koeficijenata formirajui tako pojasnu irinu otprilike jednaku kritinim pojasevima.

    Entropijsko kodiranje podataka. Zbog boljeg saimanja, Sloj III koristi Huffmanovo kodiranje.

    Koritenje rezervoara bitova (engl. bit reservoir). Svaka skupina od 1152 (384x3) uzorka ne mora se kodirati istim brojem bitova. Koder moe za pojedinu skupinu uzoraka koji su zahtjevni za kodirati posuditi bitove od skupine manje zahtjevnih uzoraka. Time se praktino koristi kodiranja s promjenjivom brzinom prijenosa (engl. Variable bit rate coding)

    Koritenje vremenskog maskiranja. Sloj III koristi neto bolji psihoakustiki model od Slojeva I i II jer ukljuuje i vremensko maskiranje.

    Slika 7.13 Shema MPEG-1/2 audio sloja III 7.3.2. MPEG-4 audio kompresija MPEG-4 specificira iroki spektar audio/govornih kodera od kojih e neki u nastavku biti detaljnije objanjeni:

  • 46

    Audio kodiranje na niskim brzinama8 kodiranje temeljeno na parametarskoj reprezentaciji (Parametric Representation PARA) te Code Excited Linear Prediction (CELP).

    Visokokvalitetno audio kodiranje AAC (Advanced Audio Coding) te TwinVQ. Sintetiki audio govor-u-tekst (text-to-speech TST) te strukturirani audio (Structured

    Audio SA). MPEG-4 Advanced Audio Coding (MPEG-4 AAC) Osim poznatog MPEG Audio Layer 3 kodera (MP3) razvijen je i 1997. godine standardiziran MPEG Advanced Audio Coding (MPEG AAC) koder koji je poboljana verzija u odnosu na MPEG Audio Layer 39.

    MPEG-4 AAC koder (slika 7.14) ima istu temeljnu ideju kao i MPEG-1/2 koder (percepcijsko podpojasno kodiranje), ali uz neka poboljanja od koji je dio naveden:

    iri opseg frekvencija uzorkovanja (od 8 kHz do 96 kHz) u odnosu na MPEG-1/2 (16 kHz do 48 kHz).

    Podrava do 48 kanala (MPEG-1/2 audio koder podrava 2 kanala u MPEG-1 modu, te maksimalno 5+1 kanala u MPEG-2 modu).

    Poboljano i pojednostavljeno pojasno filtriranje jer je naputen hibridni model pa se koristi samo MDCT.

    Koritenje predvianja (koristi injenicu da su neki uzorci zvuka jednostavni za predvianje, prediktor gleda prethodna dva uzorka kako bi analizirao zvuni uzorak).

    Temporal Noise Shapening (TNS) vremenski ovisna kvantizacija koja koristi injenicu da tonalni signal u vremenskom podruju ima tranzijentne vrhove u frekvencijskoj domeni i obrnuto, tj. signal koji je tranzijentan u vremenu je tonalan u frekvencijskom podruju (tonalni signal je periodiko ponavljanje zvuka dok je tranzijentni signal kratkotrajni zvuk koji se jako brzo mijenja od malih do velikih amplituda ili obrnuto). Primjenom TNS mogue je u vremenskoj domeni raspriti um kvantizacije.

    Dinamiko mijenjanje veliine MDCT bloka (jedan blok od 1024 toaka ili 8 blokova od 128 toaka ako se signal mijenja ili postoje tranzijenti koristi se 8 kraih prozora od 128 toaka, u suprotnom se koristi prozor od 1024 toke jer se veim prozorom postie bolja frekvencijska rezolucija pa time i mogunost primjene sloenijeg i boljeg psihoakustikog modela).

    8 Zapravo se radi se o koderima za saimanje govornog signala, dakle govor specifinim algoritmima koji e biti obraeni u slijedeem poglavlju. 9 Advanced Audio Coding je standardiziran kao dio MPEG-2 standarda (MPEG-2 Part 7) ali, uz manje izmjene, i kao dio MPEG-4 standarda (MPEG-4 Part 3). Najee se oznaava kao MPEG-4 AAC ili samo AAC.

  • 47

    Slika 7.14 Shema AAC kodera neki blokovi su opcionalni

    MPEG-4 AAC ima prednost u odnosu na MP3 kod niskih brzina (manje od 128 kb/s). Kod

    veih brzina ta prednost nije toliko izraena. MPEG-4 AAC definira nekoliko kompresijskih shema (profila) za razliite primjene. MPEG-4 strukturirani audio (MPEG-4 Structured Audio) MPEG-4 strukturirani audio (MPEG-4 Structured Audio MP4-SA) je ISO/IEC standard koji specificira zvuk ne kao niz uzoraka, nego kao raunalni program koji generira audio. MP4-SA je kombinacija dva jezika

    SAOL (Structured Audio Orchestra Language) (izgovara se "sail") za obradu audio signala,

    SASL (Structured Audio Score Language) (izgovara se "sassil") za obradu nota s podrkom za MIDI format.

    MP4-SA takoer definira i kodiranje svih elemenata u binarnu datoteku kako bi bilo pogodno

    za prijenos i pohranu. MP4-SA se razlikuje od standarda poput MIDI formata, jer ne ukljuuje samo note koje e se izvoditi nego i metodu kako pretvoriti note u zvuk. MP4-SA zvui potpuno isto bez obzira na kojem se dekoderu izvodio. 7.3.3. Svijet izvan MP3/MPEG MP3 nije jedini format za snimanje glazbe koji se temelji na psihoakustikom modelu i ima veliki faktor kompresije. Postoji puno drugih, a najpopularniji su:

    Vorbis (www.vorbis.com). Vorbis je to se tie autorski prava potpuno slobodan i to bez ikakvih ograda. To je potpuno otvoren algoritam i zato u tom segmentu ima prednost u odnosu na

  • 48

    novu generaciju proprietary kodova (AAC i TwinVQ). esto je u kombinaciji s kontejnerom ogg pa se obino i naziva Ogg Vorbis

    TwinVQ poznat i kao VQF (www.vqf.com) po ekstenziji u koju je TwinVQ najee upakiran. TwinVQ je skraenica od Transform domain Weighted INterleave Vector Quantization. VQF datoteke su 25-35% manje od MP3 uz istu percepcijsku kvalitetu. TwinVQ standardiziran je kao dio MPEG-4 standarda.

    Windows Media Audio (www.microsoft.com/windows/windowsmedia/WM8/default.asp). To je Microsoftov vlasniki (engl. proprietary) format popularan kod glazbenih tvrtki jer ima dobro rijeenu tehnologiju zatite autorskih prava (engl. copyright). WMA format moe sadravati jednu od 4 kodeka: WMA, WMA Pro, WMA Lossless i WMA Voice. Najuobiajeniji je WMA, pa se u tom sluaju izraz WMA odnosi i na format i na kodek. Ispitivanja kvalitete pokazuju razliite rezultate, ali moglo bi se kazati da WMA generira neto kvalitetniji audio od MP3 (posebno na manjim brzinama), ali i manje kvalitetni od modernih kodeka kao to je AAC ili Vorbis.

    AC-3 (poznat i kao Dolby Digital 5.1). Osnovi cilj je viekanalno kodiranje uz relativno malu sloenost, uglavnom za potrebe filmske industrije. AAC, u odnosu na AC-3, postie veu kompresiju na svim brzinama, ali uz veu sloenost. 7.4. GOVOR SPECIFINI ALGORITMI Kodiranje valnog oblika kao npr. kod DPCM, ADPCM, DM i sl. ima cilj prenijeti (kodirati) valni oblik to je mogue vjernije. MP3 i slini algoritmi koji koriste psihoakustini model takoer prenose valni oblik. Istina, to je valni oblik koji nije jednak originalnom jer je cilj prenijeti informaciju, a ne sami valni oblik, ali ipak ono to se prenosi jo uvijek ima formu valnog oblika. Kada je u pitanju govorni signal, moe se umjesto valnog oblika prenijeti informacija o tome kako ovjekov govorni sustav generira (stvara) govorni signal. Koderi koji koriste takav pristup (sintezu govora) zovu se vokoderi (voice+coder). Vokoderom se moe kodira