142
- 1 - Denumirea cursului: Tehnici multimedia Obiectivul cursului: Cursul Tehnici multimedia are ca obiectiv familiarizarea studenţilor cu tehnologiile multimedia, revoluţionare şi dinamice, tehnologii de furnizare a informaţiilor ce pot fi utilizate în diferite domenii de activitate, începând de la informare, prezentare şi instruire asistată pe calculator, până la prezentări profesionale şi generale, în funcţie de necesităţile comerciale sau aplicaţii interactive, respectiv non- interactive în medicină, industrie, educaţie, divertisment, prognoze cartografice. Aceste tehnologii sunt utilizate în vederea atingerii anumitor obiective comunicaţionale, putând fi adresate atât clienţilor externi cât şi interni ai unei organizaţiii.Gradul de interactivitate sporit, precum şi combinarea într-o formă originală a diferitelor conţinuturi media reprezintă atuuri incontestabile pentru folosirea pe scară largă a acestor mijloace comunicaţionale. CUPRINS Capitolul I. Noţiuni introductive Conceptul de multimedia Aplicaţiile multimedia Aplicaţii în domeniul educaţiei .Aplicaţii în realizarea de prezentări şi reclame .Sistemele informatice geografice (Geographical Information System) Capitolul II. Condiţii hard şi soft pentru multimedia Condiţii hard şi soft pentru multimedia Tehnologii şi echipamente multimedia Camera video Dispozitive de scanare Fotografierea magnetică Dispozitive de numerizare a semnalului video analogic Echipamente şi suporţi tehnici pentru stocarea elementelor de multimedia Echipamente de afişaj Capitolul III. Resurse softwarePrezentare generală MCI (Media Control Interface) Quick Time – suport pentru multimedia Microsoft Video for Windows API – Aplication Progam Interface

CURS Tehnici Multimedia

Embed Size (px)

Citation preview

Page 1: CURS Tehnici Multimedia

- 1 -

Denumirea cursului: Tehnici multimedia

Obiectivul cursului:Cursul Tehnici multimedia are ca obiectiv familiarizarea studenţilor cu

tehnologiile multimedia, revoluţionare şi dinamice, tehnologii de furnizare a informaţiilor ce pot fi utilizate în diferite domenii de activitate, începând de la informare, prezentare şi instruire asistată pe calculator, până la prezentări profesionale şi generale, în funcţie de necesităţile comerciale sau aplicaţii interactive, respectiv non-interactive în medicină, industrie, educaţie, divertisment, prognoze cartografice. Aceste tehnologii sunt utilizate în vederea atingerii anumitor obiective comunicaţionale, putând fi adresate atât clienţilor externi cât şi interni ai unei organizaţiii.Gradul de interactivitate sporit, precum şi combinarea într-o formă originală a diferitelor conţinuturi media reprezintă atuuri incontestabile pentru folosirea pe scară largă a acestor mijloace comunicaţionale.

CUPRINS

Capitolul I. Noţiuni introductive

Conceptul de multimedia

Aplicaţiile multimedia

Aplicaţii în domeniul educaţiei.Aplicaţii în realizarea de prezentări şi reclame.Sistemele informatice geografice (Geographical Information System)

Capitolul II. Condiţii hard şi soft pentru multimediaCondiţii hard şi soft pentru multimediaTehnologii şi echipamente multimedia

Camera videoDispozitive de scanareFotografierea magnetică

Dispozitive de numerizare a semnalului video analogic Echipamente şi suporţi tehnici pentru stocarea elementelor demultimedia

Echipamente de afişaj

Capitolul III. Resurse softwarePrezentare generalăMCI (Media Control Interface)Quick Time – suport pentru multimediaMicrosoft Video for WindowsAPI – Aplication Progam Interface

. Interfeţe API speciale Modul de funcţionare al interfeţei API în mediul Windows Extensii multimedia ale sistemelor de operare

Capitolul IV. Sunetul computerizat şi imaginea computerizatăConsideraţii generale privind sunetul computerizatFormate audio ale sunetului

Page 2: CURS Tehnici Multimedia

- 2 -

Standardizări. Comprimarea fişierelor sunetImaginea computerizată

Imaginea bitmap (matriceală)Imaginea vectorialăCompresia şi decompresia imaginilor

Animaţia

Capitolul V. Limbaje de specialitate

Limbajul markup HTML Limbaje script ale uneltelor authoring (soft-urilor pentru dezvoltare de prezentări multimedia)

Hypertext şi hypermediaModalităţi de regăsire şi navigare

Limbaje vizuale pentru realizarea de producţii multimedia Capitolul VI. Produsul Director şi bazele de date multimedia

Produsul DirectorBazele de date multimedia

Utilizarea multimedia pentru realizarea bazelor de date Software pentru bazele de date multimedia Capitolul VII. Dezvoltarea şi furnizarea proiectelor multimedia Bibliografie

Capitolul I. Noţiuni introductive

Conceptele cheie:Multimedia - reprezintă combinaţia diferitelor tipuri de media livrate prin intermediul unui sistem computerizat.Grafica 3 D - vizualizarea unor locuri din diferite unghiuri de vedere, pentru a crea o realitate virtuală.

1.2. Conceptul de multimedia ; Definirea termenului multimedia

Etimologic, cuvântul multimedia este format prin alipirea prefixului multi (mai mult decât unul, mai multe) la media (pluralul! termenului medium - cu sensul de mijloc, intermediar, menire). Prin urmare, o traducere brută este aceea de mijloace multiple.

Este necesar de subliniat că termenul media este o forma de plural, forma utilizată şi în alte contexte: massmedia (mijloace de comunicare în masă), communication media (mijloace de comunicare), computer storage media (mijloace de stocare a informaţiei procesate de calculator), presentation media (mijloace de prezentare).

În domeniul tehnologiei informaţiei (Information Technology, IT), termenul multimedia este focalizat pe metodele de tratare a informaţiei: stocare, procesare, producere, distribuire, transmitere, prezentare şi percepţie.

Putem deci propune ca o primă definiţie a termenului:

Page 3: CURS Tehnici Multimedia

- 3 -

Definiţia 1: multimedia reprezintă existenţa mai multor intermediari între sursa informaţiei şi destinaţia ei.

Particularizând, putem propune:

Definiţia 2: multimedia reprezintă mijloace multiple de stocare, transmitere, prezentare si percepţie a informaţiei.

Deoarece discutăm de domeniul IT, ne referim practic la termenul digital multimedia, pentru care este propusă definiţia:

Definiţia 3: digital multimedia este domeniul referitor la integrarea (controlată de calculator) a textului, graficii, imaginilor statice şi în mişcare, animaţiei, sunetelor, a oricăror alte mijloace de reprezentare, stocare, transmitere şi procesare digitală a informaţiei.

Din definiţie putem evidenţia şi diferitele tipuri de informaţie procesate de sistemele multimedia: text, desene, imagini statice, imagini în mişcare, animaţie, film, sunete. Evident, termenul multimedia se extinde atât in categoria captării informaţiei, cât şi a tratării acesteia.

Un sistem multimedia poate fi considerat aşadar un sistem de calcul care contine dispozitive hardware şi este capabil din punct de vedere software să integreze text, grafică, imagini statice şi în mişcare, animaţie, sunete, alte mijloace de reprezentare, stocare, transmitere, procesare digitală a informaţiei.

O aplicaţie multimedia este definită ca o componentă software ce se caracterizează prin procesarea, stocarea, generarea, manipularea informaţiei multimedia (text, grafică, imagini, sunet/audio, animaţie, video.

În acest context, subliniem că termenul hypertext se referă la informaţia digitală sub forma text care conţine legături către alte documente text (cu alte cuvinte, are caracteristici neliniare, spre deosebire de documentele text obişnuite, liniare). Extensia naturală este adusă de termenul hypermedia, care înglobează cele două noţiuni definite anterior, hypertext şi multimedia.

În concluzie, un sistem multimedia este un sistem de calcul care apelează un set de tehnologii ce fac posibilă existenţa aplicaţiilor de tip multimedia, cum ar fi: grafică PC, imagini şi animaţie 2D şi 3D, video, redarea imaginilor înregistrate şi comprimate, aplicaţiile legate de sunet (înregistrarea şi redarea sunetului, sinteza vorbirii) ş.a. Alături de acestea trebuie amintite tehnologii suport pentru multimedia, cum ar fi CD-ROM/DVD, reţele locale şi tehnologii de comprimare/ decomprimare a datelor. Acest domeniu se dezvoltă odată cu creşterea performanţelor sistemelor de calcul de a prelucra în timp real fluxul de date din astfel de aplicaţii. De asemenea, multimedia implica notiunea de interactivitate: utilizatorul nu este un simplu spectator ci poate sa modifice dupa dorinţă si posibilităţi cursul evenimentului (aplicaţiei).

Page 4: CURS Tehnici Multimedia

- 4 -

Componentele unui sistem multimedia

Cerinţe hardware minime pentru un sistem multimedia

Sistemele multimedia se caracterizează prin faptul că sunt sisteme de calcul ce integrează dispozitive multimedia, procesează informaţie reprezentată digital şi folosesc interfeţe multimedia interactive. În consecinţă, sistemele multimedia trebuie să dovedească o mare putere de procesare (pentru a putea prelucra în timp real cantităţi mari de informaţie digitală), să se bazeze pe un sistem de operare compatibil multimedia (pentru interpretarea informaţiei multimedia prin compresie/decompresie în timp real, transfer direct pe disc, scheduling, I/O streaming), să aibă I/O eficiente şi rapide (pentru înregistrări şi redări în timp real), capacitate de stocare şi memorare mare (evident, în termeni relativi, spre exemplu peste 100 GB spaţiu de stocare şi peste 50 -100 MB memorie, memorie cache suficientă), acces la reţele de date (inclusiv Internet), instrumente software dedicate, user-friendly, pentru manipularea informaţiei multimedia, proiectarea, dezvoltarea şi furnizarea acesteia.

Un sistem multimedia poate cuprinde:

- dispozitive de achiziţie (camera video, Video Recorder, microfon, tastatură,mouse, tabletă grafică, dispozitive de intrare 3D, senzori tactili, dispozitivede intrare Virtual Reality, dispozitive de digitizare);

- dispozitive de stocare a informaţiei multimedia (Hard disk-uri, CD-ROM,Jaz/Zip drives, DVD etc);

- dispozitive de conectare la reţele de calculatoare (Ethernet, Token Ring,FDDI, ATM, Intranets, Internets);

- sisteme de calcul (sisteme Multimedia Desktop, Workstations, hardwareMPEG/VIDEO/DSP);

- dispozitive de ieşire/ afişare (căşti CD-quality, digital High DefinitionTeleVision HDTV, Super Video Graphics Adapter SVGA, monitor Hi-Res,imprimantă color, fax incorporat etc.).

În general, tehnologia multimedia lucrează cu volum mare de date. Prin urmare, ca mediu ideal de stocare în acest domeniu s-a impus de la început CD-ROM (vezi specificaţiile MPC2) cu capacitatea de peste 700MB. În urma evoluţiei tehnologiilor în domeniul stocării optice (laser) a informaţiilor au apărut abordări noi. Este cazul DVD (Digital Versatile Disc), cu capacităţi de 4GB sau 8GB (dar standardele nu sunt încă unitare şi acceptate de toţi producătorii). Diferenţa notabilă adusă de DVD faţă de CD se referă la capacitatea de stocare, mărită semnificativ atât prin faptul că pot folosi pentru scriere ambele feţe ale discului, cât şi prin posibilitatea de înregistrare a informaţiei pe două nivele de adâncime, ceea ce dublează capacitatea iniţială de stocare. În ce priveşte comunicarea între sisteme multimedia, s-a pus problema transmisiilor digitale pentru utilizatorii obişnuiţi. Astăzi, acestea se realizează în mod curent cu echipamente numite MODEM-uri (Modulation - DEModulation) care folosesc tehnica digitală pentru transmiterea datelor pe liniile de comunicaţie obişnuite (analogice).

Page 5: CURS Tehnici Multimedia

- 5 -

Datorită faptului că reţelele telefonice curente (numite şi reţele comutate) limitează viteza de transfer a datelor la valori care nu fac posibilă transmisii multimedia de calitate, atenţia s-a îndreptat spre echipamente cu fibre optice, sateliţi sau reţele locale rapide (care permit un flux crescut de date). Tendinţele în domeniul multimedia includ World Wide Web MBone (Multicast Backbone, echivalent radioului şi televiziunii convenţionale, dar transmise prin Internet), tehnologiile de integrare şi implementare a cerinţelor multimedia. Carrier, Switching, protocoale, aplicaţii, algoritmi de codificare/compresie, baze de date). Se speră că viitorul va aparţine “autostrăzilor” multimedia, pe care vor fi vehiculate filme sau muzică la cerere.

Istoric al sistemelor si aplicaţiilor multimedia

Din punct de vedere istoric, primul mijloc de comunicare a informaţiei a fost vocea umană, combinată cu diverse alte sunete şi semnale.

Un salt important l-au reprezentat publicaţiile tipărite (ziarele) - primul mijloc de comunicare de masă (mass-media), cu memorie. Elemente utilizate: text, grafică şi imagini.

In anul 1895, Gugliemo Marconi realiza prima transmisie radio în Italia. Inventată iniţial pentru telegrafie, comunicaţia radio este astăzi unul din principalele medii de comunicare de masă. Radiofonia utilizează în exclusivitate sunetul pentru prezentarea informaţiei către utilizator.

Televiziunea este principalul mijloc de comunicare de masă a secolului XX. A introdus mediul video ca element de bază în comunicarea informaţiei: imagini statice, imagini dinamice, animaţie, clipuri video, film. De asemenea include sunet şi text ca medii complementare.

Viteza cu care se desfăsoară evenimentele in acest domeniu ne sugereaza ca posibil pas urmator "realitatea virtuala", subiect atins cu catva timp in urma doar de cateva lucrari science-fiction mai curajoase. Aceasta ar prespune combinarea tuturor mediilor de prezentare in asa fel incat sa dea utilizatorului iluzia de realitate: imagine tridimensionala (poate chiar holograme) si sunet stereo-spatial, toate reactionand si interactionand in timp real cu utilizatorul.

Componentele implicate in aplicatiile multimedia (mediile de prezentare a informatiei):

- textul: mediul tradiţional de comunicare/prezentare a informaţiei. De multe ori însă poate fi un mijloc prea lent şi monoton, solicitând destul de mult atenţia şi concentrarea utilizatorului. Din aceste motive în aplicaţiile multimedia se urmăreşte reducerea cât mai mult posibil a acestuia şi concentrarea lui în mesaje simple şi clare. Diferitele fonturi şi stiluri de text existente permit evidenţierea elementelor de text necesare şi evită posibila apariţie a monotoniei. Este un mediu de tip static.

- imaginile (grafica): o imagine poate echivala cu mai multe pagini de text, având mai ales avantajul că transmite instantaneu informaţia către utilizator. Comparând imaginile cu textul, putem spune că în timp ce textul se citeşte în mod serial, imaginea se ‘citeşte' în mod paralel. De exemplu este mult mai de preferat o imagine-grafic cu situatia vânzărilor pe o perioadă, faţă de tabelul cu valorile numerice (text) a acestora. Singurele dezavantaje ale graficii faţă de text sunt dificultatea imaginilor de a comunica cu exactitate date abstracte (deşi nu e imposibil) şi costurile mult mai mari implicate (de la obţinerea/crearea imaginii şi până la problemele legate de dimensiunea reprezentării sale în sistemele de calcul). Grafica este un mediu de tip static.

- elementele de animaţie: se utilizează atunci cand se doreste atragerea atenţiei

Page 6: CURS Tehnici Multimedia

- 6 -

asupra unei anumite porţiuni particulare din aplicatia multimedia, pentru a adaugă culoare si a destinde prezentarea în general, sau pentru a demonstra şi exemplifica derularea a diverse procese dinamice. De exemplu se poate sugera si explica cu ajutorul animaţiei functionarea unui produs, care, altfel ar fi imposibil de realizat prin imagini statice sau text. Animaţia este un mediu de tip dinamic.

- sunetul: este cel mai vechi si cel mai subtil dintre toate mediile de comunicare. Este cel mai eficient mijloc de a atrage atenţia utilizatorului. Muzica se poate utiliza pentru a crea atmosfera propice prezentării, pentru a intensifica emoţiile sau pentru a ilustra şi evidenţia un anumit punct de vedere. Efectele sonore pot fi incluse într-o aplicaţie multimedia pentru a imbogăţi şi a completa conţinutul prezentării sau pentru a accentua anumite idei particulare. Prin vorbire (narare) se abordează un anumit subiect particular într-o manieră mai directă, deseori mai eficientă. Sunetul este un mediu de tip dinamic.

- video-producţiile: reprezintă cel mai complet dintre toate mediile de prezentare. Incorporează toate celelalte medii descrise anterior, bazându-se însă pe afişarea de imagini dinamice. Până nu demult, video-producţiile erau considerateele însele multimedia.Dezavantajul major este însă costul lor mare de producţie şi capacitatea enormă de stocare necesară pentru manipularea lor cu ajutorul calculatorului. Video-producţiile sunt medii de tip dinamic.

- interactivitatea: este facilitatea prin care utilizatorul poate interveni şi modifica derularea aplicaţiei după propria dorinţa. Astfel, execuţia aplicaţiei respective se personalizează pentru fiecare utilizator în parte, eliminându-se de exemplu părţile care îi par neinteresante.Potrivit unor studii de la sfărşitul anilor '80, oamenii reţin 70% din informaţia obţinută în mod interactiv.În continuare se detaliază mai mult cele trei componente esentiale ale oricarui sistem multimedia: sunetul, componenta video şi medii de stocare multimedia.

Reprezentarea şi prelucrarea datelor multimedia

Expansiunea din ultimii ani a aplicaţiilor multimedia, datorată în parte şi creşterii exponenţiale a Internetului, a dus la utilizarea masivă a datelor multimedia. Ca o consecinţă, cercetările în domeniul tehnologiilor multimedia au crescut ca importanţă.

Datorită naturii şi caracteristicilor datelor multimedia, gestiunea lor este diferită de gestiunea datelor tradiţionale.

Datele multimedia sunt eterogene din diferite puncte de vedere: unele date sunt dependente de timp iar altele sunt independente de timp, folosesc formate diferite de reprezentare, unele tipuri sunt structurate iar altele apar ca şiruri nestructurate sau semistructurate de date, unele date pot fi transferate la distanţă într-un timp scurt iar altele necesită un interval mare de timp pentru transfer.

Răspândirea algoritmilor de prelucrare digitală, dezvoltarea standardelor deschise precum JPEG (Joint Photographic Experts Group), MPEG-x, (Motion Pictures Expert Group) H.26x şi dezvoltarea echipamentelor hardware au un impact major asupra utilizării datelor şi aplicaţiilor multimedia în viaţa de zi cu zi. Aceste standarde au făcut ca obţinerea şi transmiterea datelor multimedia să poată fi realizată fără costuri suplimentare semnificative.

Utilizarea standardelor în reprezentarea, gestiunea şi transferul datelor multimedia este absolut necesară datorită caracteristicilor specifice ale datelor multimedia şi a cerinţelor aplicaţiilor multimedia şi anume:

- interactivitatea în timp real a datelor multimedia

Page 7: CURS Tehnici Multimedia

- 7 -

- interschimbul în timp real; - compunerea şi sincronizarea datelor multimedia în spaţiu şi timp;

integrarea datelor în diferite contexte şi în medii diferite;- actualizarea frecventă a conţinutului multimedia;- manipularea unitară a fluxurilor multimedia.În dezvoltarea aplicaţiilor multimedia un loc important îl ocupă standardele de

compresie a datelor, transmisia secvenţelor multimedia în timp real, regăsirea şi filtrarea conţinutului la cererea utilizatorilor şi existenţa unei descrieri corespunzătoare a conţinutului multimedia.

Multimedia reprezintă combinaţia diferitelor tipuri de media livrate prin intermediul unui sistem computerizat. Prezentarea informaţiei către utilizator, într-unformat multimedia, nu o face să fie mai bună sau mai potrivită pentru nevoile utilizatorului, dar proiectantul de multimedia dispune de facilităţi pentru a-i oferi mai multe opţiuni utilizatorului final.

Multimedia este considerată un salt tehnologic asemănător apariţiei televiziunii în culori sau cinematografului sonor, un eveniment cotat ca având aceeaşi importanţă ca şi inventarea tiparului de către Gutenberg. Ea permite indivizilor accesul la cunoaştere şi informare în mod rapid, interactiv.

Pentru a înţelege această revoluţie digitală, care a multiplicat canalele de comunicare şi a introdus interactivitatea, trebuiesc menţionate cel puţin două mari descoperiri ale anilor 1980 care au determinat-o. În primul rând transformarea semnalului analog (sunet, voce, imagine, text) în semnal digital, înţeles de către calculator. Ca urmare a acestei transformări, volumul de date a crescut considerabil, făcând necesară compresia informaţiilor. Această operaţie presupune o altă transformare a datelor şi marchează cea de a doua descoperire, care a condiţionat apariţia multimedia.

Dezvoltarea multimediei a fost determinată şi în acelaşi timp determină apariţia unei game foarte largi de tehnologii şi periferice specifice. Din această perspectivă, multimedia devine din ce în ce mai mult un serviciu pentru un public dornic de a descoperi cât mai multă informaţie, de diferite tipuri, prin intermediul televizorului sau monitorului, a sintetizatorului muzical şi în final, prin televiziunea interactivă, devenind ceea ce obişnuim să denumim prin Home computers.

Aplicaţiile multimediaAplicaţiile multimedia au cunocut în ultima perioadă o dezvoltare fără precedent.

Începând cu prezentarea de produse, firme sau activităi, până la interfeţe multimedia pentru aplicaţii economice şi de la baze de date sau enciclopedii, până la software de instruire, multimedia a revoluţionat modul de comunicare al informaţiilor.

Cateva exemple de aplicaţii multimedia

• Hypermedia.Adauga conceptul de hiperlegatura (hyperlink) aplicatiilor multimedia. Hiperlegăturile

sunt structuri logice de organizare a obiectelor din mediile de prezentare implicate intr-o aplicatie data, într-o manieră flexibilă, coerentă şi non-secvenţială.

Un exemplu concret îl constituie hipertextul - un caz particular de hipermedia, în care mediul de prezentare utilizat este textul. Hipertextul este un text care contine legaturi la alte texte. Acest termen a fost inventat de Ted Nelson in jurul anului 1965.

Un alt exemplu de aplicatie hipermedia in care pot fi implicate toate mediile de prezentare descrise mai sus, nu numai textul, este "World Wide Web" (WWW).

Page 8: CURS Tehnici Multimedia

- 8 -

• Sisteme de videoconferinta

Odata cu dezvoltarea retelelor de calculatoare, comunicatiile la distante foarte mari nu mai sunt o problema nici de timp, nici de bani si nici de tehnologie. Ca urmare au aparut diverse sisteme de comunicatii prin retea, cu performante excelente, performante limitate aproape in exclusivitate de capacitatea retelelor de calculatoare de a vehicula informatia ("latimea de banda").

Sistemele de video-conferinta ridica standardele in comunicatii la niveluri de performanta neatinse pana nu demult. Video-conferinta presupune ca mai multi participanti sa poata comunica sonor si vizual fiecare-cu-fiecare, ca si cand s-a afla in aceeasi sala.

In prezent, din punct de vedere al cerintelor hardware, video-conferinta nu este nici pe departe atat de pretentioasa pe cat suna, fiind accesibila fara probleme oricarui utilizator de PC (de generatie mai recenta, totusi). O arhitectura uzuala de sistem echipat pentru video-conferinţă cuprinde:

• un calculator PC (de preferat cu facilitati multimedia) conectat la reţeaua de calculatoare (Networked Multimedia Personal Computer - NMPC);

• un set be boxe audio;• un kit de video-conferinţa;• latime de banda suficienta la retea.

Kit-ul de video-conferinţă este un pachet hardware şi software disponibil la preţuri rezonabile, în comerţul de tehnică de calcul.De exemplu, kit-ul "LifeView Fly Video-EZ Conferencing" are următoarea componentă:

• mini-camera video, în tehnologie CCD (Charge-Coupled Device), cu iesire TV de tip NTSC/PAL;

• un microfon;• placa add-in, cu rol de captura TV şi de placă de sunet, de tip Plug'nPlay PCI;

software specializat pentru video-conferinţă, ca "VDOPhone" si "Enhanced CU-SeeMe".

• Televiziunea interactivă

Televiziunea interactivă specifică posibilitatea ca telespectatorul să poată deveni un participant mult mai activ decat este in prezent.

Exista mai multe tipuri de interactivitate ce poate fi utilizata in astfel de sisteme. Cel mai simplu tip este acela in care telespectatorul poate "produce" programele pe care le vizioneaza. De exemplu, utilizatorul poate selecta un anumit unghi de filmare a unui eveniment sportiv televizat, din mai multe variante posibile. Sau poate cere informatii suplimentare despre o echipa sau despre un anumit jucator.

Un alt exemplu ar putea fi o emisiune educativa in care utilizatorul poate selecta un anumit nivel educational din mai multe disponibile, poate cere documentatie suplimentara despre un anumit subiect, sau chiar poate raspunde la diferite intrebari de verificare a cunostintelor.

Acest tip de aplicatie multimedia necesita diferite tipuri de solutii tehnologice, deoarece programele TV interactive vor fi prea specializate pentru a putea fi transmise pe canalele TV comune. Astfel, va fi necesara inscrierea doritorului la un serviciu TV special, achizitionarea unui decodor pentru semnalul TV respectiv si a unui echipament specializat pentru comunicatia telespectator-studio TV producator.

• Home Shopping.Utilizatorul poate efectua cumpărături stând acasă în faţa calculatorului, navigând cu

ajutorul acestei aplicaţii printr-unul din magazinele virtuale aflate la dispoziţie (şi care corespund celor din realitate) şi selectând spre cumpărare diversele produse dorite.

Page 9: CURS Tehnici Multimedia

- 9 -

• Realitatea Virtuală (VR - Virtual Reality)

Realitatea virtuală este un termen care semnifică în principiu, înlocuirea realităţii fizice din jurul utilizatorului cu una produsa de calculator. Realitatea generată de calculator este obţinută prin modelarea obiectelor şi a comportamentului acestora în timp real şi prin calcularea continuă a poziţiei utilizatorului faţă de fiecare obiect din jur. Sistemele de realitate virtuala identifica complexul hardware + software care, interacţionând inteligent cu utilizatorul, ii da acestuia falsa senzaţie de realitate. Termenul de "realitate virtuala" promite insa mult mai mult decat poate oferi tehnologia actuala. Astfel ca el este utilizat pentru diverse descrieri de interfete-utilizator, de la mediile fizice sintetizate in "castile video" HMD (Head-Mounted Devices) şi până la grafica obişnuită afisata pe monitoarele conventionale, sau la jocurile multi-user in mod text.

Primele sisteme VR au aparut inainte de utilizarea calculatoarelor in domeniu. Morton Heiling a dezvoltat, de exemplu, o maşină denumita "Sensorama", care implica toate simturile omului cu exceptia gustului, intr-o calatorie virtuală cu motocicleta prin Manhattan. De asemenea simulatoarele de zbor din primele generatii creeau medii virtuale fara ajutorul calculatoarelor. Ele utilizau filme sau clipuri video ce inregistrau pe viu mişcarea unor modele.

In prezent, platformele hardware utilizate in mediile virtuale sunt compuse din casti video HMD stereo color, sunet stereo spaţial, interfete haptice (interschimba cu utilizatorul informaţie tactila), mănuşi digitale, aromofoane, etc. Pe partea de software, se utilizeaza grafica 3D pentru afisare, sisteme de operare de timp real pentru controlul proceselor din mediile virtuale si programe evoluate de interfatare cu utilizatorul, de tip reactie-la-eveniment si cu anticiparea actiunilor următoare.

Aplicaţii în domeniul educaţieiAplicaţiile multimedia în domeniul învăţării asistate de calculator reflectă

schimbările din tehnologie. Ca urmare a rapidei deprecieri a informaţiei, învăţarea continuă este o condiţie a competitivităţii oricărei organizaţii. „Computer based training” a devenit în contextual actual o componentă majoră a sistemelor multimedia. Pentru a înţelege impactul acestui sistem de instruire trebuie cunoscut faptul că aportul calculatorului este major, în procesul de căutarem regăsire şi redare a informaţiei. Produsele multimedia accesează direct sau prin ODBC (Object Data Base Conectivity) baze de date complexe, poate integra aceste date în procesul dinamic al învăţării, sau poate iniţia căutari, în funcţie de subiectul care învaţă.

Cunoştinţele sunt deja structurate astfel încât permit regăsiri rapide, iar conexiunile între acestea sunt implementate fizic sau latent, prin programe. Aceste programe scriu un set de acţiuni specifice fiecărei destinaţii posibile, acţiuni ce se declanşează atunci când condiţiile din sursă sunt satisfăcute. Conexiunile de tip ancoră din hypermedia, devin la îndemâna oricui. O reoganizare dinamică, permanentă a informaţiei, care urmăreşte evoluţiile din mediu, asigură o învăţare ancorată în cotidian, într-un mod mai rapid, şi mai eficient decât se realizează revizuirea unui manual tipărit.

În acelaşi timp, libertatea navigaţiei este foarte mare, sistemele hypermedia permiţând folsirea simultană a mai multor criterii de structurare şi de navigare. Laparcurgerea unei cărţi poate fi urmărit criteriul logicii domeniului, surprins prin succesiunea capitolelor, sau ordinea alfabetică a conceptelor cheie. Cititorul trebuie să comute pe o altă structură (căutare în indexul cărţii) în situaţia clasică, în timp ce în cazul unei cărţi electronice, comutarea poate fi furnizată automat, printr-un sistem “hotword”. Utilizatorul îşi poate alege singur traseul conform propriilor opţiuni sau solicită sistemului să îi propună un traseu corespunzător nivelului său de pregătire. Se poate astfel

Page 10: CURS Tehnici Multimedia

- 10 -

vorbi de individualizarea învăţării.O altă caracteristică a acestor sisteme este faptul că asigură percepţia unui proces

în dinamica lui, fazele fiind însuşite în succesiune logică, cu durată şi sincronizările specifice. Extrem de avantajos este şi faptul că aceste sisteme noi de învăţare utilizează mecanisme de instruire deja verificate, evaluate şi implementate, prin widget-uri.

Acestea alcătuiesc ceea ce, în cadrul produselor multimedia de creaţie, este desemnat prin modulul CBT (Computer Based Training), şi anume:

· Instruirea prin corelarea cunoştinţelor, implementatăprin mecanisme drag & drop, pentru a descoperi legăturile sau pentru a marca grafic, apartenenţa unui concept lao clasă;

· Generarea automată de chestionare de tip „matching quiz”;· Mecanisme de căutare automată de index;· Cuprins pe nivele selectabile de detaliere;· Control pe tip limitat;· Învăţare prin încercări sau prin exemple – mecanise de tip show & try.

Toate acestea mecanisme aparţin tehnologiei orientate pe obiect. Obiectele suntidentificate generic (target, self, this) şi sunt autoconţinute; prin simpla lor copiere ele se adaptează noului context. În acelaşi timp aceste tehnologii prezintă un mare grad de interactivitate, care este realizat prin stabilirea proprietăţilor obiectelor de a fi sau nu selectabile, de a avea sau nu caracteristici modificabile, oferind posibilitatea iniţierii sau terminării forţate a unor acţiuni în sistem.

Ele furnizează un sistem de abstractizare adecvat prezentării în tip real, cum ar fi teleconferinţele cu întrebări şi răspunsuri în timp util, sistemele dispunând de funcţii de sincronizare, de transfer în reţelele de calculatoare. Ele oferă suport pentru învăţământul la distanţă în vederea creării de centre specializate de instruire.

Sistemele multimedia pot fi utilizate practic ca sisteme inteligente de instruire ce furnizează cunoştinţe dintr-un anumit domeniu de activitate, apelând la tehnici de reprezentare şi utilizare a cunoştinţelor, asigurând generarea explicaţiilor şi accesul la regulile domeniului.

Mai mult, permit implementarea unor modele complexe de simulare, apropiindu-se de conceptul de întreprindere virtuală, caracterizată prin flexibilitate organizaţională, partajarea informaţiilor, comandată la distanţă. Modelele permit experimentarea software-ului pentru managementul unei firme, contribuind la identificarea unor noi modele de cooperare.

Aplicaţii în realizarea de prezentări şi reclameAceste aplicaţii reprezintă un segment important în cadrul produselor multimedia.

Comunicarea prin mai multe medii simultan, face ca mesajul transmis, să fie mai eficient perceput şi să îşi atingă obiectivul. Astfel, tehnologiile multimedia sunt frecvent folosite în activitatea de marketing. Dezvoltarea comunicaţiilor prin reţele de calculatoare şipefectarea unor tehnici de navigare informaţională, au facilitat utilizarea lor la scară largă. În plus, realizarea unor interfeţe multimedia pentru aplicaţii din domeniul marketingului a condus la conturarea unor principii. În general, scurtele informaţii textuale ce însoţesc prezentările, grupează caracteristicile tehnice ale produsului, recomandări de utilizare, rapoarte de analiză şi altele. Faciliăţile de hypertext pot asigura legăturile între diferitele entităţi ale textului.

În cazul prezentării unor produse program, a unor servicii, aplicaţia de prezentare se poate constitui şi într-un demo, în sensul mixării unor secvenţe cu execuţia unor funcţii ale produsului, cu revenire la aplicaţia de prezentare. Suportul tehnic este oferit în acest caz

Page 11: CURS Tehnici Multimedia

- 11 -

de către bibliotecile cu legare dinamică (DLL).În cazul prezentărilor de produse se folosesc prezentări scurte video, asociate, ce

pot contribui la conturarea rapidă a unei viziuni asupra produsului repectiv. Prezentarea poate fi însoţită, în funcţie de situaţie, de un clip muzical, care trebuie să fie ales cât mai sugestiv, să creeze o ambianţă plăcută şi să fie sincronizat în timp cu mesajul vizual care este transmis.

Sistemele informatice geografice (Geographical Information System)Sistemele informatice geografice au rolul de a stoca şi manipula informaţii din

diferite domenii, strâns corelate cu informaţiile geografice. Obiectele sunt localizate exact, prin fotogrametrie sau direct pe teren, de către om, informaţia fiind codificată în raport cu un sistem de coordonare, de obicei un caroiaj, astfel încât obiectele să fie afişate în relaţia lor spaţială reală.

Aceste sisteme au fost iniţial destinate industriei extractive şi combinau hărţile cu informaţie numerică cu rutine de calcul şi afişare. Ulterior sistemele informatice geografice au preluat o serie de informaţii publice privind transportul, dirijarea traficului, poluare, marketing, poliţie, salvare, etc. toate în conexiunea lor spaţială.

Cele mai frecvente obiective ale sistemelor geografice vizează:· Gestiunea mediului (elaborare de bilanţuri ecologice, meteo, studiul poluării,

evaluarea riscurilor şi identificarea şi urmărirea strategiilor de salvare);· Orientarea în teritoriu (localizarea facilă a unor obiective pe hartă, extragerea

unor adrese utile, alegerea unor anumite trasee ale mijloacelor de transport pentrudeplasarea între două puncte, identificarea diferitelor tipuri de reţele de comunicaţii);

· Amenajarea teritorială (amplasarea centrelor de servire şi arondare pe centre,dezvoltarea reţelelor de alimentare cu apă, gaz, energie, etc.)

· Determinarea rutelor optime şi alternative (pentru pilotaj) între centre deservire şi centre de consum, între centre de locuinţe şi zone industriale, etc.)

· Proiecte de dezvoltare regională (amplasarea sectorului agricol ţinând seamade climă, sol, etc. şi poziţia zonelor populate sau a celor de prelucrare ţinând cont demarii consumatori);

· Studii mixte (longitudinale) pe un teritoriu dat şi elaborarea de scenarii dedezvoltare.

Cea mai mare parte a informaţiilor este destinată publicului larg. De aceea, aceste sisteme dispun de interfeţe grafice cu utilizatorul, ce au o mare flexibilitate.

Localizarea spaţială uşoară presupune vizualizarea pe hărţi de diferite scări de reprezentare. Ele sunt elaborate în tehnologia graficii vectoriale, suportând scalări rapide

Page 12: CURS Tehnici Multimedia

- 12 -

reducând stocarea în mai multe exemplare a aceleiaşi hârtii, la diferite scări de reprezentare.

Percepţia vizuală este mult îmbunătăţită prin utilizarea animaţiei, de exemplu deplasarea spre un traseu căutat, evoluţia formaţiunilor noroase, urmărirea extinderii plouării în condiţii meteo specifice, etc.

O parte din informaţii sunt furnizate textual, altele prin voce sau combinat text şi voce. Imaginile video pot însoţi imaginile grafice, contribuind la percepţia şi individualizarea mai profundă a unor locuri. Grafica 3 D permite vizualizarea unor locuri din diferite unghiuri de vedere, pentru a crea o realitate virtuală. Prin urmare, adresându-se într-o proporţie semnificativă unor utilizatori finali neinformatici, sistemele informatice apelează la o comunicare multimedia, apropiată de percepţia comună.

Din punct de vedere logistic GIS-urile combină algoritmii de cercetări operaţionale (grafuri, optimizări, stocuri, etc.) cu tehnici ale inteligenţei artificiale (asistarea în conducerea unor operaţiuni de salvare, conducere de trafic, etc.) şi anumite concepte din domeniul geomaticii ( geomatica reprezintă aplicarea metodelor statistice matematice şi tehnicilor GIS în studii environmentale, teledetecţie).

Suportul informatic este alcătuit, alături de grafică computerizată (fotogrametrie, cartografie, vectorizare, modele de teren, vizualizări, interpretarea datelor din sateliţi) de baze de date şi baze de date geografice, beneficiind adesea de limbaje de specialitate, proceduri şi protocoale de comunicare între diferite aplicaţii, proceduri de conversii între tipologia discretă, specifică algoritmilor de cercetări operaţionale şi cea de tip continuu, caracteristică informaţiei geografice.

Se mai poate vorbi şi de proiecte de anvergură internaţională din domeniul ştiinţelor geografice: COST – cooperare în domeniul cercetării ştiinţifice şi tehnologice sau GEAT – gestiunea mediului şi amenajarea teritoriului sau alte proiecte naţionale şi regionale din ţări precum Olanda – pentru transport şi strategii antipoluante, Elveţia (Geneva) – pentru trafic şi poluare.

Glosar de termeni:Widget-urile – elemente ce corespund unei abstractizări într-o interfaţă grafică de

utilizator. Pentru elementele sau mecanismele complexe se oferă cod sursă, bazat pe primitive elementare.

Capitolul II. Condiţii hard şi soft pentru multimedia

Conceptele cheie:Echipament digital - echipament ce utilizează o anuita tehnologie în domeniul

video-ului şi sunetului în care semnalul este discretizat (eşantionat, împărţit), atribuindu-i-se valori numerice (digitale); semnalul digital este exact şi devine imperturbabil la zgomote externe sau recopieri, în timp ce calitatea semnalului depinde de frecvenţa de eşantionare şi numărul de biţi alocaţi pentru asigurarea preciziei numărului care stochează semnalul.

Format analog – tehnologie în domeniul video-ului şi sunetului, în care semnalul are o variaţie continuă, orice modificare fiind perceptibilă şi semnificativă; permite modelarea semnaleleor complexe, dar se pierde informaţie prin transmitere la distanţă sau prin copiere de pe un suport pe altul. Comparativ cu tehnologiile digitale, ocupă mai

Page 13: CURS Tehnici Multimedia

- 13 -

puţin spaţiu pentru stocare. Casetele video şi audio obişnuite sunt înregistrate în această tehnologie. Limbaj script - limbaje de programare proprii, specifice care însoţesc programele de creaţie multimedia.

Pixeli – secţiuni mici de culoare sau ton care împreună formează o imagine, precum piesele unui mozaic; imaginea digitală este formată dintr-o reţea de pixeli.

Software Authoring – soft ce permite şi crearea de aplicaţii multimedia conţinând diferite tipuri de date (text, imagine fixă, video, sunete, animaţie), nu numai integrarea unor elemente deja create şi vizualizarea lor.

Condiţii hard şi soft pentru multimediaExistă anumite condiţii şi factori care restricţionează existenţa şi aplicarea

tehnologiilor şi metodelor multimedia, fără de care aceasta ar rămâne la stadiu de utopie.· O primă categorie de standarde se referă la considerentele tehnice ce

trebuiesc îndeplinite, precum: existenţa unui lector CD-ROM, a unui ecran, a unui sistemde captare şi digitizare, etc., fiecare componentă multimedia presupunând existenţaunui echipament hardware specializat, de captare şi de redare a fiecărui tip de informaţie.

Pentru îndeplinirea acestor condiţii tehnice a fost creat un standard, propus de Microsoft, care impune limitele minimale pe care trebuie să le îndeplinească un echipament multimedia. Elaborat pe mai multe nivele, acest standard a fost denumit MPC (Multimedia Personal Computer) şi prevede toate capacităţile necesare înregistrării şi redării sunetului, a imaginii în mişcare şi a aplicaţiilor şi prezentărilor multimedia. Calculatorul care deţine aceste capacităţi este prevăzut obligatoriu cu un lector CD-ROM, o configuraţie minimă pentru memorie şi pentru unitatea centrală, precum şi o interfaţă MCI (Media Control Interface), care permite conectarea şi controlul unitar al perifericelor. Comenzile MCI se pot da prin cod de mesaje sau prin comenzi tip şir de caractere şi pot fi accesate din limbaje de programare sau din limbaje scripting ale software-ului multimedia.

Un sistem multimedia în adevăratul sens al cuvântului este capabil să trateze sunetul şi imaginea animată sub formă numerică şi să piloteze dispozitivele de numeralizare a informaţiilor.

Posibilitatea stocării unor fişiere de sunet şi imagine având dimensiuni foarte mari, existenţa unor reţele de transmisie la distanţă a informaţiei, sunt cerinţe fără de care nu poate exista multimedia.

· O altă categorie de standarde este legată de considerentele software. Acestecondiţii se referă la existenţa unor programe de creaţie, denumite authoring, sau a unorlimbaje de programare ce pot susţine şi exprima complexitatea aplicaţiilor multimedia,coordonarea tipurilor de componente ale acesteia şi interactivitatea. Realizareaproiectelor multimedia de bună calitate şi funcţionarea soft-ului specializat esteinfluenţată de procesele de numerizare şi comprimare/decoprimare a informaţiei, la carese adaugă posibilităţile de prelucrare a fiecărei componente a multimediei, precum şiposibilităţile de comunicare între ele. Extrem de importantă este alegerea soft-uluiauthoring cel mai potrivit. Pentru crearea multimediei există numeroase produse, care segrupează în 3 categorii:

- Software authoring bazat pe principiul organizarii cărţii;- Software authoring ce-şi organizează producţia pe o axă a timpului; - - Software authoring care îşi concepe aplicaţia pe structura unei organigrame sau

scheme logice.De obicei, programele de creaţie multimedia sunt însoţite de limbaje de

Page 14: CURS Tehnici Multimedia

- 14 -

programare proprii, încorporate, denumite limbaje script, sau beneficiază de posibilitatea dialogului cu alte programe (scrise în limbaje de programare evoluate).

Din momentul în care a fost stabilită realizarea unui proiect multimedia, este absolut necesară verificarea şi crearea condiţiilor hardware şi software necesare şi construirea planului proiectului. Domeniile de utilizare a multimediei sunt, după cum s-a menţionat, numeroase, iar multimedia depinde înainte de toate, de conţinutul oferit, indiferent de platforma (suportul) hardware şi de software necesar.

Tehnologii şi echipamente multimediaO mare parte din componentele aplicaţiilor multimedia pot fi realizate chiar cu

ajutorul calculatorului: desene create cu ajutorul programelor de grafică precum CorelDraw, Harvard Graphics, Paintbrush, Adobe, 3D Studio, elemente de interfaţă, furnizate chiar de platforma Windows sub care se lucrează, secvenţe animate create cu instrumente specializate sau cu programe utilizator, pornind de la imagini fixe.

Cea mai mare parte a elementelor multimedia, provin însă din exteriorul sistemului de calcul şi necesită tehnologii specifice de achiziţie şi echipamente specializate, precum: camera video şi placa de achiziţie şi numeralizare video, microfonul şi placa de sunet, scanner-ul pentru prelucrarea imaginilor şi recunoaşterea automată a caracterelor.

Camera videoCamera video are rolul de a prelua informaţia luminoasă a fiecărei secvenţe video

captate, de a o prelucra la o formă standard, cerută, printr-un semnal video. Elementul cheie al unei camere video este captatorul video, care este un dispozitiv de transfer de sarcină CCD (Charge Coupled Device) ce dispune de o fereastră activă de focalizare compusă din celule elementare capacitive de tip MOS (Metal Oxide Semiconductor).

În funcţie de modul de organizare al celulelor, există captatoare video cu transfer între linii CCD-IT (Charge Coupled Device Interligne Transfer) şi captatoare video cu transfer între cadre CCD-FT (Charge Coupled Device Frame Transfer).

· CCD-IT: captator ce plasează celulele fotosensibile alături de zonele dememorie şi registrele de decalaj, ceea ce diminuează suprafaţa activă la aproximativ 1/3,pierzând detaliile fine de imagine.

· CCD-FT: captator ce organizează celulele fotosensibile şi memoriile asociatepe 2 zone distincte, permiţând transferul la nivel de bloc al sarcinilor electrice, labaleierea completă a unei imagini cadru. Pe timpul transferului imaginii este însănecesară obturarea zonei foto sensibile, ceea ce complică tehnologia captatorului.

· CCD-FIT (Charge Coupled Device Frame Interligne Transfer): este versiuneamixtă de captator, ce intercalează registrele de decalaj la nivelul fiecărei celulefotosensibile, acestea preluând sarcinile electrice acumulate, pe care le transferă apoi lanivel de bloc, la terminarea explorării unui cadru; registrele intermediare lucrând practicca obturatori electronici pentru captatorul IT.

În funcţie de modalitatea de a capta şi trata informaţia de culoare, camerele video pot fi mono sau tri-captator.

· Camera Mono CCD lucrează cu filtru cu benzi fine verticale, roşii, verzi,albastre, care separă semnalul color captat. Rezoluţia şi sensibilitatea acesteia sunt slabeşi sunt recomandate doar pentru aplicaţii puţin pretenţioase şi cu utilizare temporară.

· Camera Tri CCD lucrează cu un sistem de prisme analizoare, în trei fascicole,de culori diferite: roşu, verde şi albastru, fiecare fascicol luminos fiind tratat separat, apoicodificat video color YUV. Sincronizarea trebuie să fie perfectă, deoarece cele trei

Page 15: CURS Tehnici Multimedia

- 15 -

analizoare prelucrează informaţia aceluiaşi pixel.Rezoluţia imaginii (exprimată în pixeli), sensibilitatea la lumina, diafragma,

zoom-ul, nivelul de profunzime, raportul zgomot/semnal util sunt doar câţiva dintre parametrii ce trebuiesc luaţi în considerare la alegerea unei camere video.

Dispozitive de scanareScanner-ele sunt instrumente de captare imagini fixe şi conversie a acestora într-

un format recunoscut de calculator. Ele sunt însoţite de un soft specializat (program) care permite atât scanarea de text cât şi convertirea lui în text ASCII, prin recunoaşterea automată a caracterelor OCR (Optical Character Recognition), utilizând metode specifice inteligenţei artificiale.

Dispozitivele de scanare (scannerele): permit citirea statica a unui obiect (de obicei coala de hartie), printr-o serie de operatii de scanare a suprafetei acestuia (de unde ii si provine numele). O arhitectură comună de scanner în nuante de gri este prezentată in Fig. 1.:

Fig. 1. Schema de principiu a unui scanner.

Imaginea ce se doreste scanata este parcursa de o linie de lumina generata de o lampa puternica - linia de scan. Imaginea reflecta razele de lumina incidente spre o serie de dispozitive cuplate prin sarcina (CCD - Charge-Coupled Devices), dispuse in linie (paralela cu linia de scan). Dispozitivele CCD au proprietatea de a acumula sarcina electrica direct proportionala cu cantitatea de lumina incidenta pe ele. Scannerele color functioneaza in principiu la fel, avand filtre pentru lumina rosie, albastra si verde. Scanarea se va executa intr-o singura trecere, sau in trei - cate una pentru fiecare culoare de baza.

Dintre parametrii importanti ai scannerelor amintim: rezoluţia, dictata de distanta minima posibila din punct de vedere tehnologic dintre elementele CCD (valorile curente ale rezoluţiei unui scanner variază între 300 şi 2500 DPI (dots per inch), si adancimea de culoare, parametru dictat de sensibilitatea elementelor CCD.

Page 16: CURS Tehnici Multimedia

- 16 -

Din punct de vedere constructiv exista doua variante mai uzitate de scannere: manuale si fixe. Cele manuale, in afara faptului ca sunt mai ieftine, prezinta o serie de dezavantaje: parcurgerea obiectului de scanat se va face de catre utilizator, rezultand o viteza de scanare ce nu e constanta pe tot parcursul operatiei. Astfel, calitatea imaginii obtinute este in general slaba. De asemenea, dimensiunile scannerului fiind in general reduse, scanarea imaginilor mai mari va trebui sa se faca pe portiuni. Imaginile rezultate in acest fel vor fi apoi alipite corespunzator (cu ajutorul unui program specializat furmizat impreuna cu scannerul). De multe ori, insa, programul respectiv nu este in stare sa construiasca imaginea finala din bucati.

Al doilea tip de scannere, cele fixe, rezolva aproape toate problemele enumerate mai sus: coala de hartie se plaseaza pe un suport static de sticla, si este automat scanata de catre dispozitiv. De obicei scannerele fixe sunt de dimensiuni mari, permitand scanarea colilor de hartie de format A4 sau A3. Imaginile rezultate dupa scanare sunt in general bune spre foarte bune. Ca dezavantaje se pot mentiona pretul relativ mare si spatiul pe care il vor ocupa pe biroul de lucru, langa calculator.

Fotografierea magneticăFotografierea magnetică este o tehnologie modernă de achiziţie a imaginilor fixe,

care concurează cu tehnologia clasică a fotografierii bazată pe argint. Sistemele fotografice au la bază un captator CCD (Charge Coupled Device), adaptat cerinţelor fotografierii. Înregistrarea propriu-zisă a fotografiei se poate face în format analog (Canon), pe dischete de 2.5 inch, sau în format digital (Fuji şi Logitech).

· în varianta analogă, reproducerea se face printr-un semnal video, pe ecran TVsau imprimantă video;

· în variantă digitală, stocarea şi vizualizarea se fac pe un calculator dotat cucititor specific; calitatea este medie, dar deschide multiple posibilităţi de prelucrare şiincludere a acestui tip de fotografii în aplicaţii multimedia.

. Dispozitive de numerizare a semnalului video analogicVideo digitizoarele, ce pot fi camere video sau echipamente echivalente, folosesc

un convertor analog digital, preluând un semnal video de la un aparat video sau cameră TV. Flash convertorul este cel mai răspândit tip de video digitizor.

Acestea au evoluat în timp, devenind tot mai sofisticate şi complexe. Tehnologia a fost orientată spre prelucrarea simultană a mai multor fluxuri video independente, suprapuneri de text şi grafică peste secvenţe video, editări în mai multe ferestre video şi combinări de imagini. Pentru mărirea vitezei de procesare a imaginilor şi a cadrelor video se apelează la o serie de tehnici de accelerare, care sunt implementate în soft sau în hard

Page 17: CURS Tehnici Multimedia

- 17 -în general, prin procesoare specifice (plăci video). Una din tehnicile cele mai utilizate este cea a transferurilor pe blocuri de biti, bit BLT ( bit Block Logical Transfer).

Cele mai utilizate cartele electronice de achiziţie şi restituire video, pentru PC, sunt video procesoarele (plăci video), precum Fast DVI (Intel), Video Blaster (Creative Labs), Video Maker (Vitec), Smart Video Recorder (Intel). În afară de preţ, performanţele de comprimare şi de decomprimare a informaţiei transmise sunt principalii factori care le împart pe domenii de utilizare curentă sau profesională.

Echipamente şi suporţi tehnici pentru stocarea elementelor de multimediaStocarea aplicaţiilor multimedia pe un anumit suport, preluarea şi transferul acestora

pe un alt suport, presupun cunoaşterea structurii de bază a datelor pe fiecare suport, compatibilităţile şi incompatibilităţile care există între tehnologiile de înregistrare.

Varietatea mare a noilor purtători de informaţie impune o clasificare a acestora conform următoarelor criterii:

· În funcţie de modul de înregistrare analogică sau numerică sau digitală:- echipamente analogice sunt video-casetofoanele, videodiscul (Laser Disc) şi

magnetofoanele;- echipamente digitale pot fi: digital neinformatice (cuprinzând echipamente care

lucrează cu informaţie numerică, dar nu sub formă de fişiere în sens informatic), precum CD Audio, magnetofoane numerice, RDAT-Rotary Digital Audio Tape, DDC-Digital Compact Cassette, Minidisc şi digital informatice (în care informaţia numerică este stocată chiar în fişiere de tip informatic), precum CD-Rom, CD-I (Compact Disc Interactive), DVD, discuri Blue Ray etcc..

· În funcţie de mediul de stocare se disting următorii suporţi tehnici şicaracteristicile lor:

- micro filme: utilizate în arhivarea documentelor şi nu se pretează la regăsire automată sau prelucrare pe calculator;

- medii magnetice: ce au durată de stocare limitată, şi cost pe unitate de capacitate ridicat;

- medii optice: Compact Discul şi derivatele ulterioare ale acestuia.În alegerea suportului pentru stocarea informaţiei trebuiesc avute în vedere

următoarele criterii:· tipul de informaţie: text, date alfa numerice, imagini color sau alb/negru,

informaţii audio, video;· cantitatea de date, timp acces şi rata de transfer;· cheltuielile de captare, conversie, stocare (inclusiv echipamentele necesare);· portabilele pe alte sisteme, interfaţa cu noile sau viitoarele sisteme;· frecvenţa de acces şi/sau codificare;· prevederi legate de stocare (securitate, durată, protecţie).

Echipamente de afişajCele mai utilizate echipamente de afişaj sunt monitorul TV şi ecranul

calculatorului. În plus, faţă de acestea, avem:· imprimantele matriceale, cu jet de cerneală şi laser;· tabelele LCD (Liquid Crystal Display), care se racordează la ieşirea spre

monitor a calculatorului şi se plasează deasupra unui retroproiector obişnuit şi afişează peecranul retroproiectorului imaginea existentă pe monitorul calculatorului (pot fi alb-negru, cu nuanţe de gri sau color);

· video-proiectoarele sunt dispozitive de afişaj pentru proiecţia unor imaginivideo pe un ecran mare, pentru grupuri mari de persoane; tehnologiile de afişaj pe care sebazează presupun: pe de o parte, existenţa a trei tuburi catodice, de înaltă luminozitate şicu distanţa focală fixă, iar pe de altă parte, utilizează trei matrice LCD, plasate în faţaunei surse de lumină puternice (lampă cu halogen), pentru proiecţia secvenţelor videodupă principiul afişării diapozitivelor sau filmelor.

Page 18: CURS Tehnici Multimedia

- 18 -Dimensiunea ecranului de proiecţie care poate fi de 1,5 - 5m trebuie să fie corelată

cu puterea sursei luminoase şi cu distanţa la care se proiectează imaginea.

Glosar de termeni:Bit Block Logical Transfer (BitBLT) - denumite şi acceleratoare grafice, sunt

necesare pentru crearea, transferul, procesarea, imprimarea unor blocuri de biŃi, corespunzător unor zone rectangulare de pe ecran, conţinând imagini, iconuri, cursoare, matrici de caractere, în vederea accelerării acestor operaţii.

Celule elementare capacitive de tip MOS (Metal Oxide Semiconductor) - în interiorul oricarui CCD există un capacitor făcută dintr-un oxid metalic semiconductor extrem de sensibil capacitor, care are trei componente ce constau din un electrod metalic, o peliculă de dioxid de siliciu şi un strat de silicon.

Liquid Cristal Display (LCD) – este un ecran plat, cu afişare pe cristale lichide, care necesită un consum mic de energie pentru afişare.

MCI – interfaţă de control a mediilor de comunicare pe calculator; oferă o standardizare a comenzilor trimise diferitelor periferice utilizate de către aplicaţiile multimedia.

MPC – multimedia PC reprezintă specificaţia Microsoft minimală, pentru calculatoarele PC ce rulează aplicaţii multimedia.

Optical Character Recognition (OCR) - tehnică de recunoaştere optică a caracterelor, utilizând metode ale inteligenţei artificiale; constă în scanarea unui text tipărit sau scris de mână şi convertirea acestuia într-un fisier ASCII.

Video digitizoarele - pot fi camere video sau echipamente echivalente, folosesc un convertor analog digital, preluând un semnal video de la un aparat video sau cameră TV.

YUV – cunoscut ca şi Y'CbCr şi YPbPr, este culoarea unui spaţiu în care Y ţine locul componentei de luminare (strălucirea) şi U şi V sunt componente cromatice (diferenţierea culorilor). Sintagma YUV este foarte des utilizată în aplicaţiile video, unde mai este întâlnită sub denumirea de component video.

Capitolul III. Resurse software

Conceptele cheie:Fişier de iniţializare – fişier ce conţine date care informează programul în legatură cu

anumite setări făcute anterior şi/sau cu mediul în care va evolua programul. (fişierul cu extensia “.ini” conţine date de pornire, de iniţializare a programului).

Interfaţa de programare a aplicaţiilor - este o colecţie de proceduri, la care un program poate avea acces pentru a solicita desfăşurarea anumitor activităţi.

Prezentare generalăRealizarea proiectelor multimedia presupune existenţa unui echipament performant,

precum şi existenţa unor platforme software, pe care să se sprijine produsele program care construiesc sau manipulează elementele multimedia. Resursele software conţin elementele de bază necesare multimediei, precum plăci grafice, de sunet şi video, software specializat pe medii de comunicare (sunet, grafică, video), interfeţe de comunicare cu utilizatorul.

Resursele software sunt vitale pentru conceperea şi redarea aplicaţiilor multimedia şi depind de posibilităţile sistemelor de operare şi a interfeţelor de comunicare şi programare; acestea susţin numeroase nivele de comunicare şi traducere pe care le construiesc aplicaţiile.

Interfeţele de interacţiune specializate, bibliotecile de funcţiuni, sistemele de operare, toate răspund de îndeplinirea unor sarcini suplimentare, impuse de lucrul cu date, imagini video, sunet şi cu perifericele corespunzătoare lor. Prelucrarea datelor, la nivelul interfeţelor de comunicare este realizată de suporturi special destinate receptării şi prelucrării lor, printre cele mai cunoscute fiind Video for Windows şi QuickTime. Aceste componente software sunt la rândul lor susţinute şi dezvoltate prin capacităţile sistemelorde operare. La aceste posibilităţi de preluare şi prelucrare a informaţiilor se adaugă facilităţi de programare a aplicaţiilor multimedia şi de manevrare a datelor.

Page 19: CURS Tehnici Multimedia

- 19 - MCI (Media Control Interface)

Conexiunea şi controlul perifericelor multimedia conectabile la un calculator, pot fi rezolvate în mediul Windows prin intermediul unei interfeŃe de comenzi unitare. Acastă interfaŃă, numită MCI (Media Control Interface), reglementează modul de interpretare a comenzilor de către perifericele utilizate în aplicaŃiile multimedia.

Lucrul cu această interfaŃă presupune existenŃa platformei Windows, care sub comanda Control Panel, permite modificarea parametrilor de lucru ai acestor periferice. Pentru aplicaţiile multimedia, MCI este foarte importantă, deoarece prin ea se controlează şi perifericele de captare şi redare a informaţiei de alt tip decât cele folosite în mod curent de calculator, precum numerele şi textul.

O comanda MCI are o structura bine definită, compusă din:- comanda propriu-zisă: Open, Close, Play;- numele perifericului legat de calculator, sau a plăcii componente: CD-Audio; CD-

Rom;- argumente de funcţionare.Perifericele si driverele multimedia, gestionate sub Windows, se menţionează în

fişierul de iniţializare SYSTEM.INI, în secţiunile MCI şi DRIVERS. Astfel, prin citirea fişierului SYSTEM.INI, la începutul sesiunii de lucru, Windows va recunoaşte perifericele multimedia conectate la calculator.

Întrucât acest fişier este extrem de important pentru sistem şi pentru execuţia corectă a aplicaţiilor multimedia, de fiecare dată când se instalează sub Windows un nou soft multimedia, programul său de set-up va actualiza acest fişier, completându-l corespunzător. Fiecărui periferic conectat îi va corespunde un modul de control (driver), aflat într-un subdirector Windows şi identificat printr-un nume şi prin extensia DRV sau SYS.

Secţiunea MCI a fişierului SYSTEM.INI permite ca, prin declararea acestor periferice, anumite tipuri de fişiere ce conţin obiecte multimedia nedepozitate în fişiere să poată fi executate ca sarcini specializate, făcând posibilă prelucrarea fişierelor de sunet CD-Audio, sunet digital wave, animaţie MMM Multimedia Modeling), secvenţe audio video AVI, sunet MIDI (Musical Instrument Digital Interface). De asemeni, MCI admite conexiunea cu fişiere ce conţin audio şi video simultan şi preluarea acestora în programe de aplicaţie.

Multimedia Modeling reprezintă o tendinţă în aplicaţiile software axată pe interactivitatea ce combină logica programării avansate, cu animaţia vizuală şi sunetul. Aceste aplicaţii simplifică procesul de înţelegere, prin crearea pentru utilizator a unei experienţe într-un nou mediu care este uşor de utilizat şi înţeles. Modelarea multimedia prezintă avantaje deosebite pentru domeniul afacerilor, instruire, comunicare şi amuzament. Soluţiile multimedia asigură o prezentare clară a unui produs, fiind capabile să evidentieze detaliile sau funcţionalitatea sa. Pentru exerciţiile având ca scop instruirea, aplicaţiile multimedia îmbunătăţesc procesul de inţelegere prin oferirea posibilităţii de vizualizare a unor anumite situaţii exemplu.

Practic se poate spune că prin interfaţa MCI se asigură conexiunea perifericelor hardware şi software ce lucrează sub Windows, prin legături specificate şi descrise înfişierul SYSTEM.INI. Conexiunea realizată prin intermediul acestei interfeţe determină controlul perifericelor prin comenzi simple sau cod, trimise către MCI. O parte din aceste tipuri de periferice şi drivere sunt furnizate implicit odată cu mediul Windows (CD Audio, driver-ul pentru periferice audio digitale), altele fiind furnizate prin intermediul kit-ului Microsoft, de dezvoltare de aplicaţii multimedia.Comunicarea între aplicaţiile multimedia şi driver-ele perifericelor multimedia este mediată de bibiloteca dinamică MMSYSTEM.DLL, care deţine funcţii de nivel scăzut, precum şi comenzile MCI corespunzătoare.

Quick Time – suport pentru multimediaQuick Time este soluţia arhitecturală software, dezvoltată de firma Apple pentru

integrarea şi redarea sunetului, animaţiei şi secvenţelor video pe un sistem Macintosh. El asigură organizarea datelor dependente de timp (precum cele audio şi video), permiţând aplicaţiilor să creeze, să vizualizeze şi să editeze secveţele audio şi video. Quick Time furnizează, de asemenea, un format fişier pentru imaginea animată şi pentru film, denumit

Page 20: CURS Tehnici Multimedia

- 20 -MOVIE, care poate conţine orice combinaţie de video, audio, animaţie, MIDI, text sau chiar comenzi, fiecare având puncte de început şi de sfârşit, specifice, şi în plus furnizează o interfaţă utilizator standard, ce permite captarea datelor în mod dinamic, compresie şi facilităţi pentru redarea secvenţelor multimedia.

În funcţie de tipul de imagine tratată şi de performanţele de compresie dorite, se utilizează un set de algoritmi de compresie, cuprinşi într-un modul QuickTime specializat. Acesta deţine obligatoriu schemele principale de compresie, sub formă de CODEC-uri pentru foto JPEG, video, grafică, animaţie Apple Cinepack şi YUV. CODEC-urile Quick Time se bazează pe diferite tehnici şi algoritmi decomprimare foarte cunoscuţi, precum: JPEG, RLE (Run Length Encoding), MPEG sau specifici diferitelor medii.

Facilităţile oferite de Quick Time permit redarea filmului digital de pe hard disc sau de pe CD-Rom, fără a necesita mijloace hard speciale. Redarea secvenţelor Quick Time este influenţată de performanţele unităţii centrale şi a hard discului, datorită ritmului de afişaj al acestora. Ea deţine capacităţi deosebite de sincronizare a mediilor continue, având posibilităţi de compresie înaltă a imaginilor şi capacităţi deosebite de redare a unei animaţii de calitate.

Microsoft Video for WindowsMicrosoft Video for Windows denumit şi AVI (Audio Video Interleaved), după tipul de

fişier ce conţine secvenţe video în acest format, este un software specializat dezvoltat de Microsoft. AVI – Audio Video Interleaved, este un format de fişier videonumerizat, sub Windows, ce a fost definit de firma Microsoft şi este folosit de tehnologia Video for Windows, pe calculatoarele IBM compatibile.

El poate fi comparat din punct de vedere al capacităţilor, cu Quick Time, constituindu-se ca extensie multimedia a sistemului de operare Windows. Acest soft asigură compresia imaginilor, precum şi sincronizarea între acestea şi sunet, fără a dispune de mijloace hard speciale. Datele audio şi video sincronizate, captate Video for Windows se regăsesc într-un fişier de format AVI. Soft-ul AVI este compus din mai multe module, precum:

· modulul VidCap (permite captarea secvenţelor video, audio şi imaginilorfixe);

· modulul VidEdit (permite editarea şi redarea secvenţelor audio şi video);· modulul WaveEdit (permite crearea şi editarea unui fişier sunet de tip AVI,

WAV, sau AIFF);.WAV este o extensie ce se aplică fişierelor de sunet Wave, ce constituie formatul

audio numeric standard pentru Windows, de calitate CD (44,1 Khz, stereo), cu metode de compresie şi efecte speciale.

AIFF (Audio Information File Format) este o extensie pentru fişiere conţinând sunet în format standard pe Macintosh; poate fi impus de anumite programe authoring pe PC şi/sau convertit în alte formate.

· modulul BitEdit (permite retuşul unei imagini dintr-o secvenţă).Ca şi dezavantaje sunt cantitatea mare de memorie necesară şi ratele mici de

compresie ale formatelor AVI, care permit stocarea a numai câteva minute de video pe hard disc.

API – Aplication Progam InterfaceÎn contextul în care MCI realizează controlul driver-elor perifericelor aferente mediilor

de comunicare, API (Aplication Progam Interface) este o interfaţă destinată rezolvării de cereri ale programelor utilizator, implicând totodată şi existenţa unui periferic de ieşire. Aplication Progam Interface (API) este o bibliotecă de funcţii Windows destinate facilitării dezvoltării aplicaţiilor.

Este practic o interfaţă de programare a aplicaţiilor, care deţine funcţii ce permit scrierea de programe sub Windows, în acest fel stabilindu-se un alt tip de comunicare şi interacţiune şi anume între utilizator şi programul de aplicaţie.Întrucât distribuţia prezentărilor multimedia se face într-un mediu electronic, comunicarea se realizează numai datorită interfeţei de comunicare cu aplicaţia. În mod obişnuit acceptarea diferitelor tipuri de periferice, de către aplicaţii, se face prin bibliotecile software de drivere şi prin protocoalele de interfaţă. API elimină această metodă de lucru cu biblioteci de informaţii.

Page 21: CURS Tehnici Multimedia

- 21 -Ea însăşi desemnează modul în care un program de aplicaţie interacţionează cu un periferic. Procesul de interfaţare dintre aplicaţie şi hardware se realizează însă tot printr-un driver de periferic.

. Interfeţe API specialeAceste tipuri de interfeţe sunt legate de anumite standarde, în special destinate redării

graficii pe calculator. Cele mai cunoscute tipuri de interfeţe de programare aplicaţie, sunt:· HOPS (Hierarchical Object Picture System) – este utilizată pentru crearea

aplicaţiilor grafice interactive şi este totodată un sistem portabil ce adaptează aplicaţia lasistemul de operare;

· PHIGS (Programmers Hierarchical Interactive Graphics Standard) –controlează definirea, modificarea şi afişarea datelor grafice şi permite obiectelor să fielegate ierarhic unele de altele; gestionează organizarea datelor ca într-o bază de date, ceeace permite programatorului aplicaţiei să le manevreze în mod convenabil; conformacestui standard sunt admise şi date grafice 3D în mişcare; a fost adoptat ca standardgrafic internaţional;

· GKS (Graphics Kernel System) – standard şi interfaţă pentru grafica 2D şi 3D;· GDI (Graphics Device Interface) – limbaj de programare a graficii, inclus de

Windows pentru a permite comunicarea între perifericele de afişare grafică şi programelecu care lucrează.

Modul de funcţionare al interfeţei API în mediul WindowsInterfaţa de programare a aplicaţiilor este o colecţie de proceduri, la care un program

poate avea acces pentru a solicita desfăşurarea anumitor activităţi. Modul de funcţionare al acestei interfeţe presupune accesul la anumite proceduri, API.

Acestea sunt stocate în biblioteci cu legare dinamică, DLL (Dinamic Link Library) şi pot fi regăsite în modulele de bază Windows, disponibilizate prin KERNEL.EXE, USER.EXE, GDI.EXE, sau ca proceduri în bibliotecile de sistem, precum MMSYSTEM.DLL sau COMMDLG.DLL. Aceste fişiere indică locul unde poate fi gasită o procedură într-o anumită bibliotecă cu legare dinamică, sugerând rolul acesteia. Procedurile DLL au şi rolul de stabilire a condiţiilor de lucru şi păstrare a acestora de la o sesiune de lucru la alta.

Într-o aplicaŃie Windows, accesul la această interfaţă se realizează printr-o trimitere la o procedură DLL definită. Astfel, mai multe aplicaţii pot accesa simultan aceeaşi procedură, iar biblioteca care o conţine va fi prezentă, într-o memorie, o singură dată.

În plus, faţă de acestea, trebuie reţinut faptul că funcţiile API, care permit actualizarea sau consultarea fişierului WIN.INI, sunt diferite de cele care personalizează alte fişiere de iniţializare, după cum există şi programe care permit declararea şi apelul funcţiilor API fără a le cunoaşte sintaxa.

Extensii multimedia ale sistemelor de operareSistemele de operare furnizează un mediu confortabil pentru execuţia programelor,

asigură folosirea eficientă a hardware-ului şi oferă servicii variate legate de resursele iniţiale: memorie, suporţi de stocare a informaţiei existente, periferice de intrare, ieşire.

Funcţiile suplimentare incluse în sistemele de operare, necesare pentru a prelucra datele multimedia, se concretizeză fie sub forma driver-elor de periferice, fie sub formă de extensii ale sistemului, atribuite sistemului de fişire sau unei componente de gestiune şi programare a sarcinilor.

Windows, cu variantele sale, deţine numeroase aplicaţii software incluse, care pot trata sunetul, imaginea sau pe ambele. De asemeni, permite crearea, conversia,transferarea şi prelucrarea facilă sub diverse formate a informaţiei, pentru toate tipurile de media: sunet, imagine, video.

Extensiile multimedia ale sistemului Windows se concretizează în clase de funcţii, precum:

· Comenzi ale sistemului;· Comenzi obligatorii ce se referă la deschiderea unui periferic, precum

Page 22: CURS Tehnici Multimedia

- 22 -comanda Open, sau la setări ale programului;

· Comenzi de bază ce se se referă la definirea caracteristicilor comune tuturorperifericelor, precum comanda Play, care execută un anumit şir de acţiuni, sau Stop, careopreşte derularea unui şir de date;

· Comenzi de extensie, care fac referire la anumite tipuri de periferice, precumcomanda Seek care asigură poziţionarea unui flux de date.

Glosar de termeni:Audio Video Interleaved (AVI) – est un format de fişier video numerizat, sub

Windows, definit de firma Microsoft şi este formatul principal folosit de tehnologia Video for Windows, pe calculatoarele personale IBM compatibile.

Codificator-Decodificator (CODEC) - care este un echipament ce integreaza şi algoritmi de comprimare-decomprimare şi este folosit pentru transmiterea informatiilor la distanŃă.

Dinamic Link Library (DLL) – reprezintă o bibliotecă cu legare dinamică, ce conţine funcţiuni legate la un program utilizator abia la momentul execuţiei, acestea putând fi partajate în mai multe programe.

Musical Instrument Digital Interface (MIDI) – este un standard şi o interfaţă privind comunicarea cu perifericele muzicale digitale. Un document MIDI, datorită acestei codificări, ocupă un spaţiu incomparabil mai mic decât un fişier wave şi oferă un mijloc foarte bun de sonorizare.

Media Control Interface (MCI) – reprezintă interfaţa de control a mediilor de comunicare pe calculator, ce oferă o standardizare a comenzilor trimise diferitelor periferice utilizate de către aplicaţiile multimedia; comenzile MCI se pot da prin cod de mesaje sau prin comenzi „şir de caractere” sau din limbaje script ale sofware-ului multimedia.

Capitolul IV. Sunet computerizat şi imagine computerizată

Conceptele cheie:Fractali – imagini ce se pot mări la infinit, prin folosirea unui set redus de instrucţiuni

şi date; structura fracţionară, care posedă forme similare la diferite scări de mărime.Frecvenţa de eşantionare - reprezintă rezoluţia pe orizontală a sunetului numerizat.Imagine bitmap – imagine în format grafic bazată pe reprezentarea matriceală a

imaginilor fixe, a graficii şi textului, sub forma unei matrici de puncte elementare repartizate pe o grilă de dimensiuni finite; orice modificare a dimensiunilor imaginii va produce o modificare a calităţii acestora; sub Windows, fişierele poartă extensia BMP sau DIB şi pot fi importate ca resurse în sau din produsele de creaţie multimedia, sau pot fi definite ca obiecte de sine stătătoare într-o aplicaţie multimedia.

Rezoluţie pe verticală - intervalul dintre sunetul de cea mai mare intensitate şi sunetul de cea mai mică intensitate, numită şi spectru dinamic.

Consideraţii generale privind sunetul computerizat Sunetul in sistemele multimedia

Daca imaginile poarta cantitatea cea mai mare de informatie dintre toate mediile de comunicare, sunetul are calitatea de a fi cea mai expresiva si mai subtila cale de a transmite informatie. Avand acces direct la sufletul uman, spre deosebire de imagini si text, care sunt filtrate intai de creier, sunetul poate induce omului in modul cel mai rapid si eficient, o larga paleta de stari sufletesti. Clasificand cele trei medii importante dupa efortul de atentie cerut omului pentru receptarea informatiilor purtate de acestea, pe primul loc se vor afla textele - solicitand cel mai mult capacitatea de concentrare si atentia, apoi urmeaza imaginile, si pe ultimul loc se situeaza sunetul, acesta fiind uneori capabil de a transmite informatie sau de a induce diferite stari emotionale chiar fara a solicita deloc atentia (cum ar fi cazul muzicii ambientale).

Page 23: CURS Tehnici Multimedia

- 23 -Ce este sunetul?

Sunetul reprezinta o serie alternativa de modificari ale presiunii aerului, care se propaga sub forma de unde sferice concentrice. Detectarea sunetului se face masurand si convertind variatiile de presiune ale aerului la o anumita locatie data. Fiind o unda elastica ce se propaga prin aer cu o viteza medie de aprox. 344 m pe secunda, sunetul are proprietatile clasice ale undelor: reflectia, refractia, difractia, rezonanta, etc.

• Acuitatea sunetului.In limbajul comun diferentiem sunetele ca fiind "inalte" sau "joase". Din punct de vedere

tehnic, aceasta proprietate poarta denumirea de frecventa si descrie cate vibratii pe secunda prezinta respectivul sunet. Frecventa se masoara in "cicli pe secunda" sau Hz - "Hertz".

Urechea umana poate percepe sunetele cu frecventa mai mare de 20-30 Hz si mai mica de 16000-18000 Hz. In mod interesant, abilitatea umana de a localiza sursa de sunet scade odata cu scaderea frecventei. Cu alte cuvinte, pentru un sunet de frecventa joasa - de exemplu uruitul unei explozii, este greu de localizat sursa acestuia, pentru unul de frecventa inalta, cum ar fi vocea unui om, localizarea facandu-se relativ usor.• Timbrul sunetului.

Cea mai pura forma de sunet este reprezentata de o unda periodica sinusoidala. Desi teoretic unda sinusoidala este cel mai simplu tip de unda, in practica este foarte dificil de obtinut. Cel mai mult se apropie de ideal sunetul generat de diapazon.

Covarsitoarea majoritate a sunetelor intalnite in realitate sunt compuse din mai multe astfel de sinusoide de diferite frecvente, denumite componente armonice. Acestea se caracterizeaza prin faptul ca frecventele lor sunt multiple de o frecventa comuna, denumita fundamentala sunetului respectiv.

O nota cântată de un instrument muzical nu este un sunet pur. Toate suprafeţele implicate în producerea sunetului respectiv realizează vibraţii multiple pe perioada emiterii sunetului. Astfel apar armonicele care compun sunetul, fundamentala acestora fiind însăşi nota ce se doreste cântată. Diferenţa dintre sunetele emise de două instrumente care cântă aceeaşi nota se numeşte tonalitate sau timbru.

• Intensitatea sunetului.Reprezinta magnitudinea vibratiilor aerului datorate sunetului si este in directa

dependenta de amplitudinile componentelor sale sinusoidale.Uzual, intensiatea se exprimă în decibeli (dB) – un raport logaritmic dintre sunetul de

referinta cu intensitatea 0 dB si sunetul măsurat. Cum scala de măsură este logaritmică, unei creşteri, de exemplu, cu 3dB îi corespunde dublarea intensităţii sunetului. Operaţia de creştere/scădere a intensităţii sunetului poartă denumirea de amplificare/atenuare audio.

Sistemele audio

Exista doua posibilităţi de a produce sunete: pe cale naturala (voce, diferite instrumente, etc.) sau pe cale artificiala - inregistrarea/redarea sunetelor cu ajutorul sistemelor audio. Utilizarea sistemelor audio in manipularea sunetului a fost impusa in zilele noastre de multiplele sale avantaje: repetabilitate, modificarea dupa dorinta a intensitatii (volumul), modificarea acuitatii (tonul), diferite alte transformari mai complexe.

Page 24: CURS Tehnici Multimedia

- 24 -

Fig. 1. Schema de principiu a unui sistem audio cu un canal

Schema de principiu a unui sistem audio cu un singur canal cuprinde (Fig. 1.):- un circuit optional de preamplificare, care preia ca intrare un semnal electric provenit de la un microfon, de la un instrument muzical electric (chitara electrica, orga electronica, sintetizator, etc.) sau de la un dispozitiv electronic de tip inregistrare/redare. Microfonul este un dispozitiv care transforma undele acustice in semnal electric cu caracteristicile de amplitudine si frecventa proportionale cu cele ale sunetului - un traductor, cu alte cuvinte. De exemplu,microfonul capacitiv se bazeaza pe conversia energiei undei sonore incidente in energie mecanica prin intermediul unei membrane elastice foarte fine (diafragma). De membrana este fixat capatul mobil al unui condensator variabil, care converteste oscilatiile mecanice ale membranei in oscilatii electrice.

- circuitul de amplificare, care in majoritatea cazurilor ofera doua posibilitati de ajustare: "volum" - mareste/micsoreaza amplitudinea semnalului electric care va produce sunetul, controland astfel intensitatea undei sonore rezultate si "tonalitate" – influenteaza acuitatea sunetului rezultat, lasand sa treaca doar o banda limitata din totalul frecventelor ce compun sunetul original (joase, medii, inalte, etc.).

- difuzorul - dispozitivul care transforma semnalul electric in unda sonora. Ca principiu de functionare, difuzorul electrodinamic foloseste un electromagnet a carui bobina este fixata de o membrana elastica. Cand prin spirele electromagnetului circula semnalul electric ce reprezinta un anumit sunet, bobina antreneaza membrana care la randul ei antreneaza aerul din incinta acustica, producandu-se sunetul dorit.

Monofonia si stereofonia

Pentru interceptarea si interpretarea sunetelor omul a fost dotat cu un senzor specializat dar multiplicat cu doi si plasat strategic: simetric, de o parte si de alta a axei de simetrie a corpului si in imediata vecinatate a organului central de prelucrare a informatiilor. Aceasta configuratie atribuie simtului auditiv o calitate in plus: capacitatea de a localiza sursa sunetului. Cum s-a vazut si mai sus, precizia cu care se poate localiza o sursa audio scade odata cu scaderea acuitatii sunetului (adica a frecventei acestuia).

Un sistem audio monofonic ("mono") defineste configuratia cu o singura sursa de sunet (Fig. 2.).In cazul echipamentului audio, monofonia inseamna un singur canal audio (Fig. 1.) si un singur difuzor (Fig. 2.).

Page 25: CURS Tehnici Multimedia

- 25 -

Fig. 2. Sistemul audio monofonic

In configuratia mono, ascultatorul nu beneficiaza de avantajul dispunerii simetrice a receptorilor (urechilor), nici de faptul ca sunt o pereche (la fel de bine s-ar recepta doar cu o singura ureche). Ascultatorul poate intui directia sursei de sunet si - ceva mai greu - distanta pana la aceasta.

Sistemul audio stereofonic ("stereo") defineste configuratiile cu mai mult de o sursa de sunet, si deci cu mai mult de un canal audio - uzual doua (Fig. 3.).

Fig. 3. Sistemul audio stereofonic

Configuratia stereo impune in primul rand conditia ca boxele de difuzoare sa fie de aceeasi capacitate acustica si sa se afle la distante egale fata de ascultator. Sistemele stereo exploateaza din plin anatomia audio a omului. Ascultatorul nu mai percepe sursa de sunet ca fiind boxele de difuzoare, ci chiar sursele originale. De asemenea, se creeaza senzatia de adancime, de spatiu sonor. Daca sistemul este bine calibrat, sunetul stereo da ascultatorului

Page 26: CURS Tehnici Multimedia

- 26 -senzatia ca se afla chiar la fata locului unde s-a inregistrat de exemplu, concertul ascultat. Stereofonia permite crearea de diverse efecte sonore, senzatia de deplasare, etc.

Sunetul de la calculator

Exista trei variante uzuale prin care calculatorul se poate face auzit:

• difuzorul incorporat: a fost conceput si utilizat mai mult pentru scurte mesaje sonore emise în cazuri deosebite pentru atentionarea utilizatorului. Ca dezavantaje enumeram: calitate foarte slaba a sunetului generat, este monofonic, este de putere mica. Nu reprezinta o solutie reala pentru obtinerea sunetului adevarat.

• castile audio: solutie ieftina, de putere mica, pentru un singur ascultator. Calitatea sunetului obtinut depinde de tipul castilor, variind de la stereo acceptabil, pana la stereo exceptional. Se pot conecta direct la o placa de sunet, sau la alt dispozitiv cu iesire audio din sistem (CD-ROM Drive).

• boxele de difuzoare PC: solutia recomandata in momentul de fata pentru obtinerea unui sunet stereo de calitate. Din punctul de vedere al puterii implicate se impart in boxe simple (putere mica, nealimentate separat) si boxe active (putere medie, una dintre boxe incorporeaza un mic amplificator audio, fiind necesara alimentarea ei separata).

Experienta unui joc sau a unei prezentari multimedia ce contine sunet si animatie poate fi impresionant de reala daca este corelata cu un sistem audio de calitate. Dar boxele ce vin in mod uzual livrate impreuna cu calculatoarele multimedia sunt de mica dimensiune. Din aceasta cauza ele pur si simplu nu pot reproduce sunetele joase (basii ). Pentru rezolvarea acestei probleme exista doua solutii uzuale:

- inlocuirea boxelor PC existente cu un sistem audio cu boxe de dimensiuni suficient de mari. Dezavantaje: vechile boxe achizitionate impreuna cu calculatorul devin complet inutile; noile boxe vor trebui pozitionate cu precizie tinandu-se cont de locul pe care-l ocupa ascultatorul in fata calculatorului si in plus acestea ocupa un pretios spatiu in incapere (Fig. 3.).

- achizitionarea, pe langa boxele PC existente, a unei boxe de basi (woofer).Pozitionarea sistemului de boxe pentru auditia stereo va respecta următoarele elemente (Fig. 4.):

Fig. 4. Sistemul audio stereofonic cu boxa pentru basi

Cele doua boxe PC de dimensiuni mici vor fi pozitionate cu precizie, simetric fata de

Page 27: CURS Tehnici Multimedia

- 27 -ascultator (eventual de o parte si de alta a monitorului de pe biroul de lucru);

Deoarece urechea umana nu poate deosebi sursa sunetelor joase, este suficienta pentru auditia stereo o singura boxa de basi care poate fi plasata oriunde in incapere. Plasand-o undeva sub biroul de lucru, economiseste spatiul din incapere, nu incurca, si fiind pe podea, amplifica si mai mult basii (amplificarea/rezonanţa cea mai mare pentru başi se poate obţine plasând boxa pe jos, langă un perete - mai ales intr-un colţ).

Pentru manipularea sunetelor, calculatorul are de rezolvat urmatoarea problemă: el lucrează intern cu semnale digitale, discrete, iar exteriorul - cu semnale electrice - si neelectrice -analogice. Semnalele electrice ce transportă sunetul, provenite de la un microfon sau acceptate de un difuzor, nu fac nici ele excepţie.

Cu rezolvarea acestei probleme se ocupa o ramură a stiintei si tehnicii aflată la graniţa dintre calculatoare si electronică: achiziţia si prelucrarea numerica a semnalelor. Rezolvarea consta in conversia analog-numerica si numeric-analogica a semnalelor.

Conversia digital-analogica transforma un cod binar intr-un semnal analogic de amplitudine proportionala, pe o durata data de timp. Operaţia se realizează cu ajutorul unor circuite specializate - convertoarele digital-analogice.

Conversia analog-digitala reprezinta operatia reciproca, si anume cea de transformare a unui semnal analogic in valori binare proportionale cu amplitudinea semnalului la momente de timp bine stabilite. Operatia presupune doua etape (Fig. 5.):

Fig. 5. Principiul conversiei analog-numerice

- esantionarea: din semnalul analogic de intrare se preleveaza la perioade constante de timp (te), esantioane de amplitudine, care sunt de fapt o serie de dreptunghiuri cu inaltimea egala cu ampitudinea momentana a semnalului si cu latimea egala cu perioada de esantionare (te).

- cuantizarea: pentru cuantizare, in primul rand trebuie sa se cunoasca numarul de biti cu care se vor exprima rezultatele. Acest numar defineste "precizia" conversiei (np) si, uzual are valorile: 8, 12, 14, 16 sau 20 biti. Considerand un interval maxim acoperitor pentru variatia amplitudinii semnalului analogic - notat FSR (Full Scale Range) - acesta se va cuantifica in 2np cuante egale (de valoare FSR/2np). Fiecarei astfel de cuante ii corespunde un unic cod binar de lungime np biti. Fiecare esantion obtinut din etapa anterioara va fi aproximat cu codul binar corespunzator celei mai apropiate cuante (vezi Fig. 5.).

Marimea fizica corespunzatoare inversului perioadei de esantionare (te) se numeste rata de esantionare, si pentru a se putea converti corect (fara pierderi sau ambiguitati) un semnal oarecare, va trebui respectata asa-numita "Teorema lui Nyquist": "Rata cu care se va esantiona un semnal analogic va trebui sa fie cel putin de doua ori mai mare decat frecventa maxima a respectivului semnal".

Page 28: CURS Tehnici Multimedia

- 28 -In tabelul de mai jos sunt prezentate cateva exemple de semnale audio digitizate,

impreuna cu parametrii corespunzatori

Tab. 1. Digitizarea semnalelor audio - exemple

Componenta unui sistem de calcul care se ocupa cu prelucrarea semnalelor audio in maniera discutata mai sus, se numeste "interfata audio" (placa de sunet, sound card). Arhitectura acestui dispozitiv (Fig. 6 ) se compune din urmatoarele elemente:

Fig.6. Schema de principiu a unui soundblaster

-mixerul analogic: Este format din multiplexoareanalogice,amplificatoare/atenuatoare programabile si sumatoare analogice. Accepta ca intrari semnalele de la convertoarele digital -analogice (D/A) din CODEC, conectorul CD-IN, intrarea de microfon, intrarea LINE-IN, intrarea pentru PC-Speaker si semnalul generat de blocul de sinteza FM. Permite controlarea proportiei in care fiecare sursa de semnal participa la semnalul de iesire rezultat. De asemenea,permite selectarea sursei de intrare ce va fi esantionata si retinuta de placa de sunet.

- audio CODEC-ul (COder/DECoder): Contine convertoarele digital-analogice (D/A) si analog-digitale (A/D) ale placii de sunet. Este direct conectat la mixer prin semnale analogice si la liniile digitale ale placii. Realizeaza efectiv transformarea numeric <-->

Calitatea audio Rata de esantionare Nr. biti / esantion Mono / Stereo

Telefonie 8 KHz 8 Mono

AM Radio 11.025 KHz 8 Mono

FM Radio 22.050 KHz 16 Stereo

CD 44.1 KHz 16 Stereo

DAT 48 KHz 16 Stereo

Page 29: CURS Tehnici Multimedia

- 29 -analogic a informatiei de pe placa.

- generatoarul FM si Tabela cu Forme de Unda: Sunt facilitatile de generare de sunet (sinteza audio).

- intrarea/iesirea pentru Joystick (jocuri) sau MIDI.

Se expun un numar minim de noţiuni legate de existenţa intrării/ieşirii MIDI pe placa de sunet.

MIDI - Musical Instrument Digital Interface (Interfata Digitala pentru Instrumentele Muzicale). Este un protocol hardware si software care permite ca anumite instrumente muzicale sa poata intercomunica. . Sunetele pot fi înregistrate şi printr-o reprezentare simbolică, cu alte cuvinte, utilizând standardul MIDI (Musical Instrument Digital Device), dezvoltat mai mult în anii 1980. Acest standard este similar cu cel folosit pentru a reprezenta muzica cu ajutorul portativelor. Se definesc instrumentele (dintr-o colecţie însumând 127 instrumente diferite : piane, chitări, viori, chiar şi sunete cum sunt aplauzele şi ciripitul de păsărele), înălţimea, durata şi secvenţa notelor. Deşi este un standard care permite reprezentarea simbolică a unor piese instrumentale foarte lungi ocupând foarte puţin spaţiu faţă de înregistrările digitale, calitatea redării lasă de dorit dacă este folosită o placă de sunet din care lipseşte tabela de instrument (opţională). Este folosită pentru o mai bună redare a sunetelor înregistrate cu ajutorul standardului MIDI. Este prezentă fizic sub forma unui cip pe placa de sunet sau chiar a unei extensii (o miniplacă) fixată pe placa de sunet (mai ales în cazul cumparării ulterioare a tabelei). Conţine toate instrumentele pe care le întâlnim în standardul MIDI, însă cu o prelucrare a redării mult mai apropiată de sunetul real al instrumentului, şi deseori, zeci de instrumente auxiliare, nespecificate în standardul original. Compunerea muzicii pe calculator necesită în general o asemenea extensie.

Evenimentele vehiculate pe magistrala MIDI pot fi inregistrate ca fisiere tip MIDI pentru modificari sau executii ulterioare.

Multe placi de sunet sunt prevazute cu interfata MIDI. Cele care nu au interfaţă pot in schimb să interpreteze fisiere MIDI utilizând propriile resurse. Din punct de vedere hardware, fiecare unitate MIDI este prevăzută cu trei tipuri de semnale, care sunt utilizate pentru interconectarea de tip serial (lant, secventa MIDI):

• MIDI IN : conectorul prin care unitatea MIDI respectiva receptionează toate informaţiile.• MIDI OUT : conectorul prin care unitatea transmite spre exterior informaţia produsă de ea.• MIDI THROUGH : conectorul prin care unitatea retransmite inapoi spre exterior tot

ce găseşte pe linia MIDI IN.

Câţiva termeni utilizaţi frecvent in standardul MIDI:- sintetizator (synthesizer): generator de sunet (cu acuitatea, intensitatea, nuanta

tonului variabile);- secventiator MIDI (sequencer): o unitate fizica sau un program care

implementeaza standardul MIDI;- pista (track): este o unitate logica utilizata pentru organizarea inregistrarilor;- canal (channel): se utilizeaza pentru separarea informatiei pe magistrala MIDI (exista

16 canale MIDI pe o magistrala);-voce MIDI (voice): elementul din sintetizator care produce sunetul. La rezultatul final pot contribui mai multe voci independente.

Sinteza audio

Sinteza audio este operatia complexă sau simpla de generare controlată a sunetului. In momentul de faţă există patru metode importante de sintetizare a sunetului:

a.) Sinteza prin modulare in frecventa (FM synthesis):Este o tehnica mai veche de produs sunete. Se bazeaza pe combinarea a diferite forme de unda (sinus, triunghiulara, dreptunghiulara) modulate in frecventa. Este mai simplu de implementat hardware decat conversia D/A, dar este mai dificil de programat si mult mai putin flexibila. Majoritatea placilor de sunet sunt prevazute cu sinteza FM (mai mult pentru compatibilitate cu variantele mai vechi de placi sau de software). De obicei sunt prevazute mai multe generatoare independente de sunet (voci).

Page 30: CURS Tehnici Multimedia

- 30 -b.) Sinteza cu Tabela de Forme de Unda (TFU) (Wavetable synthesis):

Combina flexibilitatea conversiei D/A cu capacitatile multicanal ale sintezei FM. Pentru fiecare generator de sunet disponibil (voce, voice) exista o zona dedicata de memorie (tabela) in care se inscriu inregistrarile (formele de unda) individuale ale fiecarei note ce va fi utilizata in sinteza. Multe placi recente suportă aşa-numitele "fonturi sonore", care permit utilizatorilor interpretarea oricarui sunet ca fiind un instrument muzical aparte, utlizând sintetizorul cu TFU (se aseamana ca principiu cu fonturile tipografice).

c.) Sinteza software (Software synthesis):Abordarea software a sintezei are marele avantaj al flexibilitatii fata de un sistem hardware. In principiu realizeaza o simulare software a sintezei bazate pe Tabela cu Forme de Unda descrisa anterior. Ca dezavantaje ar fi de mentionat solicitarea suplimentara de putere de calcul pentru procesorul central (CPU) si viteza mai redusa la care poate lucra, comparativ cu metoda hardware.

d.) Sinteza bazată pe modelarea fizică a instrumentelor (Physical Modeling synthesis): Metoda provine din incercarile de modelare acustica a diferitelor instrumente muzicale, efectuate in domeniul fizicii sunetului. Se construieste un model matematic al instrumentului descriind prin ecuatii fiecare componenta esentiala a sa. Daca modelul obţinut se apropie de realitate, prin simularea lui cu ajutorul calculatorului se poate obtine un sunet care se apropie de sunetul original emis de instrument. Dezavantaj: modelul unui instrument nu foarte complicat, daca ar fi complet, ar necesita pentru simulare puteri de calcul cu mult dincolo de posibilitatile actualelor sisteme PC. Avantaj: poate reda cu mult mai bine inflexiunile si nuantele subtile caracteristice fiecarui instrument in parte, sau chiar diferentele dintre doua interpretari cu acelasi instrument.

Maniera cea mai simplă de a produce sunete cu ajutorul calculatorului, se bazează pe existenţa unui mic difuzor încorporat în calculator. Dacă printr-un program de utilizator se calculează frecvenţele sunetelor dorite a fi obtinuţe şi ele vor fi comunicate difuzorului printr-un port specializat (0x61), difuzorul va produce semnalele sonore comandate, datorită variaţiei tensiunii care i se aplică. Având în vedere faptul că frecvenţele de lucru diferă de la un calculator la altul, este necesar un reper fix de frecvenţă, care să nu fie dependent de frecvenţa de lucru a unităţii centrale a PC-ului.

O modalitate sigură este aceea de a ne raporta la frecvenţa circuitului de ceas (timer chip), disponibil pe toate calculatoarele. Deşi acesta dispune de patru canale de comunicare, doar unul (timer 2) poate fi programat să furnizeze o ieşire ce poate fi direcţionată spre difuzor. Controller-ul programabil de ceas lucrează pe frecvenţa de aproximativ 1193 MHz.

Producerea efectivă a sunetului, cu ajutorul difuzorului intern, presupune parcurgerea a trei etape:

· Programarea ceasului pentru a furniza impulsuri la frecvenţa dorită, într-unanumit port (cel pentru conducerea regimului de lucru cu timer-ul);

· Salvarea stării iniţiale a difuzorului şi aducerea lui în starea “pornit”, prinînscrierea unei anumite valori în portul de comunicare cu difuzorul;

· Producea sunetului, de durată prestabilită, durata fiind indicată printr-unnumăr de operaţii de bază ce trebuiesc realizate de calculator.

Pentru o prelucrare a semnalelor audio pe calculator este necesară stocarea şi manipularea semnalelor în format numeric, nu analogic.

.Avantajele numerizarii sunt:• Stocare şi manipulare mult mai uşoară;• Păstrarea calităţii informaţiei la copierea pe un alt suport, comparativ cu forma anologă

la care calitatea se degradează prin copiere;• Degrarea cu mult mai redusă a suportului fizic de stocare, în cazul fişierelor de

sunet, comparativ cu forma analog.Cele mai utilizate frecvenţe de eşantionare sunt cele de 8 KHz (anunţurile făcute prin

vocea umană), 11 KHz (înregistrările vocale, prin microfon sau telefon), respectiv 22 KHz si 44 KHz (CD-Audio). În afară de rezoluţia pe orizontală, calitatea sunetului mai depinde şi de

Page 31: CURS Tehnici Multimedia

- 31 -rezoluţia pe verticală, adică de intervalul dintre sunetul de cea mai mare intensitate şi sunetul de cea mai mică intensitate. Acest interval, numit şi spectru dinamic, depinde de precizia conferită sunetului numerizat, prin precizia asociată numărului memorat corespunzător amplitudinii sunetului, în cadrul diviziunii de eşantionare. Din acest punct de vedere, există două standarde mai răspândite: pe 8 respectiv 16 biţi şi uneori şi 12 biţi.

Formate audio ale sunetuluiSunetul, ca şi element multimedia, există în două clase de formate: analogice şi

numerice. Formatele numerice acoperă două domenii bine delimitate: cel informatic şi cel neinformatic. Formatele audio informatice sunt legate de placa de sunet disponibilă pe calculator, care asigură conversia informaţiei din numeric în analogic, pentru ca sunetul să ajungă la difuzor, eventual amplificat în prealabil. Formatul numeric mai depinde şi de tipul circuitului de numerizare care a transformat iniţial sunetul analog într-un flux de date stocate în fişiere informatice.

♦♦♦ Formatul WAVE este cel mai utilizat pe platformele Windows, fiind adaptat pentru sunet pe 8 sau 16 biţi, la frecvenţele standard de eşantionare 11, 22, 44 şi 48 KHz. Acesta este o particularizare a formatului RIFF (Resource Intechange File Format) definit tot de Microsoft pentru schimbul de resurse.

♦♦♦ Formatul VOC (Creative Voice) este formatul intern de salvare a sunetului digital, propus de firma Creative Labs. Ca şi tipuri de informaţii, se regăsesc: date audio, sunet continuu, factor de repetare a unei secvenţe, marcator, text ASCII, linişte. Windows Sound System recunoaşte formatul VOC, pe care îl converteşte temporar în memorie, în format WAVE, înainte de a-l trimite player-ului.

♦♦♦ Formatul AU (Audio) este format sonor independent de platformă. A fost conceput şi propus de SUN Microsystem şi NeXT ca standard audio. Lucrează cu mai multe frecvenţe de eşantionare, cu reprezentări pe 8 sau 11 biţi, producând fişiere de dimensiuni mici. Calitatea sunetului este redusă, dar este răspândit mai ales în paginile HTML, pentru că nu solicită prea multe resurse de memorie şi timp de transfer la distanţă.

♦♦♦ Formatul AIFF (Audio Interchange File Format) a fost conceput şi propus de Apple MacIntosh pentru stocarea şi schimbul de date sonore digitale, lucrează mono şi stereo, pe 8 biţi sau 16 biţi şi frecvenţe de eşantionare diferite. În versiunea cu comprimare a fişierelor, formatul se pescurtează AIFC, extensia fiind AIF.

Standardizări. Comprimarea fişierelor sunet

Pâna în prezent, au fost dezvoltate mai multe formate de fisiere audio; unul din cele mai raspândite este Microsoft’s Wave - WAV, desi acest tip de date are dezavantajul unui spatiu mare de stocare, un minut de sunet putând ocupa câtiva megabytes. Chiar daca compresia reduce dimensiunile fisierelor audio, acestea ramân totusi destul de mari. O reprezentare mai compacta a sunetului se poate realiza prin MIDI (Musical Instrument Digital Interface), care înmagazineaza partitura ce poate fi apoi interpretata de catre un calculator cu facilitati audio sau de catre un sintetizator MIDI.

Cum se realizează compresia

Să presupunem că avem un fişier ce conţine şirul de caractere „AAABBBBBCCCDDDDEFF”. O metodă de comprimare a sa o reprezintă alăturarea numărului de repetiţii cu litera în cauză, rezultând „3A5B3C4D1E2F”. Am economisit 6 bytes, adică 50% din spaţiul ocupat. Desigur, exemplul este banal, comprimarea decurgând pe baza unor algoritmi mult mai complecşi şi mai eficienţi (Huffman, Lempel-Ziv şi altele).     Să luăm alt exemplu: şirul „AAABBBBCCCDDDEEFFFGGG”. Observăm că fiecare literă este repetată de trei ori, cu excepţia lui „B” şi „E”, care au factorul de repetiţie 4 şi respectiv 2. În cazul în care factorul ar fi tot 3 am obţine, după un algoritm banal „3(ABCDEFG)” în loc de „3A4B3C3D2E3F3G”, economisind mai mult spaţiu. Problema se pune dacă ne putem lipsi de informaţia legată de excepţia de la „regula celor 3”, obţinând o compresie cu pierdere, fişierul decomprimat ulterior nefiind identic cu cel original. În cazul

Page 32: CURS Tehnici Multimedia

- 32 -programelor, acest lucru este imposibil, un singur bit modificat ducând în general la imposibilitatea programului de a rula sau eventual la un comportament anormal; cum ar fi dacă unele din literele care compun cuvintele din meniul unei aplicaţii să fie schimbate sau în cadrul unui program dedicat matematicienilor numărul π să aibă o valoare „uşor” schimbată, de exemplu 3.10 sau 3.25? În cazul fişierelor ce conţin date de tipul filmelor, imaginilor sau sunetului, lipsa unor informaţii poate fi trecută cu vederea (sau cu auzul, după caz). Exemple clasice sunt formatele de compresie video şi audio cu pierdere de calitate - lossy, precum JPG, MPG, MP3. Prin opoziţie, comprimarea fără pierdere poartă numele de lossless.

     Ratele de compresie variază de la fişier la fişier. Spre exemplu, un BMP(bitmap) complet alb va fi comprimat la mai puţin de 1% (fişierul-arhivă va avea o dimensiune de minim 100 de ori mai mică decât cel iniţial). Un program executabil va avea o rată de circa 50% iar un text de circa 30%. Un fişier deja comprimat nu mai poate fi redus încă o dată - decât cu foarte puţin şi doar în unele cazuri - rezultând deci o compresie de 95-100% sau, mai grav, de peste 100%. Ceea ce înseamnă că aplicarea algoritmului de compresie a determinat creşterea şi nu scăderea dimensiunilor, caz în care programul de arhivare sesizează acest lucru şi aplică metoda store, adică fişierul respectiv este inclus în arhivă în forma sa iniţială, necomprimată.

Reprezentarea digitală a sunetului. Primele formate de compresie audio

     Comprimarea unui WAV folosind un algoritm lossless clasic este o operaţie destul de ineficientă. Prin WAV ne referim la un fişier cu extensia WAV, ce conţine muzică, o copie fidelă a unui CD audio. Pentru o mai bună înţelegere a fenomenului, vom reda în continuare elementele principale ale stocării muzicii în format digital.     Un fişier WAV conţine un număr imens de eşantioane (sample-uri), fiecare fiind codificat pe 2 bytes (16 biţi). Între aceste sample-uri se poate trasa o funcţie sinusoidală, care reprezintă unda sonoră, cu o aproximare destul de bună faţă de sunetul analogic (real); pe axa verticală este reprezentată amplitudinea sonoră iar pe axa orizontală timpul. Datorită naturii sale digitale, sunetul nu poate fi reprezentat pe calculator în forma sa perfect naturală, dar cu cât sunt mai dese aceste eşantioane în unitatea de timp, cu atât se poate trasa între ele o funcţie mai apropiată de sunetul real. Metoda este numită PCM (Pulse Code Modulation). Un sunet cu mai puţine eşantioane este lipsit de frecvenţe înalte, aceste frecvenţe rezultând tocmai prin alăturarea unui număr mare de eşantioane. O rată de eşantionare (sampling rate) bună şi utilizată în cazul CD-urilor audio este cea de 44.1 KHz (44100 de eşantioane pe secundă); pentru Hi-Fi e necesară o rată de până la 96 KHz, iar pentru voce este suficient un număr de cel puţin patru ori mai mic decât standardul, şi anume 11025 sau chiar 8000.     Explicaţia pentru cele 44100 de eşantioane pe secundă stă în faptul că omul poate percepe, în cel mai bun caz, frecvenţe de până la 22 KHz. Pentru funcţia sinusoidală necesară formării sunetului trebuie să avem un număr suficient de puncte descriptive, care reprezintă nişte maxime şi minime locale. Strictul necesar (dar nu şi suficient) pentru ca funcţia să poată fi reconstituită este un număr de eşantioane egal cu dublul frecvenţei dorite (câte un sample pentru minim şi câte unul pentru maxim). Să luăm exemplul unui ton perfect, care este redat grafic printr-o funcţie sinus perfectă.

     Imaginea reprezintă un ton cu frecvenţa de 22050 Hz la o rată de eşantionare de 44100 Hz. Scăderea cu 1 Hz a eşantionării duce la imposibilitatea păstrării sunetului la frecvenţa dorită, fiind redate doar cele inferioare (inexistente în acest exemplu).

Page 33: CURS Tehnici Multimedia

- 33 -

44 KHz                                                       6 KHz

     Am exemplificat în imaginile de mai sus o secvenţă audio complexă, reprezentată în 44 KHz şi respectiv 6 KHz. Numărul de eşantioane fiind mult mai mic în cel de-al doilea caz, sunetul este puternic denaturat, fiind păstrate doar frecvenţele joase. Prin upsampling (creşterea forţată a ratei de eşantionare) se poate obţine, prin interpolare, un sunet mai bun, dar totuşi departe de original deoarece o mare parte din informaţia audio este pierdută iremediabil. Aceasta întrucât curba rezultată este foarte aproximativă, cu mai puţine „urcuşuri” şi „coborâşuri”, mai aproape de reprezentarea unei funcţii trigonometrice simple.

44 KHz -> 6 KHz -> 44 KHz

     Putem face o analogie între rezoluţia unei imagini şi rata de eşantionare a unui sunet: la o rezoluţie mare, există un număr mai mare de pixeli care descriu imaginea, deci nivelul de detaliere este mai ridicat.    

     Altă caracteristică a unui fişier WAV este rezoluţia sa. Ca şi în cazul adâncimii de culoare a imaginilor, unde mai multe culori înseamnă o imagine mai aproape de realitate, mai mulţi biţi alocaţi unui sample înseamnă un sunet mai „precis”. În cazul uzual, sunt folosiţi 16 biţi (2 bytes); pentru domeniul Hi-Fi este folosită rata de 24 sau chiar şi 32 de biţi (3, respecitiv 4 bytes). În trecut era utilizată rezoluţia de 8 biţi, deci fiecărui eşantion îi era alocat un singur byte.

     O metodă de a îmbunătăţi calitatea slabă datorată acestei scăderi de rezoluţie este dithering-ul, adică generarea unui alt zgomot de fond, care să „niveleze” sunetul; chiar dacă zgomotul final va fi mai puternic, el va fi constant, oferind senzaţia că există două surse sonore: sunetul propriu zis şi generatorul de zgomot. În primul caz, fără dithering, apare des senzaţia unui sunet neclar, fenomen de multe ori mai supărător decât dithering-ul.     Nivelul de dithering poate fi ales după necesităţi, un nivel prea mare crescând zgomotul de fond, ceea ce evident că nu este de dorit.

     Putem afirma că, din anumite puncte de vedere, scăderea ratei de eşantionare sau a rezoluţiei reprezintă o compresie a sunetului cu pierdere de calitate pentru că sunt eliminate o serie de aspecte ale sunetului astfel încât rezultatul final nu diferă în mod fundamental de original. Cine doreşte să păstreze doar informaţia redată de vocea umană, poate seta fără grijă 8 KHz cu 8 biţi şi mesajul transmis va fi înţeles fără probleme.     Spaţiul ocupat de un WAV necomprimat într-o secundă este calculat astfel (în paranteză am trecut valorile standard în cazul unui CD audio): sampling rate (44100) * numărul de biţi (16) * număr de canale (2 = stereo). Avem, astfel, 1.411.200 biţi (sau 176.400 bytes) pentru muzica de pe un CD audio, ceea ce înseamnă 1378,125 kilobiţi/s. Am ajuns aici pentru a defini unitatea de măsură acceptată în compresia audio: numărul de kilobiţi pe secundă (kbps), numit şi bitrate. Aşa se explică bitrate-ul 14H afişat de player-ul Winamp în timpul redării majoritatea fişierelor WAV (H fiind considerat multiplicatorul de 1000).

Page 34: CURS Tehnici Multimedia

- 34 -     ADPCM (Adaptive Differential Pulse Code Modulation) este un algoritm superior, conceput tot pentru domeniul telecomunicaţiilor. Strămoşul său, DPCM, se baza pe faptul că diferenţele dintre două eşantioane succesive sunt în general mici şi pot fi reprezentate pe mai puţini biţi. ADPCM este o îmbunătăţire a acestuia, ce foloseşte un algoritm mai complex pentru predicţia eşantioanelor următoare, minimalizând astfel scăderea calităţii. La volum redus, unde diferenţele dintre sample-uri sunt mici, calitatea este foarte apropiată de original; în schimb, când volumul creşte, apar automat şi diferenţe mai mari între acestea şi rezultă un zgomot de fond însoţit de un fenomen sonor neplăcut, de forma unor pârâituri fine.     Cele două standarde larg răspândite provin de la Microsoft (MS-ADPCM) şi International Multimedia Association (IMA-ADPCM), versiunea MS oferind o calitate ceva mai bună. În mod standard sunt folosiţi 4 biţi pentru compresie, dar aplicaţii precum CoolEdit permit utilizarea a 2, 3, 4 sau 5 biţi, rezultând o calitate corespunzătoare; în cazul setării pe 4 biţi, calitatea este comparabilă cu cea oferită de A-Law şi μ-Law, dar spaţiul ocupat este de două ori mai mic. Unii utilizatori cu pretenţii modeste de calitate ar putea accepta formatele pe 4 sau 5 biţi pentru muzică, însă spaţiul mare ocupat (bitrate de ordinul a 300-400 kbps) nu justifică acest lucru din moment ce există alternative mult mai bune.  

Formatul MP3

     Încă din 1987, Institutul Fraunhofer din Germania a început să lucreze la un proiect destinat compresiei audio cu pierdere de calitate, bazat pe tehnica perceptual coding. Este vorba de un concept nou faţă de cele descrise anterior, mai exact de un algoritm care exploatează slăbiciunile urechii umane, oferindu-i un sunet cât mai apropiat de cel original.     Formatul MPEG Layer 1 (MP1), prima reuşită a institutului, a fost folosit doar pentru casetele digitale Philips DCC (Digital Compact Casette, un competitor al lui MiniDisc-urilor Sony) între anii 1992 şi 1996. Urmaşul său, MPEG Layer 2 (MP2), a fost utilizat pentru sonorul Video CD-urilor şi a altor dispozitive multimedia, fiind relativ răspândit şi astăzi în domeniul video. A treia versiune a standardului, MPEG Audio Layer 3, are avantajul unei calităţi ridicate la bitrate-uri scăzute, ceea ce i-a adus o popularitate foarte mare. Odată cu răspândirea Internet-ului şi implicit a reţelelor de tip peer-to-peer (începând cu Napster), fenomenul MP3 a luat amploare, devenind un mijloc eficient de transfer şi stocare a muzicii pe calculator.

     Perceptual coding este o tehnică ce permite eliminarea cu o acurateţe destul de mare a sunetelor pe care urechea noastră nu le poate distinge, bazându-se pe un model psihoacustic, adică modul în care urechea umană percepe undele sonore. În principiu, se caută crearea unui astfel de model care să ducă la înmagazinarea sunetului folosind cât mai puţini biţi; nu se exclude posibilitatea unui sunet total diferit din punct de vedere matematic (eşantioane cu valori depărtate de original) în condiţiile în care urechea umană nu observă nici o diferenţă.     Am reţinut din paragraful anterior faptul că, pe măsură ce punctele ce descriu funcţia sinusoidală a sunetului sunt mai numeroase, curba devine mai precisă. Downsampling-ul reprezintă eliminarea unui număr de eşantioane sonore, în cazul scăderii de două ori a ratei de eşantionare urmând să fie eliminate jumătate din sample-uri, din 2 în 2; curba rezultată are o precizie mai redusă iar calitatea sunetului este în mod constant mai scăzută. În schimb, în cazul compresiei MP3, sunt păstrate toate aceste puncte, dar ele sunt puternic modificate faţă de valorile iniţiale, generându-se un sunet apropiat de original, dar nu identic, totul relativ la numărul de biţi alocaţi. Pentru 128.000 biţi (128 Kb) pe secundă se obţine o calitate mulţumitoare a sunetului, pentru 8 Kb/s se obţine o calitate mai slabă decât cea oferită de

Page 35: CURS Tehnici Multimedia

- 35 -receptorul unui telefon.     Altfel spus, aproximarea curbei este determinată de un algoritm logic, creat special pentru urechea omului, nu de o tăiere barbară a eşantioanelor.

     Prin encoder înţelegem un program (eventual un modul dintr-o suită de programe) care transformă (codează) un fişier necomprimat într-unul comprimat, folosindu-se de un algoritm particular, care se supune unui standard (în cazul de faţă MP3). Cu cât algoritmul de compresie este mai bun, cu atât sunetul rezultat va fi mai de calitate. Un encoder capabil va şti să mascheze detaliile sonore nesemnificative şi să evidenţieze tocmai ce urechea umană aşteaptă, şi anume un sunet foarte apropiat de original, aparent identic; totul se reduce în principal la modelul psihoacustic implementat în encoder.

     Să vedem în ce constă scăderea calităţii datorată compresiei MP3. Ea generează apariţia de „goluri” în cazul frecvenţelor înalte, ducând la apariţia a două fenomene nedorite: aliasing-ul şi ringing-ul. Pentru a evita acest lucru, aceste frecvenţe sunt pur şi simplu eliminate din pasajul muzical, sunetul rezultat fiind „închis”, foarte asemănător cu cazul downsampling-ului. Cu alte cuvinte, downsampling-ul elimină prin natura sa frecvenţele înalte, pe când la compresia MP3 această eliminare este necesară pentru păstrarea calităţii sunetului în limite decente. În plus, chiar dacă aliasing-ul nu este supărător într-un caz particular, frecvenţele joase şi medii sunt cele mai evidente într-un pasaj muzical, deci avem un motiv în plus pentru a nu ocupa relativ inutil biţii (şi aşa puţini) cu frecvenţele înalte.     Aliasing-ul este cauzat de faptul că, prin compresia MP3, sunetele mai slabe sunt eliminate, lăsând locul celor mai puternice, pe care ascultătorul le aude mai bine. Însă, de la un anumit prag, mai exact în momentul folosirii unui bitrate prea scăzut (deci encoder-ului îi este impus un număr de biţi pe care să îi utilizeze), sunt eliminate şi sunete mai importante, pe care ascultătorul le aude în mod normal. Însă în pasajul următor (prin pasaj înţelegem segmente de ordinul zecimilor de secundă), sunt „extrase” alte sunete importante, ele fiind, în mod evident, diferite faţă de primul caz. Dacă primul pasaj conţine o vioară solo, al doilea o vioară împreună cu un pian iar al treilea din nou vioara solo, în primul şi al treilea se va auzi clar vioara, iar în al doilea numai pianul pentru că intensitatea sonoră a acestuia îi este superioară viorii. Drept urmare, vioara se va auzi întrerupt în piesa cu pricina.     Ringing-ul este un caz extrem al aliasing-ului, obţinut la bitrate-uri foarte mici; diferenţa de intensitate de la un pasaj la altul fiind foarte mare, unda sonoră se va asemăna cu sunetul de telefon. Calitatea este în acest caz foarte slabă, putându-se ajunge chiar şi la eliminarea informaţiei sonore de bază.     Aşadar, pentru a evita aceste efecte nedorite (dar cu păstrarea dimensiunii mici a fişierului rezultat), singura posibilitate (pe lângă folosirea unui alt encoder - dar nu am ajuns cu discuţia în acel punct) constă în eliminarea, uneori masivă, a frecvenţelor înalte, aceasta ori prin introducerea unui filtru, ori prin scăderea ratei de eşantionare. Astfel, frecvenţele respective nu mai sunt deteriorate, ci eliminate pe de o parte, iar pe de altă parte, în cazul codării CBR sau ABR (vom vedea în paragrafele următoare ce înseamnă) sunt salvaţi biţi importanţi care pot fi refolosiţi pentru frecvenţele mai joase, care compun sunetul propriu-zis.     Omul, după cum se ştie, aude sunete până în zona a 16-20 KHz (a nu se confunda cu rata de eşantionare, care se măsoară tot în KHz), această acuitate scăzând odată cu vârsta. Un filtru acceptabil este cel care elimină frecvenţele de peste 16 KHz, o valoare mai scăzută fiind de neacceptat pentru audiţie de calitate.

Dacă în cazul downsampling-ului şi al conversiei de la 16 la 8 biţi, calitatea oricărei bucăţi muzicale era cu aproximaţie aceeaşi faţă de original, pe tot parcursul piesei muzicale, în cazul lui MP3 lucrurile stau altfel: în funcţie de numărul de instrumente care intră în ecuaţie, de tipul lor sau, mai general, de genul muzical ascultat, compresia MP3 poate oferi o calitate excelentă sau poate „zgâria” urechile ascultătorului. O sonată pentru pian nu are nevoie de prea mulţi biţi, pe când o orchestră întreagă, unde se suprapun zeci de instrumente, generează un sunet complex şi greu de codat.     Efectele compresiei le putem împărţi în două categorii: cele care modifică sunetul fără a oferi un sunet deranjant (prin schimbarea timbrului instrumentelor, prin eliminarea anumitor

Page 36: CURS Tehnici Multimedia

- 36 -detalii muzicale sau prin tăierea frecvenţelor înalte) şi cele care distrug piesa muzicală, făcând-o greu sau imposibil de ascultat din cauza imperfecţiunilor mai mult decât evidente. Tăierea frecvenţelor poate, teoretic vorbind, să estompeze la nesfârşit scăderea calităţii datorate compresiei, însă sub un anumit prag muzica nu mai poate fi numită... muzică, ci un amalgam de frecvenţe joase fără prea multă noimă. De aceea, encoder-ul va realiza automat un compromis între scăderea de calitate şi scăderea benzii de frecvenţe.     Derivat din aliasing este „umezirea” percuţiei, instrumentele care o compun oferind la lovire un sunet asemănător cu cel perceput atunci când aruncăm un obiect uşor în apă (fenomenul este cunoscut sub numele de pre-echo). De asemenea, literele „s”, „ş” şi „ţ” din vocea umană, instrumentele cu coarde dar şi de suflat, aplauzele, precum şi instrumentele care generează ecouri lungi şi sunt combinate cu alte instrumente sau voci, suferă cel mai mult de pe urma compresiei.

     O extensie a formatelor MPEG Layer 2 şi Layer 3 o reprezintă MPEG 2 şi MPEG 2.5 (a nu se confunda cu layer-ele 1, 2 şi 3). MPEG 1 (sau 1.0), versiunea clasică, este folosită pentru ratele de sampling de 32, 44 şi 48 KHz, pe când MPEG 2 (sau 2.0) pentru 16, 22 şi 24 KHz, iar MPEG 2.5 pentru 8, 11 şi 12 KHz. Pentru a simplifica lucrurile, un MP3 obişnuit, obţinut din copierea unei piese de pe un CD audio (operaţie numită ripping) este un MPEG 1.0 Layer 3. Variantele 2.0 şi 2.5 nu se pot obţine decât la rate de eşantionare mai mici, neuzuale pentru muzică.

Tehnici de îmbunătăţire a formatului MP3 (VBR, Joint-Stereo)

     VBR constituie prescurtarea de la variable bitrate. Pentru a înţelege mecanismul bitrate-ului variabil trebuie descrisă structura unui fişier MP3.     Frame-ul este unitatea indivizibilă, prezentă în majoritatea formatelor ce stochează date, fie ele de sunet, film sau imagine. Un frame conţine, în cazul formatelor lossy, informaţiile cele mai reprezentative din unitatea de timp (în cazul sunetului) sau de spaţiu vizual (pentru imagini). El poate avea dimensiune fixă sau variabilă, în primul caz tehnica fiind numită CBR (constant bitrate), în al doilea caz VBR. La CBR, bitrate-ul este specificat de utilizator la începutul codării şi toate frame-urile vor conţine acelaşi număr de biţi, indiferent de nevoile reale. VBR deţine avantajul modelării numărului de biţi în funcţie de necesităţi; dacă algoritmul „simte” că sunt necesari mai mulţi biţi pentru un frame, va genera un bitrate local mai mare sau mai mic. Cu alte cuvinte, CBR înseamnă bitrate constant, calitate variabilă, iar VBR înseamnă bitrate variabil, calitate constantă.     Pentru un MP3, există câteva dimensiuni clasice ale frame-ului, indiferent că este aleasă opţiunea CBR sau VBR, cele mai reprezentative fiind de 96, 112, 128, 160, 192, 224, 256 şi 320, şi indiferent de nevoile reale sau de preferinţa utilizatorului nu poate fi ales un bitrate intermediar.Există câteva opţiuni disponibile la codarea MP3 VBR. În primul rând, poate fi specificat un bitrate minim şi unul maxim; astfel, indiferent de „dorinţa” algoritmului, nu se va coborî sub valoarea minimă şi nu se va depăşi valoarea maximă. Opţiunea este utilă în caz că anumite pasaje sunt codate la un bitrate mic, algoritmul putându-se înşela în privinţa nevoii de bitrate mic/mare. În al doilea rând, există posibilitatea specificării unui bitrate mediu dorit (ABR = average bitrate). Chiar dacă bucata muzicală nu necesită acel număr de biţi, se încearcă, pe cât posibil, atingerea bitrate-ului specificat, ceea ce duce la o calitate mai scăzută decât în cazul VBR. Avantajul principal al lui ABR: se cunoaşte de dinainte de codare dimensiunea (aproximativă) a fişierului rezultat, spre deosebire de VBR, care alocă mai eficient biţii dar dă naştere unui fişier de dimensiune impredictibilă.

     Joint Stereo (JS) este numele generic atribuit unor tehnici de codare prin care informaţia stereo este prelucrată diferit faţă de metoda clasică (stocarea independentă a celor două canale). Aceasta ori prin îndepărtarea de informaţie (în locul acesteia, biţii rămaşi liberi fiind folosiţi pentru a stoca informaţii legate de sunetul propriu-zis), ori printr-o codare alternativă, mai eficientă. Tehnica se foloseşte de faptul că, în majoritatea cazurilor, diferenţele dintre cele

Page 37: CURS Tehnici Multimedia

- 37 -două canale nu sunt foarte mari. Într-un caz extrem, în care fişierul codat conţine două canale (aproape) identice, aplicându-se modul stereo simplu s-ar risipi inutil mulţi biţi preţioşi.     Metoda clasică de JS este denumită Intensity Stereo (IS), care uneşte cele două canale în domeniul frecvenţelor înalte, ducând per total la o senzaţie intermediară dintre sunetul stereo şi mono. Frecvenţele înalte sunt mai greu de perceput de către om şi de aceea în cazul lor este neglijată stereofonia. Metoda nu este recomandată decât atunci când această pierdere este mai convenabilă decât o calitate foarte scăzută a sunetului, cu alte cuvinte în cazul bitrate-urilor mici. În general, e de preferat chiar şi un sunet mono decât un aliasing sau ringing care practic distruge sunetul.

     Mid/Side Stereo este o altă metodă de tip Joint Stereo (s-a încetăţenit această denumire deşi M/S Stereo nu are nici o legătură cu unirea canalelor pe care o anunţă cuvântul „joint”) prin care encoder-ul transformă coordonatele „stânga” şi „dreapta” în unele de tip „mijloc” şi „lateral”. Dacă notăm stânga cu L (left) şi dreapta cu R (right), iar L şi R au valorile a şi b, aceste valori pot fi deduse din relaţiile a’ = (L+R)/2 (mijloc) şi b’ = (L-R)/2 (lateral), care devin variabilele principale. Aşadar, în loc ca fişierul MP3 să conţină a-uri şi b-uri, va conţine a’-uri şi b’-uri, informaţia finală fiind refăcută într-un mod similar. În realitate, formula depinde de la encoder la encoder, Lame folosind, spre exemplu, relaţia (L+/-R)/sqrt(2) (sqrt = radical).     Compresia este realizată ca şi cum cele două canale originale ar fi cel de mijloc şi cel lateral. Avantajul constă în faptul că avem de-a face cu o metodă alternativă de codare, care este selectată de la caz la caz. Dacă stânga şi dreapta sunt identice sau foarte apropiate, canalul lateral va fi zero sau aproape zero, numărul de biţi alocaţi lui fiind foarte redus. Dacă stânga şi dreapta diferă foarte mult, este mai eficientă folosirea modului stereo simplu, iar acest lucru îl decide encoder-ul pentru fiecare frame.     De reţinut faptul că M/S Stereo nu determină creşterea calităţii sunetului decât în modurile CBR şi ABR, când encoder-ul este limitat la un număr (maxim) de biţi. În cazul lui VBR, folosirea sa doar va scădea dimensiunea fişierului final (bitrate-ul mediu va fi mai mic).

     Lame, cel mai bun encoder MP3, lucrează exclusiv cu modurile Mid/Side Stereo şi Stereo „normal”. Utilizarea lui M/S Stereo este recomandată la orice bitrate pentru că, în cel mai nefericit caz (imposibil de întâlnit în practică), calitatea M/S Stereo va fi similară modului stereo simplu. Totuşi, prima variantă (IS) - neimplementată în Lame, deşi elimină multă informaţie stereo, salvează mai mulţi biţi decât M/S Stereo, folosirea ei fiind destinată bitrate-urilor foarte mici (de 96 kbps sau mai puţin).     Există şi alte tipuri de JS, numite Narrowing of Stereo Image şi Simple Stereo, care elimină aproape complet informaţia stereo, utilizarea lor nefiind recomandată decât în situaţii speciale.

     În cealaltă direcţie se află modul Dual Channel (nici o legătură cu controller-ele de memorie). Cea mai simplă explicaţie rezultă dintr-un exemplu: avem un MP3 stereo (JS sau Stereo). Pentru canalul din stânga, care conţine o informaţie audio mai simplă, este alocat un procent de doar 40% din numărul de biţi, pentru cel din dreapta rămânând disponibili 60%. Prin Dual Channel, ambele canale vor primi exact jumătate din numărul de biţi, indiferent de diferenţele de complexitate, rezultând, evident, o calitate mai scăzută decât în cazul stereo normal. Folosirea acestei opţiuni nu are sens decât dacă cele două canale sunt total diferite (canale de sunet ale unui film în limbi diferite).

Evoluţia lui MP3 şi encoder-ele existente

     Deşi a fost dezvoltat iniţial de către institutul Fraunhofer şi a pătruns pe piaţă în 1994 (prima versiune datează din 13 iulie 1994), specificaţiile formatului au ieşit la lumină şi au permis crearea de diverse encodere care se supun standardului (deci fişierele create pot fi decodate de orice player care cunoaşte formatul MP3). Programul L3ENC, dezvoltat de institut şi având o interfaţă la nivel de linie de comandă DOS, a intrat în istorie pentru o calitate excepţională a codării şi o viteză foarte slabă. Ulterior, firma Xing Technology a lansat un program comercial, Xing Audio Catalyst, ce oferea posibilitatea extragerii pieselor

Page 38: CURS Tehnici Multimedia

- 38 -muzicale de pe CD direct în format MP3. Succesul său a fost foarte mare datorită vitezei impresionante, însă s-a pierdut din vedere calitatea audio, inferioară lui Fraunhofer (pe numele complet Fraunhofer-Gesellschaft, de unde şi prescurtarea FhG). Mai mult, au apărut pe piaţă encodere foarte slabe calitativ, precum Blade sau Plugger+, dezvoltate cu scopul de a oferi o alternativă freeware la programele comerciale şi putem spune că ele şi-au îndeplinit scopul. Cine dorea calitate, plătea pentru Fraunhofer, cine dorea viteză opta pentru Xing, cine era interesat de ceva gratuit avea de asemenea de unde alege. Totul până când Lame (Lame Ain't an MP3 Encoder), un encoder open-source, a depăşit FhG din punct de vedere al calităţii şi s-a apropiat de Xing ca viteză, aducând toate agumentele în favoarea sa. Dezvoltându-se permanent şi fiind gratuit, el a fost adoptat de multe software-uri, în acest moment fiind liderul incontestabil în ceea ce priveşte codarea MP3.

     Începuturile lui Lame datează din 1998, când un anume Mike Cheng a modificat surselele standard de codare MP3, primele versiuni de Lame fiind simple patch-uri aplicate codului original. Cu timpul, Lame a fost îmbunătăţit de numeroşi programatori, codul fiind rescris şi adăugându-i-se facilităţi deosebite, precum tehnica VBR. În anul 2000, el a depăşit din punct de vedere al calităţii concurentul direct sub acest aspect, FhG, în diversele sale variante, majoritatea comerciale. Chiar dacă lucrul la Lame nu a încetat, versiunile noi apar rar şi sunt mai mult experimentale, ultimele îmbunătăţiri majore fiind realizate în anul 2001.     Singurul punct slab al lui Lame este absenţa tehnicii Intensity Stereo (IS), detaliată anterior, tehnică ce oferă posibilitatea diverselor versiuni de FhG care o au implementată să surclaseze Lame-ul la bitrate-uri foarte scăzute (de ordinul a 64 kbps).     Iniţiatorul lui Lame a preferat să se axeze pe formatul MP2, iniţiând proiectul tooLame, care nu a avut succes mare, calitate foarte bună, superioară lui MP3, fiind obţinută doar la bitrate-uri foarte mari. Totuşi, el are câteva avantaje clare faţă de encoder-ele clasice MPEG Layer 2, precum suportul VBR şi calitatea aproape de maximul care se poate obţine folosind acest format.

     După cum am prezentat anterior, formatul MP3 se află spre finalul dezvoltării sale, creşteri semnificative de calitate nemaiputând avea loc. Deşi maturitatea a fost desăvârşită de Lame, versiunea iniţială nu se afla departe de maximul atins ulterior. În schimb, diversele encodere gratuite dar de calitate îndoielnică au crescut popularitatea formatului şi au împânzit piaţa. De exemplu, multe reviste şi site-uri declarau encoder-ul de la Xing câştigător, pornind pe ideea că utilizatorul este interesat în cea mai mare măsură de viteză, calitatea fiind „tot pe acolo”. Şi într-adevăr, pentru cei mai mulţi consumatori de muzică de calitate slabă un MP3-Xing la 128 kbps sună perfect, sistemul audio nefiind în stare să redea sunetele mai fidel decât atât. În plus, versiunea demo a soft-ului nu permitea alegerea altui bitrate decât cel de 128.Iată ce spune Xing Audio Catalyst despre fiecare bitrate în parte:- 96 kbps - Near CD-Quality, good choice for portable MP3 Players- 112 kbps - CD-Quality, best choice for portable MP3 Players- 128 kbps - CD-Quality, best choice for most users- 160 - 192 kbps - Archival quality for high-end stereos- 224 - 320 kbps - Archival quality for highest-end stereos

     Encoder-ele se prezintă ori sub formă de program în linia de comandă, ori ca plugin (de obicei constând într-un fişier DLL), utilizat de audio grabbere (programe care extrag de pe CD-uri piesele muzicale) precum CDex sau EAC (Exact Audio Copy), sau pur şi simplu de frontend-uri (aplicaţie special dedicată uşurării utilizării alteia, oferind o interfaţă grafică user-friendly). De asemenea, soft-uri de scriere a CD-urilor, precum Nero, conţin module de compresie/decompresie audio, ce permit comprimarea pieselor, respectiv scrierea directă pe CD a fişierelor comprimate (fără a fi necesară o decompresie care ar consuma timp şi spaţiu pe hard disk).

     Tehnica VBR deţine avantajul faptului că nu deţine vreo limitare în privinţa bitrate-ului (decât la cel de 320, prevăzut de standardul MP3), ci doar o recomandare vagă. Pentru un fragment de pian solo, în cazul preset-ului „extreme”, va rezulta un bitrate din zona lui 220; în schimb, o combinaţie de instrumente complet diferite (cu coarde, de percuţie, de suflat),

Page 39: CURS Tehnici Multimedia

- 39 -eventual împreună cu vocea umană, va produce bitrate-uri mai apropiate de 270 kbps (şi fără a fi limitate la acest număr, care este orientativ). În schimb, opţiunea ABR 240 de exemplu, va produce bitrate-uri medii foarte apropiate de valoarea 240, cu plus sau minus maxim 10 kbps. Cu alte cuvinte, o piesă greu de codat va avea o calitate mai scăzută decât una uşor de codat, chiar dacă ambele sunt cântate de aceeaşi formaţie şi se află pe acelaşi album.     Nu se recomandă folosirea de bitrate-uri sub 192 (decât cel mult ca VBR, în jur de 170-180). Dacă ar fi să facem o statistică privind proporţia de fişiere MP3 din toată lumea la bitrate de 128, vom afla că procentul lor este peste jumătate, poate trei sferturi din numărul total. Totuşi, lumea muzicii digitale a progresat odată cu progresul tehnicii de calcul, în zilele noastre plăcile de sunet de calitate (incluzând AC ’97, integrat pe plăcile de bază) fiind mult mai numeroase decât în trecut. Toate aceste dispozitive fac ca sunetul să fie redat mai fidel, iar în aceste condiţii un MP3 la 128 kbps îşi dovedeşte rapid limitarea în privinţa calităţii, mult mai evident decât cu câţiva ani în urmă, când el era ascultat pe o placă de sunet cu un chip antic ESS şi pe o pereche de boxe de dimensiuni foarte mici.

     Bitrate-urile mai mici de 128 nu sunt utile decât cel mult pentru MP3 player-ele portabile, în caz că se doreste pe ele mai multe ore de muzică. Însă alte formate oferă o calitate mult mai bună în acest caz, singura problemă fiind suportul oferit din partea player-ului.     Mai menţionăm posibilitatea creării de fişiere MP3 la bitrate-uri mai mari de 320 cu ajutorul opţiunii --freeformat bitrate de care dispune encoder-ul Lame. Dezavantaje: incompatibilitate cu majoritatea player-elor (în cazul lui Winamp, doar plugin-ul MAD este capabil să le decodeze), calitate nu cu mult crescută faţă de MP3 320, în timp ce bitrate-ul poate atinge maxim 640 kbps, zonă în care formatele lossless oferă o calitate superioară.Concluzionând, free format MP3 a fost un experiment şi nimic mai mult.

MPC - un MP3 mai bun

     MPC (Musepack, denumit în trecut MPEG Plus) este considerat cel mai bun format de compresie audio lossy (cu pierdere de calitate). Dezvoltat iniţial de Andree Buschmann şi în prezent de Frank Klemm pe baza standardului MPEG Layer 2 (MP2), îmbunătăţirile aduse acestuia din urmă îi permit oferirea unei calităţi deosebite la bitrate-uri de peste 160 kbps. Dezvantajul principal: calitatea la bitrate-uri mici (adică cele mai folosite, precum 112 sau 128 kbps) este comparabilă cu cea MP3, eventual puţin mai bună, iar când se încearcă detronarea unui standard ultra-celebru, este nevoie de mai mult.     De asemenea, prezenţa suportului acestui format pe piaţa lor mobile este practic nulă, iar compatibilitatea cu software-urile care interacţionează în vreun fel cu sunetul digital este foarte redusă. Chiar dacă encoder-ul nu este un program comercial, dezvoltarea sa stă sub semnul open-source de puţină vreme, până de curând fiind declarat closed-source (un număr limitat de programatori avea acces la codul sursă) şi acest lucru a îngreunat răspândirea sa.

     MusePack lucrează nativ cu tehnica VBR şi aceasta fără limitările lui MP3 privind bitrate-urile disponibile, fiind posibilă alocarea absolut oricărui număr de biţi pentru un frame. Aşadar, nu va fi o problemă obţinerea de bitrate-uri per frame diferite de 128, 160, 192, 224 etc. Pentru definirea calităţii, există un număr nelimitat de paşi, valoarea „quality” luând valori între 0 şi 10 cu o precizie oricât de mare (de exemplu 5.5 sau 7.1904363). Cu toate acestea, au fost dezvoltate câteva preset-uri, care oferă o calitate comparabilă cu cea a CD-ului începând cu 5 (standard). Cei mai mulţi ascultători au concluzionat că acest nivel de calitate este comparabil cu cel obţinut de MP3 la 320 kbps codat cu Lame, uneori sub dar de cele mai multe ori peste acesta. Avantajul principal: bitrate-ul mediu este de doar 150-180 kbps, deci spaţiul ocupat va fi de două ori mai mic iar calitatea posibil mai mare. Valorile superioare aduc îmbunătăţiri, dar în cazul preset-ului standard de obicei compresia este transparentă şi, chiar dacă unele detalii muzicale lipsesc, ascultătorul nu va realiza aceasta

Page 40: CURS Tehnici Multimedia

- 40 -decât în cazuri rare şi doar la o comparaţie cu originalul. La MP3, în cazuri rare, ce-i drept, apăreau probleme de transparenţă chiar şi la 320 kbps.     MP3 la 320 kbps oferă de multe ori mai multă claritate în distingerea instrumentelor, MPC q5 având tendinţa să mascheze anumite aspecte ale muzicii, ceea ce se poate traduce prin diminuarea în volum a unor sunete uneori nu foarte greu de distins. Acest lucru se întâmplă îndeosebi în cadrul muzicii bogate în instrumente, cum este cea clasică sau cea rock. Rar apar probleme de transparenţă la MPC, în nici un caz nu vom fi întâmpinaţi de percuţia udă a lui MP3, dar sunete care ar trebui să se audă s-ar putea să lipsească, ceea ce va da naştere unui „aliasing virtual” dacă îl putem numi aşa, o inconstanţă aproape imperceptibilă a volumului şi clarităţii instrumentelor pe parcursul piesei muzicale, în nici un caz la fel de supărătoare ca în situaţia aliasing-ului clasic, prezent, poate, chiar şi la MP3 320 kbps.

     Nivelul de calitate 6 (xtreme, 180-220 kbps) oferă îmbunătăţiri minore dar care reprezintă exact plusul care îi lipsea setării standard, iar de la nivelul 7 în sus (insane, 220-250 kbps) putem spune că am atins o calitate aproape de perfecţiunea teoretică, mai

ales că este păstrat aproape întreg spectrul de frecvenţe. Peste acest preset sunt şanse foarte mici să mai apară salturi majore pentru utilizatorul normal, deci dacă aţi întâlnit ceva care nu sună bine cu preset-ul insane, mai mult ca sigur că acel ceva nu va suna mult mai bine la bitrate-uri superioare. Totuşi, sunt prezente valorile 8 (braindead, 250-280 kbps), 9 (above braindead, 270-310) şi 10 (above braindead, 300-335 kbps) precum şi cele intermediare, desigur. De asemenea, trebuie precizat că MusePack foloseşte metoda Mid/Side Stereo pentru a nu irosi inutil biţi pentru informaţia stereo (o implementare chiar mai reuşită decât în cazul MP3). Un motiv în plus pentru a nu fi recomandat la bitrate-uri mici, unde alte metode de Joint Stereo, mai agresive, oferă mai multe avantaje.

     Nu trebuie sa ne bazăm pe bitrate-urile indicate pentru că ele sunt orientative. Un sunet prea simplu va determina encoder-ul să aloce mai puţini biţi, deci în loc de cei 170 kbps aşteptaţi pentru preset-ul standard se poate obţine o medie de 130, 110 sau chiar mai puţin. Pentru a da exemple de cazuri extreme, un ton perfect la 440 Hz este codat la 77 kbps iar liniştea completă la 3 kbps. De asemenea, o piesă (aproape) mono va solicita un bitrate (aproape) de două ori mai mic decât pentru una full-stereo. Este cazul înregistrărilor mai vechi, care chiar dacă sunt stereo din punct de vedere teoretic, ele conţin două piste (aproape) identice.     Mai frecvent se întâmplă invers: sunet prea complex, bitrate mult crescut. Complexitatea poate rezulta şi din cauza clipping-ului (volum mai mare decât poate fi reprezentat digital în coordonatele alese), fenomen care perturbă curba obişnuită a sinusoidei ce formează unda sonoră, punând encoder-ul într-o situaţie foarte dificilă. Au fost întâlnite cazuri în care calitatea standard a oferit un bitrate mediu de 250 kbps pe parcursul unei întregi melodii.

     În cazul oricărui encoder, preset-urile nu sunt altceva decât extensii logaritmice ale aceluiaşi model psihoacustic. Mai clar, dacă algoritmul are probleme cu o anumită secvenţă de muzică la o setare de calitate considerată sigură (cum e q5 pentru MusePack), o creştere de bitrate (q6, q7 etc) nu va elimina acea problemă ci doar o va diminua, cauza fiind modelul psihoacustic imperfect, iar această diminuare se va simţi din ce în ce mai puţin odată cu creşterea dimensiunii fişierului; dacă q6 va suna mult mai bine decât q5, q7 va suna cu puţin mai bine decât q6, q8 cu foarte puţin mai bine decât q7 etc. Modelul psihoacustic poate fi ajustat ori prin specificarea către encoder a unor parametri speciali (nerecomandat decât pentru utilizatorii care ştiu exact ce fac), ori prin apariţia unei noi versiuni a encoder-ului, acele setări fiind deja realizate de autori. Sau, cum e cazul lui MP3, orice îmbunătăţire majoră a modelului presupune încălcarea standardelor şi imposibilitatea decodării fişierului rezultat.

      Pentru a putea fi decodate, fişierele MPC au nevoie de un decoder, care constă, în cazul cel mai uzual, într-un plugin destinat player-ului Winamp .

     Surprinzător, complexitatea algoritmului MPC este redusă şi aceasta se traduce prin timpi mici de compresie şi decompresie, necesarul hardware pentru decodare fiind mai redus decât

Page 41: CURS Tehnici Multimedia

- 41 -în cazul MP3. Iată un avantaj în cazul în care vor exista playere portabile care să adopte acest standard.     Concluzionând, MusePack este un encoder extrem de capabil, oferind la ora actuală cea mai bună calitate pentru un format lossy la bitrate-uri de peste 160 kbps. Viitorul nesigur, slaba popularitate şi alte mici probleme împiedică acest format să pretindă primul loc ca răspândire, loc deţinut deocamdată de MP3. Însă cine doreşte calitate maximă, are o singură soluţie.

Vorbis - o alternativă interesantă

     Atât MP3 cât şi MPC sunt concepute pentru bitrate-uri mari, la valori mici ale acestuia (sub 128 kbps) oferind o calitate foarte slabă.

Vorbis porneşte de la baza unui algoritm diferit: în loc să elimine complet frecvenţele înalte sau să le păstreze dar să permită apariţia artefactelor, el generează un gen de zgomot de fond, deloc supărător, care păcăleşte urechea umană, frecvenţele înalte fiind denaturate în aşa fel încât chiar şi la un bitrate de 50 kbps calitatea audio este acceptabilă, iar în acelaşi timp înaltele sunt redate decent. Dezavantajul principal: Vorbis nu este capabil să ofere o calitate foarte bună la bitrate-uri mari, în această situaţie fiind depăşit de MPC şi, uneori, chiar şi de MP3.     Vorbis este un format absolut gratuit, encoder-ul nefiind restricţionat în nici un fel. Sursele programului sunt disponibile, iar encoder-ul este de tip open-source. Rezultatul: o parte din player-ele portabile au adoptat acest standard iar numeroşi producători de jocuri folosesc Vorbis pentru sunetele şi muzica incluse. Desigur, audiofilii vor strâmba din nas nemulţumiţi: cine doreşte calitate de CD va trebui să se îndrepte către alte formate. Însă pentru bitrate-uri mici, alături de AAC şi poate WMA, Vorbis reprezintă soluţia ideală, un astfel de fişier la sub 100 kbps fiind net superior oricărui MP3 sau MPC.     Este greu să comparăm Vorbis cu alte formate pentru că el scade calitatea în alt mod decât o fac MP3 şi MPC. Apare şi aici neclaritatea şi metalizarea sunetelor, dar într-un mod mai puţin deranjant. Forţând puţin limbajul, spunem că Vorbis este „mai transparent” la bitrate-uri mici, unul dintre fenomenele nefireşti dar deloc supărătoare pentru un ascultător amator fiind scăderea în intensitate a volumului anumitor instrumente, voci sau detalii ale muzicii. Calitatea minimă care poate fi specificată encoder-ului este -1, aici obţinându-se un bitrate mediu de circa 40-50 kbps. Suficient pentru a înţelege despre ce e vorba în muzică dar insuficient chiar şi pentru un ascultător mediu. Trebuie însă menţionat faptul că atât MP3 cât şi MPC se comportă extrem de slab în aceste condiţii. Această setare este potrivită în momentul în care doriţi să trimiteţi o bucată muzicală unui prieten pentru o primă impresie, dat fiind că o melodie medie, de 4 minute, ocupă doar circa 1,5 MB.     Vorbis se bazează pe tehnica VBR, oferind în acest mod calitatea maximă. Există disponibil şi modul CBR, dar utilizarea sa nu prea are sens.     O calitate decentă, minimă pentru player-ele portabile, este cea de 1.5, în acest caz obţinându-se circa 80-90 kbps, iar calitatea va fi comparabilă cu cea obţinută de mp3Pro şi AAC la bitrate-uri similare . Spunem aceasta pentru că anumite detalii ale sunetului se vor pierde; totuşi, calitatea va fi superioară lui MP3 la acelaşi bitrate (circa 150-170 kbps) şi comparabilă cu cea a lui MusePack. Se vor simţi îmbunătăţiri odată cu creşterea bitrate-ului, cel maxim, specificat de preset-ul 10, fiind de 400-600 kbps, la această dimensiune fiind de preferat formatele lossless, eventual MPC q10: calitate cel puţin egală, spaţiu ocupat mai mic. În plus, numărul pieselor muzicale „imperfecte” la această setare este mai mare decât în cazul lui MPC.

Există şi o versiune optimizată pentru procesoarele Pentium 4, dar cu toate acestea codarea se desfăşoară mai lent decât pentru MPC dar mai rapid decât MP3 Lame, algoritmul - atât în privinţa codării cât şi decodării - fiind foarte complex. Unele playere portabile portabile nu suportă fişiere Vorbis la bitrate mic deoarece resursele ocupate de aceste fişiere sunt foarte mari.

Page 42: CURS Tehnici Multimedia

- 42 -     Un ultim aspect care merită discutat este aşa-numitul bitrate peeling, care reprezintă scăderea bitrate-ului unui fişier comprimat lossy fără decompresie şi recompresie. Astfel, nu se pierde decât strict calitatea datorată scăderii bitrate-ului, nu şi datorită recompresiei. Formatul Vorbis suportă această funcţie dar encoder-ele uzuale nu au implementat-o.

     Notă: OGG este extensia pentru formatul multimedia, ce include de cele mai multe ori sunet în format Vorbis. El reprezintă un container, similar lui AVI sau MP4. Este, aşadar, greşită referirea la Vorbis prin OGG, deşi între termeni există o relaţie strânsă.

Am considerat necesară expunerea unor aspecte teoretice înainte de continuarea prezentării altor formate, pe baza cărora vom putea oferi mai multe detalii despre acestea.

     După cum am mai spus, la bitrate-uri ridicate standardele MPEG Layer 1 şi Layer 2 oferă o calitate mai ridicată decât MP3 datorită algoritmului mai simplu. Probabilistic vorbind, cu cât procesarea sunetului este mai complexă, cu atât şansele de apariţie a unui artefact sonor cresc. MP3 a fost conceput pentru bitrate-uri de 112-192 kbps, spre deosebire de MP2 şi MP1 care necesită mai mulţi biţi pentru a li se evidenţia valoarea. Se afirma că MP3 „arată” astfel din motive comerciale şi din dorinţa de a se păstra o relativă compatibilitate cu standardele anterioare (fapt absolut inutil pentru că nici un player care cunoaşte formatul MP2 nu va putea decoda un MP3, deşi o parte din algoritm este similară), putând fi observate numeroase decizii greşite luate la formarea standardului. MP3 moşteneşte o parte din elementele care stau la baza lui MP1 şi MP2, peste care suprapune un algoritm nou - combinaţie care determină un comportament slab în anumite situaţii.     Tehnic vorbind, MP3 este o combinaţie dintre doi algoritmi: subband şi transform. În cazul unui codec de tip subband, informaţia audio este separată în funcţie de frecvenţe, segmentele fiind procesate independent, folosindu-se o acurateţe variabilă, potrivită modului de percepţie al urechii. Pentru reţinerea unui sunet de calitate este însă necesar un bitrate mare.     Pentru un codec de tip transform, sunetul suferă o transformare cosinus (MDCT = Modified Discrete Cosine Transform). Această combinaţie mai mult sau mai puţin fericită duce la inferioritatea lui MP3 în faţa multor alte formate subband, precum MP1 şi MP2, dar numai la bitrate-uri mari, adică exact în situaţiile în care urechea umană nu (prea) mai face diferenţa. MP3 moşteneşte de la ambii algoritmi punctele slabe: calitatea slabă la bitrate-uri foarte mici, sub 128 kbps - de la subband, şi imposibilitatea atingerii unei calităţi foarte bune la bitrate-uri mari - de la transform (materializată în problema pre-echo, despre care vom vorbi mai târziu). El nu este altceva decât un compromis de calitate creat pentru necesităţile anilor ’90.

     Am amintit anterior de cei doi algoritmi, transform şi subband, care stau la baza tuturor formatelor performante de compresie a sunetului. Diferenţa dintre cele două la nivel practic constă în faptul că ele sunt puse în dificultate în situaţii diferite: codarea evenimentelor bruşte pentru cele transform şi codarea frecvenţelor înalte pentru cele subband.     Algoritmul subband este de fapt o reprezentare a sunetului pe axa timpului, toate informaţiile reţinute fiind legate de frecvenţe. Astfel, cu cât sunt alocaţi mai mulţi biţi, cu atât este acoperit un domeniu mai larg de frecvenţe, primele deteriorate în caz că numărul biţilor nu e suficient fiind înaltele. Tăierea acestora nu este efectul compresiei ci o măsură de precauţie pentru ca sunetul să rămână decent. De aceea un MPC q10 va suna doar cu puţin mai bine decât unul q5, orice preset peste 5 putând fi considerat, pe bună dreptate, un „brute-force” pentru ca frecvenţele (îndeosebi cele înalte) să fie reţinute cât mai corect. Teoretic, indiferent de bitrate, un encoder subband nu va putea coda corect frecvenţele înalte.     Algoritmul transform este o reprezentare a sunetului în domeniul frecvenţelor. Sunetul este împărţit în benzi de frecvenţă, fiecare dintre ele fiind codată separat. De aceea, nici o frecvenţă nu va fi neglijată, astfel explicându-se faptul că formatele de tipul lui Vorbis nu suferă alterări majore ale înaltelor la bitrate-uri foarte mici. Reversul medaliei este incapacitatea acestui algoritm de a reprezenta corect sunetul la o rezoluţie temporală mare. De aceea, impulsurile, sunetele de scurtă durată, nu pot fi codate bine, pentru aceasta fiind necesară forţa brută - cunoscuta problemă pre-echo. Atât după cât mai ales înaintea unui sunet

Page 43: CURS Tehnici Multimedia

- 43 -brusc (atac) apar frecvenţe parazite, traduse prin senzaţia de „ud”. În imaginile de mai jos puteţi vedea unda sonoră în cazul compresiei MP3 comparativ cu originalul (encoder-ul folosit a fost Blade, cel mai slab calitativ, pentru a evidenţia fenomenul - dar el persistă deşi este mult redus în cazul oricărui encoder/bitrate).

          fără pre-echo                                                                                pre-echo

     În al doilea caz, înainte de atac volumul creşte, o serie de eşantioane apărând „din senin” şi deteriorând sunetul. Teoretic, nici un encoder de tip transform nu va elimina complet problema, indiferent de bitrate.    

MP3 este compus din ambii algoritmi, suferind de pe urma deficienţei fiecăruia. De aceea, sub aspect pur teoretic, MPEG Layer 3 poate fi considerat cel mai slab codec modern de compresie. Desigur, teoria nu corespunde mereu practicii şi MP3-ul depăşeşte multe codec-uri slab optimizate, cum ar fi MPEG Layer 1 şi 2 la bitrate-uri mici şi medii, ocazional MPC la bitrate-uri foarte mici. Optimizarea algoritmului joacă un rol esenţial în calitatea şi performanţele unui encoder dar este clar că algoritmul subband este mai simplu iar codec-ul mai uşor de programat, totodată necesarul resurselor hardware de codare/decodare fiind mai redus. O consecinţă indirectă a acestui lucru este faptul că performanţe foarte aproape de maxim sunt obţinute rapid. De exemplu, formatul MusePack nu mai poate fi îmbunătăţit substanţial deşi este încă tânăr, pe când MP3 a necesitat multă muncă pentru a fi adus la acest stadiu iar potenţialul lui Vorbis este încă neexploatat.

 Codarea MP3 suferă de încă o limitare, descrisă în cele ce urmează. Algoritmul subband (implementat şi în MP3) constă în împărţirea sunetului în benzi de frecvenţă şi codarea lor independentă, ele fiind scalate în funcţie de un factor (de aceea ele sunt numite scalefactor bands), care acţionează ca o compresie locală a benzii respective. Problema este că ultima bandă (sfb21), cea răspunzătoare de frecvenţele de peste 16 KHz, nu deţine acest factor de scalare din cauza unei greşeli de proiectare. Consecinţa: pentru a reţine informaţii precise despre acest domeniu de frecvenţe trebuie irosiţi foarte mulţi biţi, nu neapărat pentru că aceste frecvenţe ar necesita mai mulţi decât celelalte ci pentru că, pentru a creşte rezoluţia codării suficient de mult cât să poată fi reţinute aceste frecvenţe, trebuie crescută rezoluţia tuturor benzilor. Altfel spus, dacă dorim frecvenţe de peste 16 KHz va trebui să irosim o grămadă de biţi pentru toate frecvenţele, inclusiv pentru cele joase. Efectul se vede imediat: la tăierea frecvenţelor peste pragul sus-amintit, în cazul modului VBR bitrate-ul se reduce semnificativ, cu circa 25%. De asemenea, parametrul -Y indicat lui Lame („lets LAME ignore noise shaping in sfb21, like in CBR”) va determina o alocare mai eficientă a biţilor, conducând la scăderea semnificativă a bitrate-ului cu preţul eliminării celei mai mari cantităţi din frecvenţele înalte.

     Un alt aspect este legat de aşa-numitul rezervor. Majoritatea formatelor care permit tehnica VBR (probabil toate, exceptând MPEG Layer 1, 2 şi 3) deţin posibilitatea ca fiecare frame să fie reţinut pe un număr variabil de biţi, atât cât este nevoie. Formatele MPEG (excludem MusePack, desigur) deţin valori prestabilite pentru fiecare frame (128, 160, 224 etc), dovadă clară că ele nu au fost concepute cu gândul la VBR, idee ce a apărut mai târziu.     Pentru a compensa acest neajuns şi depăşind puţin specificaţiile formatului MP3 (fără a

Page 44: CURS Tehnici Multimedia

- 44 -elimina compatibilitatea cu decoder-ele) a fost concepută ideea de rezervor (reservoir). Practic, este vorba de un mod VBR primitiv, bazat pe faptul că de multe ori bitrate-ul constant dorit nu poate fi „umplut” perfect, apărând spaţii libere ce pot fi folosite în cadrul altor frame-uri. Encoder-ul însumează în acest rezervor un număr de biţi de rezervă pe care îi va folosi mai târziu, acolo unde este nevoie. Astfel, dispare şi limitarea valorilor discrete ale bitrate-ului dar dezavantajul major este faptul că acest rezervor nu poate fi creat din nimic, frame-ul curent nu poate „lua cu împrumut” biţi ci este necesară o rezervă care poate sau nu să existe la momentul solicitat. În plus, dimensiunea rezervorului este limitată, ea scăzând odată cu creşterea bitrate-ului nominal. Acţiunea este realizată transparent şi este aplicată atât în cazul fişierelor VBR, cât mai ales a celor CBR. Pe de altă parte, modul ABR (Average BitRate) nu este decât un simplu mod CBR unde mărimea rezervorului este nelimitată.

     Un rol important pentru salvarea unor biţi importanţi în cadrul compresiei audio le au câteva artificii descrise în continuare :     Perceptual Noise Substitution (PNS) se bazează pe observaţia că urechea umană nu deosebeşte prea mult un zgomot de altul. Astfel, encoder-ul cunoaşte cum „arată” acest zgomot şi inserează în fişierul comprimat doar câteva detalii ale acestuia, restul fiind dedus printr-un algoritm. Cu alte cuvinte, când avem de-a face cu un zgomot sunt utilizaţi mai puţini biţi pentru reţinerea acestuia, acea zonă a fişierului audio fiind tratată separat. PNS este implementat, printre altele, în MusePack şi AAC, dar numai la bitrate-uri mici.     Spectral Band Replication (SBR) este altă metodă de creştere a calităţii, despre care vom discuta pe larg în paragraful dedicat lui mp3Pro. Ea are reconstruieşte cu aproximaţie frecvenţele înalte în funcţie de doar câteva informaţii.     De asemenea, sunetele tonale sunt tratate special de către unele encodere, algoritmul de compresie fiind gata să salveze biţi importanţi atunci când întâlneşte secvenţe repetitive. Prin sunete tonale înţelegem sunetele susţinute, prezente atât în cadrul instrumentelor cât şi în cadrul vocii umane. Puteţi observa în imaginile următoare reprezentarea sunetului de nai, a unei voci feminine care pronunţă litera „A”, unde asemănarea este evidentă, o anumită secvenţă fiind repetitivă. Prin contrast, sunetul emis de o tobă nu are nici o regulă de repetiţie. Tehnica prin care sunetele tonale sunt tratate separat se numeşte Clear Vocal Detection (CVD) şi este implementată în MusePack.

litera“A” nai tobă

În fine, Temporal Noise Shaping (TNS) este o metodă de a elimina pre-echo-ul întâlnit la codec-urile de tip transform. Ea constă în aplicarea unui filtru înainte de codarea efectivă pentru a minimaliza efectul trecerii bruşte între două sunete diferite. Decoder-ul cunoaşte parametrii filtrării şi decodează sunetul corespunzător.

 Alte formate lossy (mp3Pro, WMA, AAC, VQF etc)

     mp3Pro reprezintă o extensie a formatului MP3, compatibilă cu acesta, în sensul că toate player-ele existente vor şti să decodeze fişierele ca simple MP3-uri, dar nu vor folosi facilităţile mp3Pro decât dacă sunt adaptate. Calitatea suplimentară este obţinută exclusiv pe baza ratei de eşantionare de 22 KHz, rezultând un bitrate teoretic între 24 şi 144 kbps. Astfel, alături de informaţia propriu-zisă (prezentă în segementul clasic de MP3), este introdusă, cu ajutorul tehnologiei SBR (Spectral Band Replication), o secţiune responsabilă cu „ghicirea” frecvenţelor înalte. Drept urmare, se poate obţine calitatea unui MP3 la 128 kbps la un bitrate de 64, 80 sau 96 kbps, prin redarea frecvenţelor înalte (de peste 11 KHz), dispărute din orice MP3 de 22 KHz. Creşterea de calitate scade puternic odată cu creşterea bitrate-ului, astfel încât utilizarea lui mp3Pro are sens doar până la 96 kbps, peste această valoare un MP3 clasic la 128 ar putea suna chiar mai bine. În nici un caz nu poate fi vorba de „CD-quality stereo at 64Kbps” sau „1/2 the size of mp3” precum afirmă producătorul.

Page 45: CURS Tehnici Multimedia

- 45 -     Trebuie ţinut cont de faptul că eficienţa lui mp3Pro este maximă la bitrate-uri de 64-96 kbps pentru că la valori superioare un MP3 clasic ar putea să-l depăşească. Frecvenţele înalte sunt redate acceptabil de MP3 la 128 kbps, unde nu mai este nevoie de mp3Pro; „ghicirea” înaltelor este mai imprecisă decât păstrarea lor ca atare, deci dacă „este loc” pentru ele nu mai avem nevoie de un algoritm probabilistic pentru a le deduce.     Formatul a fost adoptat de unele playere portabile şi de software-uri comerciale precum CoolEdit Pro / Adobe Audition, acesta oferind un set foarte bogat de opţiuni în privinţa codării, precum VBR şi setarea unor diverse variante de Joint-Stereo pentru salvarea de biţi importanţi pentru calitate. În unele cazuri, în combinaţie cu Low-Complexity Stereo, un JS extrem de agresiv prin care informaţia stereo este în mare măsură pierdută, se pot obţine rezultate bune la bitrate-uri extrem de mici, comparabile cu cele ale concurenţilor.     Problema compatibilităţii cu player-ele curente este mare, mulţi utilizatori ascultând doar informaţia MP3 şi găsind un sunet de calitate slabă, corespunzătoare ratei de eşantionare de 22 KHz. Nici Winamp nu face excepţie, având nevoie de un plugin special pentru a reda şi preţioasa informaţie suplimentară a mp3Pro-ului.     Encoder-ul nefiind gratuit, formatul nu are nici o şansă să se impună la scară largă dar poate reprezenta, ca şi Vorbis, AAC şi WMA, o opţiune decentă pentru bitrate-uri scăzute. Însă Vorbis este gratis.

     VQF, bazat pe tehnica TwinVQ (Transform domain Weighted INterleave Vector Quantization) este un format dezvoltat de NTT Labs (Nippon Telegraph and Telephone Corporation) în urmă cu mulţi ani şi achiziţionat de Yamaha mai târziu, el dorindu-se a fi, în esenţă, o alternativă superioară lui MP3. Din păcate , minusurile sunt, în ordine :

-calitatea bună doar la bitrate-uri mici şi inferioară lui Vorbis sau AAC (un VQF la 64 kbps poate fi comparat cu un MP3 la 80-96), limitarea la 96 kbps (care corespunde unui MP3 la mai puţin de 128), viteza de codare extrem de redusă, plus promovarea sa slabă chiar de către producător. Proiectul a fost abandonat iar licenţele au ajuns în mâinile lui Ahead Software, creatorii suitei Nero. Urmaşul lui VQF, mai exact versiunea 2.0 a acestuia, poate fi găsită ca modul de encodare în cadrul lui Nero Burning Rom şi permite bitrate-uri de maxim 192 kbps, însă nu este disponibil nici un fel de player/plugin pentru redarea fişierelor rezultate, formatul fiind practic utilizat intern de Nero.

     AAC (Advanced Audio Coding) este considerat de către mulţi ca fiind succesorul formatului MP3, având şanse mari să se impună. Ca şi Vorbis, are faţă de MusePack avantajul posibilităţii codării unui număr mare de canale (15), precum şi a unei rate maxime de eşantionare de 96 KHz. De aceea, el este folosit uneori la codarea sunetului discurilor DVD, însă avantajele sale nu îl fac recomandat pentru audiofili ci mai degrabă pentru segmentul de ascultători ce doresc să îmbine imaginea cu sunetul (amatorii de filme).     Legat de calitate, AAC este superior lui Vorbis şi WMA la bitrate-uri mici, fiind cel mai bun codec pentru aceste situaţii. Un AAC configurat bine va suna la limita decenţei la un bitrate de 24 kbps, ceea ce Vorbis reuşeşte la circa 40 kbps iar un MP3 poate abia la 80-96 kbps. Totul provine de la tehnologia folosită, AAC fiind un codec de tip transform. În schimb, la bitrate-uri mari întâlnim problema lui Vorbis şi chiar dacă avem transparenţă în majoritatea situaţiilor, MusePack îi este superior.     Există, ca şi în cazul lui MP3, o serie de encodere care realizează compresia mai mult sau mai puţin bine. Cele mai bune implementări nu sunt gratuite sau suferă de boli ale copilăriei. Au durat câţiva ani buni până ca cel mai bun encoder MP3 să fie freeware şi în acelaşi timp „perfect”. Poate că după o perioadă similară AAC va câştiga succesul deplin.     Până atunci, un encoder freeware bazat pe versiunea dezvoltată de Apple (una foarte bună dar destul de neprietenoasă), pe numele său iTunes, oferă o calitate de invidiat, fiind considerată în majoritatea cazurilor cea mai bună opţiune şi situându-se în faţa variantei comerciale de la Ahead (inclusă în Nero). De altfel, Apple este unul dintre promotorii acestui format, fapt vizibil mai ales după includerea suportului pentru acesta în cunoscutul player portabil iPod.

Page 46: CURS Tehnici Multimedia

- 46 -     Utilizatorii ar trebui să aibă rezerve în folosirea acestui format pentru stocarea muzicii, întrucât AAC este încă imatur şi sunt aşteptate îmbunătăţiri semnificative în viitorul relativ apropiat. Standardizarea sa este, cel mai probabil, o chestiune de timp; de aceea, atunci când vom considera suficiente răspândirea sa şi/sau avantajele oferite, vom oferi mai multe informaţii despre el. Până atunci, remarcăm lipsa parţială a suportului decodării din ultima versiune de Winamp.

     AC3 este formatul audio dezvoltat de Dolby Laboratories şi utilizat în cinematografie şi, mai nou, în codarea sunetului pentru filmele stocate pe DVD. El se diferenţiază de alte formate prin faptul că este conceput pentru a stoca şase canale (5.1, ultimul canal conţinând doar frecvenţe joase, sub 120 Hz). Algoritmul este de tip transform iar bitrate-urile utilizate sunt cuprinse între 32 şi 640 kbps, în cazul standardului DVD fiind folosite valori mai scăzute, precum 224, 384 sau 448 kbps (de obicei CBR), eventual 192 pentru sunet pe două canale (2.0). Encoder-ele de calitate sunt foarte scumpe, de aceea formatul nu este recomandat utilizatorilor obişnuiţi.     Este posibil ca în viitor AC3 să fie înlocuit de AAC.

     WMA (Windows Media Audio) este formatul pe care Microsoft a încercat, fără succes, să-l impună pe piaţă în faţa lui MP3. Popularitatea sa relativ mare se datorează lui Windows Media Player (aplicaţie prezentă implicit în Windows Me/2000/XP), care poate realiza ripping de pe CD exclusiv în acest format. Microsoft afirmă că WMA permite „CD quality” la

64 kbps şi „near CD quality” la 48 kbps, lucru total fals. Fiind un codec de tip transform, el este mai eficient la bitrate-uri mici în comparaţie cu MP3, producând în acelaşi timp un sunet metalic, nu departe de cel obţinut de Vorbis. Bitrate-ul maxim în versiunea iniţială (notată cu 7), de 192 kbps, nu permitea decât o calitate audio decentă, WMA fiind eficient doar la bitrate-uri sub 128 kbps, peste care este depăşit chiar şi de Lame MP3. Versiunile cu numărul 8 şi 9 au oferit îmbunătăţiri remarcabile dar fără a depăşi concurenţa. În plus, varianta Pro a lui WMA9 reprezintă un nou pas înainte în privinţa calităţii, la care se adaugă şi opţiunea de codare lossless, însă formatul nu este larg suportat.     O măsură împotriva pirateriei, inclusă în WMA, este Digital Rights Management (DRM). La activarea acesteia în encoder, fişierul rezultat nu va mai putea fi citit şi rulat pe alt sistem, un motiv în plus pentru ca formatul să nu fie iubit de public (deşi au apărut soft-uri care ocolesc această protecţie şi „eliberează” fişierul). Totuşi, acest detaliu face ca formatul WMA să fie preferat de magazinele de muzică online, care pot controla astfel nivelul pirateriei. Un test recent a relevat faptul că fişierele WMA standard codate la 128 kbps au o calitate mai proastă decât Lame MP3 la acelaşi bitrate. Cu toate acestea, serviciul Napster distribuie muzică (contra cost) în acest format.

     O serie de playere portabile au adoptat formatul în versiunea standard, WMA fiind, alături de Vorbis şi AAC, un jucător important în domeniul bitrate-urilor mici, adică cele mai nimerite când e vorba de mobilitate. Totuşi, utilitatea lui maximă este legată de video/audioconferinţe unde, alături de perechea sa pentru codarea video, reprezintă o soluţie foarte bună, poate cea ideală.     În prezent, există trei versiuni diferite: WMA9 (standard) cu o calitate relativ slabă, WMA9 Pro, un format competitiv, cu o calitate comparabilă cu cea a lui AAC sau Vorbis la bitrate-ul uzual de 128 kbps şi WMA9 lossless, care se situează, în categoria formatelor fără pierdere de calitate, în grupul „şi alţii”.De o perioada scurtă de timp se poate face upgrade la WMA 11, dar numai in condiţiile in care softul MICROSOFT folosit in PC este original ( genuine).    Formatul nu este recomandat în nici o circumstanţă pentru codarea calitativă a muzicii, (excluzând situaţia în care utilizatorul este dependent de Windows Media Player).

  RealAudio este un format vechi şi foarte răspândit în trecut din cauza utilizării sale în domeniul streaming-ului (cel mai adesea pentru posturi de radio online). În prezent, importanţa sa a scăzut mult datorită altor formate mai bune, care s-au impus. Fiind un format proprietar, utilizat în scopuri comerciale, avantajele sale sunt minime. De-a lungul vremii au

Page 47: CURS Tehnici Multimedia

- 47 -fost dezvoltate diverse variante, printre care se remarcă modul de compresie lossless introdus de curând.

     WavPack este un format promiţător, conceput în primul rând pentru compresia lossless. Algoritmul lossy oferă o calitate relativ bună dar este limitat în jos la un bitrate minim de circa 260 kbps, bitrate la care nu străluceşte, introducând un zgomot de fond considerabil, oarecum asemănător lui Vorbis. Compresia nu foloseşte nici un algoritm psihoacustic, algoritmul folosit fiind înrudit cu ADPCM (este vorba de „simple quantization”). Nu vom avea pre-echo sau alte probleme de acest gen pentru că scăderea calităţii este constantă, indiferent de pasajul muzical, dar fără 500-600 kbps nu vom atinge calitatea unui MPC la 200-300 kbps.     Avantajele lui WavPack sunt legate de faptul că este absolut gratuit şi de facilităţile deosebite pe care le oferă. Cea mai importantă este modul de compresie hibrid, mod care generează două fişiere: primul conţinând secvenţa audio comprimată lossy iar al doilea, de obicei mai mare, diferenţele faţă de original. Dacă ambele fişiere se află în acelaşi director, la rularea fişierului standard (cu extensia WV) fişierul „corecţie” (WVC) va fi intra în funcţiune, rezultând o redare fără pierdere de calitate. În caz că fişierul suplimentar este îndepărtat, va rezulta o compresie cu pierderi.     Dacă fişierele WavPack ar fi răspândite, procedeul descris ar oferi un avantaj important: cine doreşte perfecţiunea va păstra ambele fişiere, cine e mulţumit cu mai puţin şi nu are mult spaţiu liber pe disc sau lăţime de bandă necesară transferului unei cantităţi mari de date, va păstra doar fişierul propriu-zis sau va muta fişierul de corecţie pe un mediu mai greu accesibil în lucrul de zi cu zi, cum ar fi CD-ul sau DVD-ul.

         Unul dintre dezavantajele celor mai multe formate enumerate (incluzând aici MP3 şi MusePack) este lipsa suportului multi-channel. Cu alte cuvinte, este posibilă codarea a doar două canale, ceea ce reprezintă o limită deranjantă în special pentru fanii filmelor. Vorbis, AAC şi WMA au acest avantaj, listă la care mai putem adăuga încercarea lui Philips de a introduce un format MP2 multichannel, fără prea mult succes. Recent, părintele lui MP3, institutul Fraunhofer, a anunţat un encoder MP3 capabil să codeze sunet pe şase canale, iar encoder-ul a aparut în cursul anului 2005.     Pentru ascultătorii de muzică obişnuită, problema canalelor nu există atât timp cât ele sunt în număr de două.

    

Formatele lossless (APE, FLAC etc)

     În paragrafele precedente am discutat despre formatele de compresie audio lossy. Reamintim faptul că acestea au dezavantajul pierderii mai mici sau mai mari a calităţii dar şi avantajul dimensiunii reduse a fişierului rezultat. Practic, toate formatele moderne cu pierdere oferă o calitate excelentă a sunetului la bitrate-uri în jurul a 200-300 kbps, diferenţele faţă de original fiind de cele mai multe ori nesemnificative. Totuşi, pentru cei mai pretenţioşi, există categoria de formate lossless, bazate pe algoritmi care nu presupun pierdere de informaţie odată cu compresia. Practic, este vorba de algoritmi similari lui ZIP sau RAR, optimizaţi pentru fişierele audio, ce oferă o rată de compresie de circa 40-60%.     Avantajul principal al acestor formate faţă de cele generice de compresie a datelor constă în faptul că primele conţin un decodor pentru decompresia în timp real, putând fi ascultate la fel ca orice MP3, MPC etc. Desigur, compresia fără pierdere este destul de slabă şi deloc convenabilă pentru cei mai mulţi dintre noi, un bitrate de 600-1000 nefiind deloc încântător în condiţiile în care o calitate apropiată (şi pentru cele mai multe urechi identică) se poate obţine ocupând un spaţiu de circa trei ori mai mic. Totuşi, aceste formate nu sunt inutile; ele sunt răspândite în reţelele de file-sharing care ţin seama de calitatea audio (cel mai elocvent exemplu fiind eDonkey/eMule), astfel putând fi distribuite (ilegal, desigur) copii identice ale CD-urilor originale.     Spre deosebire de formatele lossy, algoritmii de compresie lossless sunt total diferiţi: ei nu se bazează pe psihoacustică, ci pe predicţie. De aceea, muzica mai omogenă, formată

Page 48: CURS Tehnici Multimedia

- 48 -din puţine instrumente sau din instrumente asemănătoare şi la un volum scăzut este comprimată mai bine, ajungându-se uneori chiar şi la 300-400 kbps, bitrate-uri caracteristice mai degrabă formatelor cu pierdere. Muzica clasică este preferata compresiei lossless, în schimb cea modernă tinde să aibă volum mare. În plus, sunetele bruşte, atât de frecvente în muzica de azi, dau peste cap algoritmul de codare, rezultând uneori bitrate-uri imense. 

     Cel mai răspândit format este APE (maimuţă), urmat îndeaproape de FLAC (Free Lossless Audio Codec), pentru ambele existând plugin-uri pentru cel mai răspândit player software, Winamp. În cazul lui APE, software-ul de codare/decodare poartă numele de Monkey’s Audio şi oferă, ca şi în cazul arhivatoarelor, mai multe nivele de compresie: Fast, Normal, High, Extra High şi Insane, al doilea şi al treilea fiind cele recomandate iar ultimele două având ca dezavantaj principal procentul mare de procesor consumat la decodare (deci la ascultare) şi deci imposibilitatea rulării piesei muzicale pe sisteme

foarte lente. FLAC oferă, în schimb, nouă nivele de compresie (de la 0 la 8, valoarea 5 fiind recomandată), atât timpul cât şi rata de compresie diferind în funcţie de acest parametru. Formatul FLAC este susţinut de Xipg.Org, organizaţia non-profit ce se află în spatele formatului Vorbis.     Unele formate oferă, pe de o parte, posibilitatea compresiei fără pierdere, iar pe de altă parte deţin şi un modul de codare lossy, exemple în acest sens fiind WMA9 dezvoltat de Microsoft sau WavPack (WV).      Evident că nu se pune problema ca vreunul dintre aceste formate să înlocuiască vreun format lossy deoarece este matematic imposibilă creşterea ratei de compresie la un nivel acceptabil (200-300 kbps, fără a mai vorbi de popularul 128 kbps). Cine doreşte perfecţiunea în detrimentul spaţiului ocupat va opta pentru lossless, însă trebuie ştiut faptul că cea mai mare parte a plusului de calitate (comparabil cu MusePack, cel mai bun format lossy) este, în imensa majoritate a situaţiilor, insesizabil. Probabil că unii nu admit ideea de a asculta muzică ce suferă de pierdere (doar teoretică) de calitate.      Diferenţa cea mai uşor de observat dintre cei doi lideri, APE şi FLAC, ţine în primul rând de interfaţă. Dacă Monkey’s Audio este o aplicaţie extrem de plăcut de utilizat, interfaţa ei fiind una standard pentru o aplicaţie Windows, FLAC surprinde printr-un program tip linie de comandă. Există aşa-numitele front-end-uri (cel mai uzual fiind denumit chiar FLAC frontend) care uşurează munca de codare sau decodare, însă Monkey’s Audio se află mult în faţă la acest capitol, ceea ce face formatul APE preferat celor mai comozi dintre utilizatori (care formează, de altfel, şi majoritatea).     Tehnic vorbind, FLAC are multe avantaje în faţa concurentului. Amintim de suportul din partea multor playere portabile, suport pentru fişiere cu mai multe canale audio, solicitarea de resurse mai puţine din partea sistemului pentru decodare, protecţia mai bună la erori, seek point-uri configurabile şi altele. Toate acestea cu costul unei compresii cu puţin mai slabe, deci fişierele rezultate vor fi insesizabil mai mari.     Am amintit de termenul de seek point care este similar noţiunii de keyframe pentru fişierele video. Pentru o deplasare mai exactă şi mai rapidă în timpul melodiei, în cazul lui FLAC se poate folosi utilitarul metaflac, care este distribuit odată cu encoder-ul. Cu ajutorul lui, pot fi adăugate aceste puncte la intervale variabile în fişierele deja create, spre exemplu la fiecare secundă; dimensiunea fişierului va creşte cu câţiva KB, absolut nesemnificativ.     Încă un dezavantaj pentru Monkey’s Audio: există momentan pe piaţă câteva versiuni ale encoder-ului, compatibile doar în jos; de exemplu, fişierele codate cu versiunea 3.99 nu pot fi decodate folosind versiuni anterioare. Astfel de probleme nu apar în cazul lui FLAC.    

Clipping şi ReplayGain

      Un fenomen nedorit dar greu de ocolit este clipping-ul. Am explicat în paragrafele anterioare cum eşantioanele, care reprezintă informaţia sonoră instantanee, pot lua valori în

Page 49: CURS Tehnici Multimedia

- 49 -funcţie de rezoluţia sunetului: 2 la puterea 8, adică 256 de valori pentru o rezoluţie de 8 biţi, respectiv 2 la puterea 16, adică 65536 pentru 16 biţi. Cu cât valoarea este mai îndepărată de axa Ox, cu atât volumul acelui sample este mai mare.     Însă ce se întâmplă dacă avem un eşantion care „doreşte” o valoare mai mare (sau mai mică) decât îi este permis, datorită sunetului prea puternic? Curba sunetului este denaturată, valorile respective luând valoarea maximului (respectiv minimului) permis, nu cât ar fi fost necesar. Rezultatul este un sunet imperfect, plin de pocnete sau pârâituri şi greu de comprimat, encoder-ele având mari dificultăţi în a „înţelege” aceste secţiuni pentru că, în muzica obişnuită, pentru care ele au fost optimizate, nu ar trebui să apară astfel de situaţii.     Fenomenul descris este cunoscut sub numele de clipping şi poate fi contracarat în două moduri. Primul este realizat prin intermediul aplicaţiilor specializate, cum ar fi CoolEdit Pro / Adobe Audition, care deţine un modul numit Clip Restoration. Nu este imposibil ca valorile care „ies din cadru” să fie calculate aproximativ, în funcţie de curba generată de celelalte sample-uri. Astfel, întreg sunetul este scăzut în amplitudine şi în spaţiul rămas liber sunt aşezate valorile calculate ale sample-urilor „defecte”. Metoda nu este foarte eficientă, rezultatele nefiind satisfăcătoare decât în cazul unui clipping de slabă intensitate. Fişierul rezultat va trebui recodat (dacă iniţial era deja comprimat cu pierdere de calitate), deci calitatea per total ar putea scădea.     A doua metodă este de fapt o variantă a celei dintâi. Fişierul nu mai este de- şi recomprimat ci clipping-ul este realizat la nivel de player, în timp real. Algoritmul descris anterior este aplicat în timpul rulării fişierului audio, necesarul suplimentar de putere de calcul fiind neglijabil. Desigur, prezenţa şi performanţa funcţiei depinde de aplicaţie (plugin).     Din păcate, din dorinţa de a oferi un volum cât mai mare, mulţi producători de muzică oferă un sunet afectat de clipping. Este drept că majoritatea sample-urilor nu se află la limită, deci nu sunt afectate, dar dacă doar 1% din ele sunt situate virtual deasupra volumului permis, calitatea are de suferit.      Ce ne facem când avem de-a face cu fenomenul opus, când volumul muzicii este prea mic şi trebuie să creştem forţat volumul (din soft sau din potenţiometrul sistemului audio), operaţie deranjantă şi care generează în unele cazuri creşterea zgomotului de fond?     Să presupunem că avem o secvenţă de câteva minute, în care volumul este situat la circa 20% din maxim. Uneori, artistul a avut un motiv pentru a lua această măsură (spre exemplu după câteva melodii rapide poate urma una ambientală, cu un volum scăzut), însă sunt mai numeroase cazurile în care totul este un capriciu al casei de discuri.     Creşterea volumului poate fi realizată în două moduri: prin normalizare şi ReplayGain. Prima metodă constă în modificarea volumului sunetului înainte de compresie, apărând astfel un dezavantaj major: informaţia iniţială legată de volum este pierdută, factorul cu care sunetul este amplificat nu rămâne memorat nicăieri, deci ascultătorul nu mai poate opta între sunetul amplificat şi cel în forma originală.     Prin contrast, ReplayGain se bazează pe posibilitatea celor mai multe formate de compresie de a reţine valorile cu privire la volumul sunetului redat. Pe de altă parte, este necesar suport din partea player-ului, care va trebui să „ştie” să se folosească de această facilitate, în caz contrar va ignora informaţia de ReplayGain.     În plus, normalizarea constă în detectarea celui mai puternic eşantion al piesei muzicale din punct de vedere al volumului, pe când ReplayGain se foloseşte de calcularea volumului global perceput de om, bazându-se pe faptul că urechea umană percepe volumul în funcţie de evoluţia sa în timp, nu de o valoare momentană. Cu alte cuvinte, ReplayGain foloseşte metode psihoacustice pentru detecţia volumului necesar şi nu un calcul matematic rudimentar.     Există două metode de ReplayGain: radio (track based) şi audiophile (album based). Prima se bazează doar pe volumul global al fiecărei piese iar a doua, cea recomandată, păstrează diferenţele de volum de la o piesă la alta. Astfel, dacă prima melodie are volumul scăzut iar a doua îl are apropiat de maxim, volumul primei piese nu va fi crescut la nivelul celei de-a doua, ci se va respecta, în mare măsură, dorinţa autorului ca prima piesă să se audă mai încet.  Pentru fiecare format (care suportă ReplayGain) există utilitarul propriu de aplicare a funcţiei. La redare, în cazul formatului MP3 şi player-ului Winamp, este necesar un plugin ce presupune eliminarea celorlalte plugin-uri de decodare a fişierelor MPEG Audio.

Page 50: CURS Tehnici Multimedia

- 50 -

Imaginea computerizatăElementul imagine este aprope nelipsit în prezentările multimedia. Calitatea

imaginilor este condiţionată de rezoluţia de afişare şi de capacităţile grafice ale calculatorului şi monitorului. În producţiile multimedia ea poate fi implicată atât sub formă matriceală cât şi sub formă vectorială.

Imaginea bitmap (matriceală)

Hărţile de biţi, cunoscute de asemenea ca grafică cu rastru (raster graphics), sunt formate dintr-o matrice de puncte denumite pixeli. De fapt, ele reprezinta aproape fidel, bit cu bit, continutul memoriei video in momentul afisarii imaginii respective pe ecranul monitorului. De exemplu, pentru o imagine monocroma (alb-negru), fiecarui punct fizic al imaginii ii corespunde un singur bit in matrice, pe randul si coloana corespunzatoare poziitiei reale a acestuia din cadrul imaginii. Valoarea "0" a unui bit din matrice corespunde unui punct negru din imagine (stins) iar "1" corespunde unui punct alb (aprins).

Din exemplul de mai sus se deduce faptul ca matricea trebuie sa includa si informatii despre culoarea punctului corespondent din imagine. Acest lucru se traduce prin faptul ca matricile de pixeli au - pe langa linii si coloane - si o a treia dimensiune: adancimea de culoare a pixelului respectiv. De exemplu, pentru un numar total de 256 de culori dintr-o imagine, adancimea de culoare necesara va fi 8. Rezulta un set de 8 matrici de tipul celei corespunzatoare unei imagini monocrome cu aceeasi suprafata.

Cele mai uzuale adancimi de culoare sunt: 4 biti (16 culori), 8 biti (256 culori), 16 biti (32768 culori) si 24 biti (16.7 milioane culori).

Principalul avantaj al hartilor de pixeli este ca pot stoca imagini reale pana la cel mai mic detaliu. Principalul dezavantaj il constituie necesarul foarte mare de spatiu de stocare. Acesta depinde de dimensiunile imaginii (pe x si pe y), cat si de numarul total de culori din imagine (rezultand "adancimea de culoare" a reprezentarii).

Dimensiunea - in numar de biti - a fisierului rezultat se obtine prin inmultirea celor trei parametri anteriori. Al doilea dezavantaj il reprezinta degradarea imaginii reprezentate, daca este redimensionata. In cazul micsorarii dimensiunilor, o parte din pixeli se va inlatura, rezultand in pierdere de informatie, iar daca se maresc dimensiunile imaginii, vor trebui creati noi pixeli. Acest lucru se rezolva uzual prin a-i atribui noului pixel o culoare apropiata de cea a vecinilor sai. Solutia tinde sa genereze efectul de imagine compusa din blocuri.

Majoritatea pachetelor software specializate in editarea de imagini, pot genera reprezentari grafice tip rastru.

Exemplul tipic de imagine în cadrul unei prezentări multimedia este backgroundul (fundalul). În general, orice imagine captată de la o sursă externă este o imagine bitmap, secvenţele de biţi ce codifică această imagine reprezentând punctele de pe ecran şi culorile asociate lor.

Reprezentarea bitmap este folosita în principal în aplicaţii orientate pe fotografii. Imaginile în format bitmap sunt transmise către periferice, iar imaginea vizualizată pe ecran este o imagine digitală, stocată în memoria video şi actualizată odată la 60 secunde sau mai repede, în funcţie de viteza de scanare a monitorului. O deficienţă a acestei reprezentări este aceea că ea nu se poate adapta unei scări variabile de vizualizare. Astfel, orice mărire a dimensiunii imaginii este însoţită de o degradare vizuală. Modificarea imaginilor bitmap se poate realiza totuşi cu ajutorul unor programe de editare specifice, precum Adobe PhotoShop.

Reprezentarea imaginii sub formă de matrice are numeroase dezavantaje. Orice metodă de compresie a acestui tip de imagine duce la o degradare a acesteia proporţională cu rata de compresie.

Cu toate acestea există numeroase formate de fişiere care păstrază imaginea sub forma unei matrici de puncte, precum:

· Formatul PCX (PC PaintBrush File Format) recunoscut pe platformaWindows – Paint Brush; el poate trata imaginea codificată pe 8 biţi (256 culori), dedimensiune maximă 64.000 * 64.000 pixeli;

· Formatul TIFF (Tag Image File Format) este foarte cunoscut pentrustocarea şi transferul imaginilor scanate; acest format foloseşte mai mulţi algoritmi decompresie: JPEG, RLE sau LZW (Lempel-Ziv-Welch); majoritatea programelor pot

Page 51: CURS Tehnici Multimedia

- 51 -gestiona acest format de fişier;

· Formatul BMP (Microsoft Windows Bitmap) este formatul tradiţional carestochează imaginea bitmap, definit de Microsoft pentru interfaţa sa grafică; imagineastocată poate fi comprimată sau nu RLE, poate fi monocromă sau în culori pe 24 sau 32de biŃi;

· Formatul ICO (Icon Resource File) este un format bitmap, pentru imaginide dimensiuni reduse şi este folosit de Windows pentru reprezentarea icon-urilorprogram; acest tip de fişier acceptă definiţia unei imagini în numeroase rezoluţii şi culori.

· Formatul JPG (Joint Photographics Experts Group) este folosit pentruimaginile bitmap, comprimate conform standardului JPEG; este avantajos deoarecedeţine date de compresie JPEG diferite, definite clar de utilizator, în funcţie de spaţiul pehard disc sau în funcţie de calitatea imaginii ce se doreşte a fi obtinută; are rate decompresie foarte mari, fără a pierde din calitatea imaginii;

· Formatul GIF (Graphics Interchange Format) este foarte răspândit şifolosit pentru transferul de imagini bitmap, de maxim 64K*64K pixeli, între nodurisituate la distanţă, datorită ratelor mari de compresie pe care le acceptă; formatul a fostdezvoltat de CompuServe, pentru a facilita tranzitul informaţiilor grafice în domeniultelecomunicaţiilor şi permite o rată avantajoasă de comprimare prin metoda LZW;

· Formatul DIB (Device Independent Bitmap) este un format de tip bitmapal unui fişier imagine, frecvent întâlnit în enciclopediile tematice multimedia. Poateexista ca format de sine stătător sau poate fi ascuns într-un fisier de format RIFF(Resource Interchange File Format). Pentru aplicaţiile sub Windows este preferat acestformat. Fişierul RIFF DIB mai este recunoscut şi după extensia RDI.

Imaginea vectorialăUn alt tip de format sub care poate apare imaginea ca şi componentă multimedia este

cel vectorial. Grafica vectorială interpretează imaginea ca pe o succesiune de puncte şi funcţii matematice, care descriu geometric componenetele acesteia. Din acest motiv se recomandă în special acelor imagini care conţin text, linii, grafice, diagrame de flux, hărţi, desene, putând fi uşor recompuse din figuri geometrice.Imaginile reprezentate vectorial sunt construite de obicei cu ajutorul unor primitive - instructiuni de desenare ca linie, dreptunghi, elipsa. Aceste primitive pot fi grupate impreuna pentru a forma obiecte.

Toate imaginile reprezentate vectorial sunt generate de calculator prin utilizarea a diferite pachete software specializate, cum ar fi cele de Proiectare Asistata de Calculator (CAD - Computer Aided Design), folosite de catre arhitecti, de exemplu, sau pachetul de editare grafica "CorelDraw". Intr-o imagine reprezentata vectorial, toate primitivele grafice (linii, dreptunghiuri, elipse, arce de cerc, etc.) ce formează obiectele componente, sunt definite prin perechile de coordonate ale punctelor lor esenţiale. De exemplu, pentru un dreptunghi, se vor defini perechile de valori (x1, y1) şi (x2, y2), acestea fiind coordonatele a doua colţuri diagonal opuse ale respectivului dreptunghi. Această informaţie e suficientă nu numai pentru a defini dimensiunile dreptunghiului în discuţie, ci şi poziţia acestuia în cadrul imaginii. În plus, pentru fiecare primitivă grafică componentă se mai pot furniza informaţii suplimentare, cum ar fi culoarea conturului, culoarea interiorului, tipul de haşură pentru interior, etc.

Aceasta permite ca figuri complexe să poata fi stocate în fişiere foarte compacte. Dimensiunea acestor fişiere depinde în mod direct proporţional cu numărul de obiecte ce compun imaginea, iar un fişier cu multe obiecte componente nu este numai mare ca dimensiune, ci necesită un timp mare pentru afişarea imaginii.

Modificarea dimensiunilor unei imagini reprezentate vectorial se poate face cu usurinta si fara pierderi de informatie, fiind vorba doar de operatii de scalare a parametrilor primitiveor grafice componente.

Grafica vectoriala poate fi utilizata pentru reprezentarea imaginilor "din realitatea inconjurătoare", dar acest lucru necesita o cantitate impresionantă de procesare, împărţirea în primitive grafice fiind foarte dificilă.

Spre deosebire de imaginea matriceală, stocarea imaginilor vectoriale este independentă de scara de afişaj, ceea ce permite o modificare a dimesiunii acesteia fără ai afecta calitatea. Imaginea vectorială poate apare într-o mare varietate de fişiere:

Page 52: CURS Tehnici Multimedia

- 52 -· Formatul DXF (Auto CAD Drawing exchange Format), care este

standardul de stocare pentru imagina vectorială, recunoscut în proiectarea asiatată decalculator, dezvoltat de Autodesk, pentru programul Auto CAD; acest format nu dispune de nici un algoritm de compresie şi nu poate gestiona mai mult de 256 culori, dar poate păstra date tridimensionale;

· Formatul EPS (Encapsulated Postscript), este formatul limbajuluiPostscript, definit de societatea Adobe; deţine informaţia comprimată conformstandardului JPEG şi admite orice dimensiune a imaginii de stocat; sub acest tip deformat se vehiculează informaţia în aplicaţii de punere în pagină sau în aplicaţii deprezentare;

· Formatul CGM (Computer Graphics Matafile) este caracteristic unuimeta-fişier care poate conŃine o imagine de orice dimensiune; este acceptat deorganismele de standardizare ANSI şi ISO şi a fost creat pentru a facilita schimbul dedate între platforme diferite; sub acest format se pot gestiona atât imagini vectoriale cât şiimagini bitmap; formatul CGM specific unui metafişier conŃine fluxul de informaŃii întreo aplicaŃie grafică supusă standardului GKS şi perifericul pe care îl utilizează, în maimulte variante de codificare: tip caracter, binar şi codaj utilizator.

Semnalele video uzuale

De când a început să fie aceesibilă publicului larg, tehnologia video (cinematografia, televiziunea şi sistemele video VHS - Video Home System) a fost considerată cel mai complet şi mai important mediu de comunicare a informaţiilor.

Pe măsură ce performanţele sistemelor de calcul au crescut suficient de mult, producătorii de hardware şi software au inceput procesul de integrare a tehnologiei video, întăi în staţii de lucru dedicate aplicaţiilor grafice - calculatoare foarte puternice, specializate, foarte scumpe - coborând apoi treptat spre calculatoare mai puţin pretenţioase, până la comunele PC-uri. Procesul nu este nici pe departe terminat, performantele aplicatiilor ce conţin video-clipuri, filme sau imagini dinamice situându-se încă între "satisfăcător" şi "bine".

Captarea imaginilor din exterior şi convertirea lor în semnale electrice analogice - operaţie efectuată de camerele video - defineşte procesul de intrare video, sau filmare. Semnalele video obtinute pot fi apoi stocate pe suport magnetic (videobenzi si videocasete) sau transmise sub formă de semnal TV.

Semnalul electric ce provine de la camerele video are in mod obisnuit trei componente, ce corespund celor trei culori esentiale, de compozitie video: roşu, verde si albastru (RGB - Red, Green, Blue).

Pentru difuzare, se construieste din cele trei componente de baza un singur semnal, denumit "semnal compozit", care codifica dupa anumite expresii informatia video de transmis.

Semnalul YUV: expolateaza proprietatea ochiului uman de a fi mai sensibil la intensitatea luminoasa (luminanta) decat la informatia de culoare (crominanţa). Rezultă că în loc de a separa culorile in componentele esenţiale, se poate separa informaţia de luminanţă (Y) de informaţia de culoare (două canale de crominanţă: U si V). Relaţiile dintre componentele Y,U,V si R,G,B sunt exprimate in formulele:

Y = 0.30R + 0.59G + 0.11BU = 0.493(B-Y)V = 0.877(R-Y)

Componenta de luminanta (Y) trebuie transmisă întotdeauna din motive de compatibilitate; receptoarele alb-negru utilizând-o în mod obligatoriu, celelalte două fiind utilizate în plus, de receptoarele color.

Orice potenţială eroare în componenta de luminanţă (Y) este mai importantă decât în valorile de crominanţă (U, V). De aceea pentru luminanţă se aloca o lăţime de bandă de transmisie mai mare ca pentru crominanta.

Semnalul YIQ: este asemănător cu codificarea YUV şi sta la baza standardului TV NTSC:

Y = 0.30R + 0.59G + 0.11B I =

Page 53: CURS Tehnici Multimedia

- 53 -0.60R - 0.28G - 0.32B Q = 0.21R - 0.52G + 0.31B

Difuzarea TV. Standardele TV

a) NTSC (National Television Systems Comitee).Standard dezvoltat in Statele Unite, fiind cel mai vechi si mai răspândit standard TV. Funcţionează perfect în sisteme video directe, sau în TV cu circuit închis, dar prezintă probleme de variaţie a culorilor în cazul transmisiunii la distanţă. Cauza acestor probleme este generata de modificarea fazei undei purtatoare a culorii din semnalului transmis.

b) PAL (Phase Alternating Lines).Inventat in 1963 de W. Bruch de la firma germana Telefunken, este utilizat azi in cea mai mare parte a Europei de Vest. Rezolvă problema variatiei culorilor prin inversarea tot la a doua linie a fazei undei purtătoare de culoare.

c) SECAM (SEquential Couleur Avec Memoire).Introdus în Franţa din motive politice (protejarea propriei industrii TV) şi adoptat de asemenea şi în ţările est-europene tot din motive politice ( încurajarea incompatibilitătţii cu transmisiile TV vestice).. Diferă fata de sistemul PAL prin frecvenţele de transmisie şi prin unele elemente de codare a semnalului compozit. Vizionarea semnalului SECAM cu un receptor de tip PAL, va reproduce imaginile corecte, dar monocrom.

d) Sisteme EDTV (Enhanced Definition TeleVision).Deriva din sistemele conventionale, modificate pentru a oferi rezolutie orizontala si/sau verticala mai buna la receptie.

In Statele Unite, un astfel de sistem TV imbunatatit este IDTV (Improved-Definition TeleVision - televiziune cu definitie imbunatatita). Sistemul nu este ceva nou, ci incearca sa imbunatateasca imaginea NTSC prin utilizarea memoriei digitale pentru dublarea numarului liniilor de scan, de la 525 la 1050. Imaginile sunt doar cu foarte putin mai detaliate ca cele originale NTSC, deoarece semnalul nu contine nici un fel de informatie aditionala.

Standardul similar lui IDTV, dar pentru Europa, este D2-MAC (Duobinary Multiplexed Analogue Components). Aceasta solutie a fost deja introdusa in Germania, ca standard TV succesor lui PAL. D2-MAC utilizeaza un mecanism de multiplexare in timp pentru transmisia componentelor video. Sunetul si ceva informatie suplimentara sunt codificate impreuna in format duobinar (D2), pe 105 biti.

e) Televiziunea de inaltă definiţie (HDTV - High-Definition TV).Este considerata adevarata noua ganeratie de televiziune. Standardul este definit in principiu referitor la imaginea ce o ofera telespectatorului.

Rezolutia: imaginile HDTV au de doua ori mai multi pixeli pe orizontala si pe verticala decat la sistemele conventionale. Cresterea definitiei pe verticala se obtine prin implicarea a mai mult de 1000 de linii de scan. Cresterea detaliului de luminanta din imagini se realizeaza prin marirea cu aproximativ de cinci ori mai mult a latimii de banda de transmisie utilizate in sistemele clasice.

Raportul de aspect (aspect ratio) este dat de fractia: dimensiune orizontala

imagine/dimensiune verticala imagine

La sistemele HDTV raportul de aspect are valoarea de 16/9 = 1.777 (vis-a-vis de sistemele calsice, cu un raport de 4/3 = 1.333).

Distanta de vizionare: cum abilitatea ochiului uman de a distinge detalii este limitata, imaginile HDTV - mult mai detaliate ca cele clasice - vor trebui vizionate de le o distanta mai mica.

Tabela (Tab.1.) prezinta comparativ diferitele tipuri mai importante de standarde TV intalnite in prezent:

Sistem Total linii de scan

Linii active de scan

Distanta devizionareoptima

Raportul de aspect

Rata de scanare

Latimea debanda totala

/ canalHDTV USA

1050 960 2.5 m 16/9 59.94 Hz [ni] 9.0 MHz

Page 54: CURS Tehnici Multimedia

- 54 -HDTV Europa

1250 1000 2.4 m 16/9 100 Hz [ni] 12.0 MHz

HDtv Japonia

1125 1080 3.3 m 16/9 60 Hz [i] 30.0 MHz

NTSC 525 484 7.0 m 4/3 59.94 Hz [i] 6.0 MHzPAL 625 575 6.0 4/3 50 Hz [i] 8.0 MHz

SECAM 625 575 6.0 4/3 50 Hz [i] 8.0 MHz

Legenda: [i] - rastru intretesut [ni] - rastru progresiv (neintretesut)

Tab. 1. Comparatie de caracteristici ale diferitelor standarde TV

Compresia şi decompresia imaginilorFundamente ale compresiei video

În principiu toate standardele de compresie video au la bază algoritmul JPEG, algoritm de compresie a imaginilor statice. În scopul realizarii unui video playback inteligibil, este necesara o rata de transfer de aproximativ 30 frames/secunda pentru transmiterea, compresia si decompresia continua a frame-urilor. Pentru integrarea secventelor video si audio în aceeasi prezentare, sunt necesare unele structuri care sa incorporeze sincronizarea playback-ului audio/video. Dintre cele mai importante structuri de fisiere care pot realiza sincronizarea audio/video pe statii multimedia, amintim formatele AVI (Microsoft) si Quicktime (Apple).

Compresia imaginii cu JPEG

JPEG este acronimul pentru Joint Photographic Experts Group, organizaţia care a creat cel mai răspândit standard referitor la compresia imaginilor digitizate. Standardul a fost dezvoltat de un grup de experţi parte a organismelor ISO, ITU şi JPEG şi a fost definit ca standard internaţional ISO 10918. Standardul defineşte o serie de modalităţi de compresie, fiecare utilizabilă într-un anumit domeniu de aplicaţii.

Standardul JPEG defineşte patru moduri de compresie: secvenţial, progresiv, ierarhic şi fără pierdere de informaţii. În plus standardul defineşte pentru aceste moduri, diferiţi algoritmi de codificare.

• Modul secvenţial, cu pierdere de date sau modul de bază este folosit pentrucompresia imaginilor monocrome şi a celor color, digitizate. În modul secvenţialimaginea este codificată de sus în jos, fiecare componentă a culorii fiind completcodificată la o singură trecere.

• În modul progresiv componentele culorii sunt codificate în mai multe treceri (paşi).Prima trecere creează o versiune slabă din punct de vedere calitativ a imaginii, următoarele treceri (paşi) rafinând-o progresiv. Acest mod este util pentru codificarea imaginilor care trebuie transmise la distanţă, dacă timpul necesar transferului datelor este mare, pentru ca utilizatorul final să-şi poată face o idee asupra conţinutului imaginilor după ce a fost transmisă o cantitate mică de date.

Principalul dezavantaj al modului progresiv este dificultatea implementării sale în comparaţie cu modul secvenţial. Modul progresiv este cel mai potrivit atunci când puterea de calcul depăşeşte viteza relativă de transmisie a imaginii. În general, dimensiunea fişierelor cu imaginile codificate folosind modul progresiv este aproximativ aceeaşi ca în cazul utilizării modului secvenţial.

• Modul ierarhic este unul super-progresiv, în care imaginea este împărţită într-un

Page 55: CURS Tehnici Multimedia

- 55 -număr de subimagini numite cadre (frame-uri). Un cadru este obţinut în unul sau maimulţi paşi. În modul ierarhic, primul cadru creează o versiune a imaginii cu o rezoluţiescăzută, iar cadrele rămase rafinează imaginea crescându-i rezoluţia.Modul ierarhic este mai bun decât cel progresiv pentru transmiterea imaginii la

distanţă la o rată de transmisie scăzută, dacă este acceptabilă o rezoluţie scăzută a imaginii, caz în care nu trebuie transmise toate cadrele. Dezavantajul principal al modului ierarhic este complexitatea implementării sale. Utilizarea cadrelor multiple duce la creşterea volumului datelor care trebuie transmise. În general, în practică acest mod se foloseşte rar.

• Modul fără pierdere de date - în forma sa iniţială standardul JPEG definea un modde compresie fără pierdere de date. În mod evident compresia fără pierdere de date nupoate atinge o rată de compresie egală cu cea a unui algoritm cu pierdere de date. Maimult, în majoritatea aplicaţiilor acesta nu realiza numai compresia ci şi formatareadatelor disponibile.

Numai o parte a modurilor definite de JPEG sunt folosite pentru compresia imaginilor bitmap. Motivul principal este multitudinea de variante definite de JPEG pentru a realiza acelaşi lucru; un decodor care ar putea interpreta orice variantă a JPEG ar fi foarte mare şi complex. În plus, standardul JPEG nu este gratis, fiind chiar foarte scump în timp ce alte formate grafice sunt gratuite.

Unul din principalele avantaje ale standardului JPEG este că el nu defineşte un format de fişier. Standardul JPEG nu precizează operaţiile ce trebuie implementate pentru a crea imagini care pot fi schimbate între diferite aplicaţii; nu precizează cum sunt reprezentate culorile dar se ocupă de modul în care sunt stocate valorile componentelor. Nu există nici o definiţie a modului în care sunt mapate valorile componentelor în spaţiul culorilor. Cu toate că este un standard flexibil, independent de spaţiul culorilor este imposibil de implementat. Acest gol a fost umplut de JFIF (JPEG File Interchange Format) creat de Eric Hamilton, care defineşte o variantă de fişier pentru implementarea formatului JPEG. JFIF a devenit sinonim cu fişierul JPEG.

Organizaţia JPEG a creat un format de fişier standard numit SPIFF (Still Picture Interchange File Format) cu intenţia de a înlocui JFIF, dar SPIFF a apărut prea târziu, JFIF fiind utilizat de prea mult timp ca să poată fi înlocuit cu uşurinţă. SPIFF conţine câteva elemente pentru implementarea software a JPEG dar este complex, motiv pentru care decodoarele JPEG nu implementează toate funcţionalităţile acestuia, JFIF rămânând cel mai bun format de fişier care implementează JPEG.

Cel mai folosit mod de lucru al JPEG este modul secvenţial care este organizat în patru etape principale, figura 3.1:

Page 56: CURS Tehnici Multimedia

- 56 -

1. Pregătirea imaginii şi a blocurilor (eşantionarea) - pixelii care formează imaginea sunt convertiţi din format RGB (Red Green Blue) în spaţiul de culori YCbCr şi se realizează down-sampling (reducerea numărului de puncte cu date, pentru fiecare componentă).

2. Transformarea cosinus discretă (TCD) - imaginile JPEG sunt formate din blocuri de 8x8 pixeli numite unităţi de date. Transformarea cosinus discretă converteşte valorile unităţii de date într-o serie de funcţii cosinus.

3. Cuantificarea - elimină coeficienţii TCD care nu sunt esenţiali în recrearea unei aproximări cât mai apropiate de original. Cuantificarea este principala operaţie care face din JPEG o schemă de compresie cu pierdere de date.

4. Codificarea Huffman/ aritmetică - codifică coeficienţii TCD cuantificaţi eliminând şirurile de valori 0. În standardul JPEG această fază este şi numită codificare entropică deoarece standardul JPEG permite utilizarea codificării artimetice în locul codificării Huffman.

1. Pregătirea imaginii şi a blocurilor

Pentru reprezentarea unei imagini bitmap, se folosesc una sau mai multe matrice de valori. În cazul unei imagini monocrome se foloseşte o singură matrice pentru reprezentarea imaginii, care să stocheze setul de valori pe 8 biţi pentru tonurile de gri care compun imaginea. Dacă imaginea e reprezentată în formatul RGB, sunt necesare trei matrice, câte una pentru fiecare culoare cuantificată. Setul de valori din fiecare matrice este comprimat separat folosind transformarea cosinus discretă. Înaintea aplicării transformării cosinus discrete, pentru fiecare matrice, trebuie realizată pregătirea blocurilor. Acest pas este necesar doarece pentru a calcula valoarea transformată pentru fiecare poziţie dintr-o matrice este necesar ca valorile matricei să fie deja prelucrate. Aplicarea transformării cosinus discrete întregii matrice, într-un singur pas, este o operaţie consumatoare de mult timp, motiv pentru care mai întâi se împarte matricea iniţială într-un set de submatrice de dimensiune 8x8. Fiecare submatrice este numită bloc, iar blocurile sunt transmise pentru transformare, pe rând, TCD-ului.

2. Transformarea cosinus discretă (TCD)

Transformarea cosinus discretă este componenta principală a compresiei JPEG. O transformare este o operaţia care realizează o corespondenţă între componentele unui set şi componentele unui alt set de date. Inversa TCD este TCDI, de accea TCD mai este numită şi

Page 57: CURS Tehnici Multimedia

- 57 -forward TCD. TCD este strâns legat de transformarea Fourier. TCD şi TCDI sunt folosite pentru prelucrarea datelor organizate în blocuri de dimensiune 8x8. Dacă TCD şi TCDI sunt realizate în secvenţă folosind o precizie infinită, rezultatul obţinut va fi identic cu valorile de intrare. Insă calculatoarele nu lucrează cu precizie infinită şi, în plus, în timpul compresiei JPEG toate valorile TCD sunt rotunjite la întregi, ceea ce înseamnă că procesul TCD folosit la compresia şi decompresia imaginii introduce o eroare de rotunjire. Eroare este mică, dar ea există.

Coeficienţii TCD pentru n=1 sunt numiţi coeficienţi DC, ceilalţi sunt coeficienţi AC, numele fiind atribuite prin similitudine cu domeniul electricităţii (DC - curentul de voltaj constant iar AC - voltaj variabil descris folosind o curbă sinusiodală). În standadrul JPEG coeficienţii AC şi DC sunt codificaţi diferit.

Fiecare valoare a unui pixel este cuantificată folosind 8 biţi, obţinându-se astfel o valoare în intervalul 0 - 255 pentru intensitate/ luminanţă - valorile R,G,B sau Y şi o valoare în intervalul -128, +127 pentru cele 2 valori ale crominanţei Cb, C r. Pentru a calcula TCD, toate valorile sunt mai întâi centrate în jurul lui 0. Apoi, dacă matricea de intrare 2D este reprezentată prin P(x,y), iar matricea transformată prin F(i,j), TCD pentru fiecare bloc 8x8 de valori este calculat folosind expresia:

3. CuantificareaDupă aplicarea transformatei cosinus-discrete, urmează identificarea şi eliminarea coeficienţilor nesemnificativi. Dacă valoarea unui coeficient de frecvenţă este mai mică decât un anumit prag, ochiul nu o va detecta. Acest lucru este exploatat în etapa de cuantificare prin scăderea, în practică dând valoarea 0, a coeficienţilor spaţiali ai frecvenţei din matricea transformată, a căror amplitudine este mai mică decât valoarea unui prag. Standardul JPEG defineşte un mecanism simplu pentru a realiza acest lucru, cunoscut sub numele de cuantificare.

În afara determinării coeficienţilor care sunt deasupra pragului definit, procesul de cuantificare are ca scop reducerea dimensiunii coeficienţilor DC şi AC astfel încât să fie necesară o bandă de dimensiune mai mică pentru transmiterea lor. În acest sens se realizează împărţirea valorii coeficienţilor la valoarea pragului. În mod evident, acest lucru duce la pierderea preciziei astfel încât la decodare nu se va obţine acelaşi lucru ci o valoare apropiată de cea iniţială. În practică, valorile folosite pentru prag diferă pentru fiecare din cei 64 de coeficienţi TCD. JPEG foloseşte pentru aceştia o matrice 8x8 numită tabelul de cuantificare pentru a defini valori de cuantificare pentru o imagine. Este posibilă utilizarea de tabele de cuantificare multiple astfel încât diferiţi coeficienţi TCD sunt cuantificaţi utilizând diferite valori. Standardul JPEG nu precizează valorile de cuantificare care vor fi folosite ci o pereche de tabele de cuantificare care au fost alese empiric şi care au generat rezultate bune. Alegerea valorilor pragului este importantă, iar în practică se face un compromis între nivelul de compresie care trebuie atins şi volumul acceptabil al datelor care pot fi pierdute.

Deşi standardul JPEG conţine două tabele cu valori implicite de cuantificare - unul pentru a fi folosit cu coeficienţii de luminanţă şi altul pentru a fi folosit cu cele două seturi ale coeficienţilor de crominanţă - se permite şi folosirea de tabele personalizate, trimise împreună

Page 58: CURS Tehnici Multimedia

- 58 -cu imaginea comprimată.

4. Codificarea entropică este împărţită în patru faze: vectorizarea, codificarea diferenţială, codificarea run-length şi codificarea Huffman sau codificarea aritmetică.

• Vectorizarea - algoritmii de codificare entropică operează pe vectori de valori.Dar rezultatul etapei de cuantificare este o matrice, astfel că înainte să se poată aplica orice codificare entropică asupra setului de valori ale matricei trebuie să se reprezinte valorile sub forma unui vector. Această operaţie este numită vectorizare.

Dacă se vectorizează matricea folosind o abordare de tip linie-cu-linie, vectorul de 64 elemente rezultat va conţine un amestec de valori 0 şi diferite de 0. În general acest mod de structurare a informaţiilor nu duce la compresie. Pentru a exploata numărul mare de zerouri existente în matricea de cuantificare se foloseşte pentru liniarizarea matricei, parcurgerea în zig-zag ca în figura 3.2. Valorile din tabelele de cuantificare sunt stocate în fişierele JPEG folosind ordonarea zig-zag.

Figura 3.2 - Vectorizarea folosind parcurgerea în zig-zag

Mai întâi se parcurg coeficienţii DC şi coeficienţii AC de frecvenţă scăzută, atât pe orizontală cât şi pe verticală. De asemenea, toţi coeficienţii de frecvenţă mai mare sunt într-o ordine secvenţială astfel încât această formă de reprezentare devine mai potrivită operaţiei de compresie. Valorilor din vector le sunt aplicate, în paralel, două scheme diferite de codificare. Prima este codificarea diferenţială care este aplicată numai coeficientul DC şi a doua este o codificare run-length care este aplicată valorilor rămase în vectorul ce conţine coeficienţii AC.

• Codificarea diferenţială - Primul element în fiecare bloc transformat este coeficientul DC, care este o măsură a mediei culoare/luminanţă/crominanţă a blocului 8x8 de codificat. În consecinţă, acesta este cel mai important coeficient şi datorită acestui lucru, precizia lui este păstrată, în timpul fazei de cuantificare, cât mai mare. Din cauza suprafeţei fizice mici acoperite de fiecare bloc, coeficientul DC variază foarte puţin de la un bloc la următorul. Cel mai eficient tip de compresie pentru această modalitate de structurare a datelor este codificarea diferenţială, deoarece aceasta codifică în principal diferenţa dintre fiecare pereche de valori dintr-un şir şi nu valorile absolute. Ca urmare, această aplicaţie va codifica numai diferenţa în valoare a coeficientului DC într-un bloc cuantificat, relativ la valoarea din blocul precedent. În acest mod, numărul de biţi necesari pentru a codifica valorile relative mari ale coeficienţilor DC este redus. Prima valoare a diferenţei este codificată relativ la valoarea 0. Valorile diferenţei sunt codificate în forma (sss,valoare) unde câmpul sss indică numărul de biţi necesari pentru a codifica valoare şi câmpul valoare conţine biţii care reprezintă valoarea. Numărul biţilor necesari pentru codificarea fiecărei valori este determinat de magnitudinea sa. O valoare pozitivă este apoi codificată folosind forma binară fără semn şi o valoare negativă prin complementarea acesteia.

• Codificarea run-length - cele 63 de valori rămase de codificat sunt coeficienţii AC

Page 59: CURS Tehnici Multimedia

- 59 -şi datorită parcurgerii în zig-zag, vectorul conţine şiruri lungi de zerouri. Pentru a folosi această caracteristică, coeficienţii AC sunt codificaţi sub forma unui şir de perechi de valori.Fiecare pereche este formată din (salt, valoare) unde, salt este numărul de zerouri succesive, iar valoare este următorul coeficient diferit de 0. Valoarea este codificată în forma sss/valoare.

• Codificarea Huffman - se pot obţine niveluri semnificative ale compresie prin înlocuirea şirurilor lungi de valori binare printr-un şir de chei mai scurte, lungimea fiecărei chei fiind o funcţie a frecvenţei relative de apariţie. În mod normal un tabel cu chei este utilizat cu setul de chei calculat anterior folosind algoritmul de codificare Huffman. Aceeaşi metodă este folosită la codificarea ieşirii codificatorilor diferenţial şi run-length. Pentru coeficienţii DC din bloc, codificaţi diferenţial, biţii din câmpul sss nu sunt transmişi în forma lor binară fără semn ci într-o formă codificată Huffman. Acest lucru este realizat astfel încât biţii din câmpul sss au proprietatea de prefix şi acest lucru permite decodorului să determine primul câmp sss primit de la receptor, codificat ca flux de biţi. Pentru fiecare dintre coeficienţii AC ai blocului, codificaţi run-length, biţii care formează câmpurile salt şi sss sunt trataţi ca un singur simbol (compus) şi acesta este apoi codificat utilizând fie cheile tabelului Huffman implicit sau tabelul de coduri care este transmis odată cu fluxul de biţi codificat.Pentru a permite decodorului să facă diferenţa dintre câmpurile salt şi sss fiecare combinaţie a două câmpuri este codificată separat, iar simbolul compus este apoi înlocuit de codul Huffman echivalent.

Pentru a decoda fluxul de biţi recepţionat, receptorul analizează mai întâi fluxul de biţi - începând cu bitul cel mai din stânga - pentru un cod valid şi la găsirea acestuia determină câmpurile salt şi sss corespunzătoare din tabelul Huffman. Câmpul sss este apoi utilizat pentru a determina numărul de biţi din câmpul de valori run-length şi după citirea şi decodarea acestuia. Procesul se repetă până când este primit codul EOB, indicând faptul că toţi coeficienţii rămaşi sunt 0. Din cauza utilizării codurilor de lungime variabilă în diferite părţi ale etapei codificării entropice, aceasta este cunoscută ca etapa codificării cu lungime-variabilă (VLC).

Construirea cadrelorÎn mod obişnuit ieşirea fluxului de biţi creat de codificatorul JPEG este păstrată în

memoria calculatorului pregătită fie pentru integrarea cu alte date media, dacă este necesar, sau pentru accesarea de pe un alt calculator aflat la distanţă. Pentru ca un decodor aflat pe un calculator la distanţă să fie capabil să interpreteze câmpurile diferite şi tabelele folosite este necesar să se delimiteze fiecare câmp şi set de valori tabelare în modul definit.

Standardul JPEG include o definire a structurii fluxului de biţi asociat unei anumite imagini. Acesta este cunoscut ca un cadru (frame) iar structura lui este prezentată în figura 3.3.

Rolul proiectantului cadrului este de încapsulare a tuturor informaţiilor despre codificarea unei imagini într-un format cu structură ierarhică. La nivel superior, cadrul şi antetul sunt încapsulate între delimitatorul de început şi de sfârşit ale cadrului, ceea ce permite receptorului să determine începutul şi sfârşitul tuturor informaţiilor legate de o imagine completă. Antetul cadrului conţine informaţii despre:

- lăţimea şi înălţimea imaginii;- numărul şi tipul componentelor utilizate pentru a reprezenta imaginea,- formatul utilizat la digitizare (4:2:2, 4:2:0 etc.).

La al doilea nivel, un cadru este format dintr-un număr de componente, fiecare din acestea fiind cunoscută ca un pas. Acestea sunt precedate la rândul lor de un antet care conţine:

- identitatea componentelor (R/G/B etc.);- numărul de biţi utilizaţi pentru digitizarea fiecărei componente;- tabelul valorilor de cuantificare utilizat pentru a codifica fiecare componentă.

În mod obişnuit, fiecare pas conţine unul sau mai multe segmente fiecare format dintr-un grup de 8*8 blocuri precedate de un antet. Acesta conţine tabelul Huffman cu valori utilizate pentru

Page 60: CURS Tehnici Multimedia

- 60 -a codifica fiecare bloc, în segmentul în care nu sunt utilizate tabelele implicite. În acest fel, fiecare segment poate fi decodat independent de altele şi astfel se înlătură posibilitatea propagării erorilor în alte segmente. Astfel că, fiecare cadru complet conţine toate informaţiile necesare care permit decodorului JPEG să identifice fiecare componentă din cadrul recepţionat şi apoi să realizeze operaţia corespunzătoare de decodare.

Compresia video – MPEG

Principalele motive pentru care este necesară compresia video sunt:1. Secvenţele video necomprimate necesită un spaţiu de stocare mare,2. Limitele reţelelor implementate la acest moment nu ar garanta calitatea transmisiilor

video în timp real. Codificarea video MPEG, care s-a impus ca standard de compresie a datelor video,

foloseşte, în principal, două metode de comprimare a datelor video:

• Compensarea mişcării - exploatează faptul că frame-urile adiacente ale secvenţelor video sunt, de obicei, foarte asemănătoare, astfel încât multe părţi (macroblocuri) ale cadrului Ii pot fi aproximate din părţi ale cadrului anterior, Ii-1, numit cadru de referinţă Diferenţele dintre macroblocurile celor două cadre necesită, pentru codificare, mai puţin spaţiu, decât codificarea întregului cadru. Efectul este o compresie semnificativă a datelor.

Un raport de comprimare mai ridicat se poate obţine dacă în momentul codificării unui cadru putem dispune de cadrele precedent şi următor, caz în care se poate folosi compensarea mişcării pentru a utiliza o zonă mai mare din cadrul care este în curs de codare, reducând astfel numărul de biţi necesari codării cadrului. Un cadru obţinut dintr-un cadru precedent este

cadru P (forward sau Predicted), iar un cadru obţinut din cel precedent şi cel următor este cadru B (bidirecţional). Un cadru codat fără compensarea mişcării (adică folosind doar TCD) este cadru I (intracoded).

Compresia cadrelor de tip P şi B se realizează prin compensarea mişcării, realizând o estimarea a blocului plecând de la cadrele de referinţă. La codarea unui macrobloc dintr-un cadru de tip P sau B, se identifică macroblocul cel mai asemănător, din cadrele de referinţă disponibile şi se codează numai vectorul de mişcare, adică valorile deplasării, pe cele două

Page 61: CURS Tehnici Multimedia

- 61 -axe faţă la respectivul macrobloc. Asemănarea între macroblocul prezis şi cel real nu este întotdeauna perfectă şi de aceea diferenţa dintre cele două macroblocuri, numită termen de eroare, este codată folosind TCD.

• Codarea entropică. După compensarea mişcării şi aplicarea transformării cosinus discrete, se realizează codarea Huffman a datelor rezultate. Operaţiile necesare reconstituirii unui cadru YCrCb sunt:

• Realizarea inversei codării entropice,• Reconstituirea vectorilor mişcării ai cadrelor tip P şi B şi copierea părţilor

corespunzătoare din cadrele de referinţă,• Aplicarea transformării IDCT - Inverse Discrete Cosine Transform.Odată cadrul YCrCb reconstituit, el trebuie convertit într-o reprezentare care să poată fi afişată pe ecran. Această conversie se numeşte dithering.

Standardele video MPEGMPEG a fost creat de ISO cu scopul de a formula un set de standarde legate de aplicaţii multimedia care presupun folosirea de video şi sunet. Rezultatul este format dintr-un set de standarde referitoare fie la înregistrarea sau la transmiterea fluxurilor audio şi video integrate, fiecare destinat unui anumit domeniu de aplicaţii şi descrie modul de compresie şi integrare a datelor audio cu cele video.

Implementări ale standardului MPEG

MPEG-1 - standard pentru stocarea şi regăsirea datelorScopul MPEG-1 constă în codificarea imaginilor în mişcare şi a secvenţei audio

asociate pentru medii de stocare digitale de până la 1,5 Mb/s, care era rata de transfer a unui cititor CD-ROM. Standardul conţine cinci părţi: (1) Sisteme, (2) Video, (3) Audio, (4) Testarea conformităţii şi (5) Simulare software. Prima parte specifică modul de compunere a părţilor (2) şi (3), partea (4) conţine proceduri de verificare a conformităţii decodorului sau fluxului de biţi cu specificaţiile primelor trei părţi, iar partea (5) conţine software de referinţă.

MPEG-1 este primul standard care defineşte procesul de decodare. Decodorul însă nu este definit în standard. Este primul standard care oferă implementare completă şi este independent de formatul video, precum NTSC, PAL sau SECAM.

Cel mai mare succes al MPEG-1 îl reprezintă MPEG-1 Audio Layer III, cunoscut şi sub denumirea MP3 care este parte integrantă a aplicaţiilor audio actuale.

Dimensiunile imaginilor folosite de acest sistem sunt relativ mici (352x288). Acest format se numeşte "sfert de imagine" datorită numărului de pixeli folosiţi, care corespunde unui sfert din pixelii unei imagini de televiziune în format standard profesional pe 625 linii.

Imaginile TV au o cadenţă riguros respectată (25 de imagini pe secundă, durata unei imagini fiind de 40 milisecunde), iar informaţiile conţinute în imagine trebuie să fie tratate în acest interval de timp. Dacă acest lucru nu este respectat, vom avea imagini sacadate şi deteriorări ale scenei reproduse.

MPEG-2 - standard pentru televiziunea digitală

Page 62: CURS Tehnici Multimedia

- 62 -

Scopul oficial al MPEG-2 a fost codarea generică a imaginilor în mişcare şi a secvenţelor audio asociate. În practică, este cunoscut ca standard pentru televiziunea digitală pentru că este proiectat pentru rezoluţii mari, necesare în televiziunea digitală de înaltă calitate. Pentru a asigura un standard generic, MPEG-2 defineşte profiluri şi niveluri pentru a susţine caracteristicile necesare unei anumite clase de aplicaţii. Conceptul de profiluri şi niveluri formează o matrice care funcţionează ca un suport pentru toate activităţile standard asociate cu MPEG-2. În majoritatea aspectelor, MPEG-2 reprezintă dezvoltări ale standardului MPEG-1.MPEG-2 introduce un multiplexor pentru fluxuri elementare audio şi video care este potrivit pentru stocare şi transmitere. Acesta este folosit într-un mediu fără erori şi este similar sistemelor MPEG-1.

Contribuţia cea mai importantă la succesul MPEG-2 a fost DVD.În anul 1993 a fost definit Standardul MPEG 2, care nu se mai rezumă la a fi un simplu algoritm de comprimare video, ci standardizează un sistem complet, definind în acelaşi timp o formă de transport, control şi stocare a datelor.

MPEG-2 a fost studiat pentru a fi utilizat într-un mediu digital (TV) dar şi pentru a eficientiza compresia video. Acest standard defineşte o grilă de debite maxime în funcţie de doi parametri numiţi LEVELS (niveluri) şi PROFILES (profiluri). Cele patru niveluri definesc formatul de intrare al imaginilor, formatul sfert de imagine şi formatul HDTV (High-Definition TeleVision).

Profilurile determină metodele de comprimare care vor fi utilizate. Practic sunt în număr de cinci, fiind clasate în ordinea crescătoare a complexităţii. Progresia exprimă utilizarea de metode suplimentare în raport cu profilul precedent, dar un profil de un nivel dat acceptă şi decodifică profilele precedente, existând o compatibilitate ascendentă.Algoritmul MPEG-3 este dedicat aplicaţiilor de televiziune de înaltă definiţie (HDTV), dar s-a renunţat repede la folosirea lui, în prezent HDTV fiind inclus în nivelul High 1440 al algoritmului MPEG2.

MPEG-4 - standard pentru producţie multimedia, distribuţie şi acces la conţinut multimedia

Scopul MPEG-4 a fost codificarea obiectelor audio-vizuale şi se bazează în principal pe următoarele aplicaţii: televiziune digitală, aplicaţii grafice interactive şi multimedia interactivă. Ţintele standardului MPEG-4 pot fi împărţite în trei categorii: furnizarea tehnologiilor pentru satisfacerea nevoilor producătorilor de conţinut, ale furnizorilor de

Page 63: CURS Tehnici Multimedia

- 63 -servicii în reţea şi ale utilizatorilor finali. Pentru producătorii de conţinut, MPEG-4 permite compunerea temporală şi spaţială a scenelor complexe ce integrează diferite tipuri media precum audio, video, text simplu şi obiecte 2D şi 3D. Descrierea acestor scene poate fi comprimată folosind Binary Format for Scenes (BIFS) pentru o transmisie eficientă în reţea. În plus, în MPEG-4 a fost introdus un mecanism îmbunătăţit de protecţie şi gestiune a conţinutului. Tipurile media enumerate pot fi referite ca entităţi diferite care permit utilizatorului final un nivel mai mare de interacţiune cu conţinutul multimedia. Mecanismele de multiplexare şi sincronizare permit transportul într-o serie de reţele cu topologii diferite. În plus, MPEG-4 oferă un descriptor generic pentru calitatea serviciilor (QoS), pentru diferite tipuri media MPEG-4.

Digital Media Integration Framework (DMIF) este partea esenţială a standardului MPEG-4. În MPEG-4 nu există diferenţe între stocarea într-un fişier şi transmiterea în reţea a informaţiilor, ambele funcţionalităţi fiind furnizate prin Delivery Application Interface (DAI) care este parte a DMIF. Structura face distincţie între nivelul de sincronizare (SL), nivelul de multiplexare (FML-FlexMux) şi nivelul transport (TML-TransMux). Pentru transmiterea conţinutului multimedia, obiectele media sunt reprezentate ca fluxuri elementare care sunt mai întâi împachetate în pachete de sincronizare a nivelului echipate cu informaţii privind eşalonarea cadrelor în timp (CTS) şi informaţii necesare decodării. Pachetele sunt transmise prin DAI şi pot fi multiplexate de instrumentele FlexMux. Se introduce unul din canalele TransMux (RTP, TCP/IP sau Systems MPEG-2) în pachete.

Iniţial, standardul MPEG 4 era destinat unei serii de aplicaţii similare celor ale standardului H. 263, care rulau pe canale cu rate foarte mici de transfer: între 4,8 şi 64 kbps. Mai târziu a fost extins, incluzând o serie de aplicaţii multimedia interactive, derulate pe Internet, precum şi unele tipuri diferite de sisteme de instruire. Standardul conţine caracteristici care permit unui utilizator şi manipularea elementelor individuale care compun o secvenţă video, pe lângă folosirea de comenzi de derulare a clipurilor video. El poate fi folosit şi ca o alternativă la standardul H. 263.

Standarde pentru descrierea datelor multimedia

Au fost iniţiate o serie de proiecte de cercetare pentru dezvoltarea de componente ce facilitează gestiunea, descrierea şi regăsirea resurselor multimedia folosind metadate. Proiectele de cercetare care probabil vor duce la elaborarea unor standarde generale pentru resursele multimedia folosite în mediul Internet sunt: Dublin Core Standard, Metadata Dictionary SMPTE (Society of Motion Picture and Television Engineers), MPEG-7 şi MPEG-21.

Aceste patru standarde sunt generale, adică nu sunt dedicate unor tipologii de aplicaţii, au aplicabilitate în cele mai diverse domenii şi sunt susţinute de organizaţii internaţionale de prestigiu în domeniu.

Dublin Core foloseşte ca suport pentru descrierea resurselor multimedia un set de metadate care facilitează detectarea resurselor în format electronic. Dublin Core este folosit pentru descrierea resurselor multimedia ale unor arhive de televiziune.

Metadata Dictionary SMPTE este o mare colecţie de nume şi tipuri de date, majoritatea dezvoltate pentru televiziune şi industria video, care formează membrii SMPTE. Proiectul propune o metodă universală de gestiune a resurselor şi o modalitate ierarhică de structurare, folosită pentru dezvoltarea de mecanisme pentru formatarea datelor în televiziune şi sisteme video. Majoritatea metadatelor folosite sunt atribute specifice mediilor. Dezavantajul acestui sistem este dat de faptul că nu pot fi utilizate adnotări semantice.

MPEG-7 este un standard pentru metadate multimedia bazat pe XML, standard ce propune elemente descriptive pentru întregul ciclu de prelucrări multimedia, de la captură (de

Page 64: CURS Tehnici Multimedia

- 64 -exemplu clasificarea dispozitivelor), la analiză şi filtrare (de exemplu, descriptori pentru datele multimedia), la distribuţie (de exemplu, descriptori ai mediilor) şi până la interacţiunea cu utilizatorii finali (de exemplu descriptori care conţin preferinţele utilizatorilor).

MPEG-7 poate fi folosit pentru descrierea fluxului metadatelor în aplicaţiile multimedia şi este mai eficient decât standardul Dublin Core, deoarece MPEG-7 permite codificarea tipurilor datelor şi poate include informaţii legate de algoritmii de compresie folosiţi pentru fluxurile de date. În plus, încercările de extindere a standardului Dublin Core pentru descriea întregului ciclu de prelucrare a datelor multimedia au eşuat, deoarece este imposibil de descris atât structura cât şi detaliile conţinutului video utilizând elemente ale Dublin Core.

Descrierea conţinutului multimedia folosind standardul MPEG-7Facilităţile de achiziţie, producere şi distribuire a conţinutului audiovizual au crescut

odată cu apariţia standardelor MPEG-1, MPEG-2 şi MPEG-4. Acest fapt atrage după sine creşterea dificultăţilor în gestiunea, regăsirea şi filtrarea conţinutului audiovizual. Dar, în anumite aplicaţii, conţinutul multimedia este util numai dacă poate fi disponibil într-un timp scurt. Standardele MPEG au încercat să rezolve problemele legate de identificarea conţinutului audiovizual şi de gestiune a acestuia prin standardizarea modalităţilor de descriere a diferitelor tipuri de date audio-video: elemente multimedia de sine stătătoare, aplicaţii complexe şi depozite de date, fără a face însă referire la formatul de reprezentare şi mediul de stocare a datelor.

Prezentare generală

MPEG a lansat în 1996 proiectul MPEG-7 cu scopul de a răspunde unor cerinţe specifice aplicaţiilor multimedia, dar de această dată specificaţiile nu se referă la modul de reprezentare a datelor, ci a datelor despre date, adică la metadate.

Standardul MPEG-7 permite descrierea standardizată a diferitelor tipuri de date multimedia. Descrierea este asociată conţinutului multimedia, permiţând astfel căutare eficientă şi rapidă în cadrul datelor multimedia. Standardul MPEG-7 este formal numit Interfaţă pentru descrierea conţinutului multimedia. Standardul nu include instrumente pentru extragerea automată sau manuală a descrierilor sau caracteristicilor, nu face referiri la motoare de căutare sau alte programe care folosesc descrierile MPEG-7 ci poate fi folosit pentru a înregistra metadatele şi pentru a realiza căutări în orice tip de obiect multimedia, înregistrări audio-video, imagini statice etc.

Soluţiile propuse sunt independente de tipul şi formatul datelor multimedia, sunt extensibile şi oferă posibilităţi de descriere unitară a caracteristicilor, cu diferite niveluri de abstractizare: de la informaţii de nivel scăzut, caracteristici extrase automat sau informaţii statistice despre datele multimedia, până la caracteristici de nivel înalt asociate semanticii datelor.

MPEG-7 permite ierarhizarea descrierilor datelor multimedia, folosind pentru descriere niveluri diferite de profunzime. Caracteristicile descriptive ale datelor multimedia diferă de la o categorie de utilizatori la alta şi de la o aplicaţie la alta, deoarece aceste informaţii trebuie să aibă semnificaţie pentru categoria de utilizatori cărora le sunt dedicate. Luând exemplul unei secvenţe video care conţine un peisaj, un nivel scăzut de descriere poate conţine informaţii privind forma, dimensiunile, culorile, traiectoria, textura şi poziţiile elementelor componente. Nivelul cel mai înalt al descrierii va conţine informaţii semantice ale secvenţei, ca de exemplu: copaci verzi, în spatele cărora se văd munţii acoperiţi de zapadă etc. Pot fi folosite şi niveluri intermediare de abstractizare. Descrierile de nivel scăzut se pot realiza automat, prin extragerea automată a caracteristicilor din datele multimedia, dar descrierile de nivel înalt necesită, de obicei, intervenţia umană. Caracteristicile descriptive de nivel scăzut (formatul datelor, dimensiunea cadrelor unei secvenţe video etc.) sunt folosite pentru stabilirea compatibilităţii dispozitivelor folosite de diferiţi utilizatori, cu tipul datelor care trebuie afişate. Pot fi incluse condiţionări pentru accesarea datelor, informaţii despre

Page 65: CURS Tehnici Multimedia

- 65 -drepturile de proprietate intelectuală şi preţul accesării informaţiilor.

Plecând de la principiul standardelor MPEG, prin care acestea trebuie să conţină doar elementele strict necesare, MPEG-7 indică formatul descriptorilor şi modalitatea de codificare, dar nu oferă soluţii de creare a descrierilor şi modalităţi de utilizare a acestora, acestea fiind lăsate la latitudinea dezvoltatorilor de aplicaţii.

Domeniile de aplicabilitate ale MPEG-7 sunt următoarele:-selecţia informaţiilor media difuzate pe canalele TV şi radio, serviciile culturale ale muzeelor, galeriilor de artă etc.,

- biblioteci digitale, ca de exemplu dicţionare muzicale, catalog de imaginimedicale, arhive radio, arhive cu filme şi arhive video,-depozite de cursuri multimedia,

- în servicii de investigaţii, aplicaţii de recunoaştere a persoanelor în funcţie deanumite caracteristici,

-în jurnalism pentru căutarea discursului unui politician, de exemplu, în funcţie de numele său, de voce sau de imaginea feţei, -în furnizarea de informaţii în formate multimedia precum: informaţii turistice etc.,-în sisteme informatice geografice,-în domeniul editării datelor în format multimedia şi în sistemele de creaţie

multimedia,-servicii de supraveghere: precum controlul traficului.

Elementele componente ale standardului MPEG-7

Principalele elemente componente folosite de standardul MPEG-7 sunt: • Descriptorii (D) - reprezintă modalitatea de reprezentare a caracteristicilor datelor

şi definesc sintaxa şi semantica caracteristicilor datelor multimedia. Ocaracteristică este un element distinctiv al datelor cu o anumită semnificaţie, ca deexemplu un şir de caractere pentru indicare titlului unui film, o dată numericăpentru reprezentarea duratei filmului etc.

Descriptorii MPEG-7 pot fi exprimaţi în două moduri: textual, folosind limbajul pentru descriere a definiţiei (Description Definition Language - DDL) şi sub formă de fluxuri binare, folosind formatul binar al MPEG-7, numit BiM.

• Scheme descriptive (SD) - specifică structura şi semantica relaţiei dintrecomponentele sale, componente care pot fi descriptori sau alte scheme descriptive.De exemplu, un film este structurat din punct de vedere temporal ca o succesiunede cadre şi poate conţine descriptori textuali, la nivelul scenelor şi descriptori aicromaticii, ai poziţiei elementelor componente şi ai amplitudinii semnalului audiola nivelul cadrelor.

• Instrumente pentru descrierea conţinutului - se folosesc pentru definireasintaxei şi semanticii caracteristicilor datelor multimedia (metadatele) şi aschemelor descriptive ale datelor.

• Limbajul pentru descrierea definiţiei (DDL) - defineşte sintaxa instrumentelordescriptive ale MPEG-7 şi permite crearea descriptorilor, a schemelor descriptiveşi actualizarea schemelor descriptive existente.

• Scheme de clasificare - definesc o listă de termeni folosiţi în mai multe aplicaţiimultimedia, indicând şi semnificaţia termenilor.

• Instrumente ale sistemului - sunt folosite pentru reprezentarea informaţiilor în format binar în vederea stocării şi transmiterii eficiente.

Page 66: CURS Tehnici Multimedia

- 66 -În figura 3.5 este prezentată relaţia dintre principalele elemente componente ale

MPEG-7.

Instrumentelele pentru descrierea conţinutului sunt folosite pentru crearea descrierilor. Acestea iau forma unui set de scheme descriptive instanţiate, structura lor fiind folosită pentru clasificarea informaţiilor, iar descriptorii pentru definirea conţinutului.

Schemele descriptive conţin, în general:• Informaţii privind procesul de creaţie şi de producere a conţinutului: numele

regizorului, titlul filmului, câteva caracteristici ale filmului;• Informaţii despre utilizarea conţinutului, informaţii despre drepturi de autor,

programul de difuzare, modul de utilizare a înregistrării;• Informaţii despre caracteristicile mediului de stocare a conţinutului: formatul de

stocare şi de codificare a informaţiilor;• Informaţii despre caracteristicile de nivel scăzut ale conţinutului: pal eta de culori,

texturile, amplitudinea sunetului etc.;• Informaţii structurale ale componentelor spaţiale, temporale sau spaţio-temporale ale

conţinutului, de exemplu eliminarea unor scene în anumite condiţii de difuzare;• Informaţii despre modul de parcurgere a conţinutului: folosind un cuprins/meniu,

descrierea modificărilor datelor, informaţii legate de cedarea controlului unei altesecvenţe etc.;

• Informaţii despre colecţii de obiecte;• Informaţii despre interacţiunea utilizatorului cu conţinutul; preferinţele utilizatorului,

istoricul folosirii.Datele MPEG-7 pot fi conţinute în acelaşi flux de date cu fluxul audio-video, pot fi

stocate pe acelaşi calculator, sau pe un alt calculator din reţea, sau pot fi stocate într-o bază de date.

MPEG-7 foloseşte o schemă XML pentru reprezentarea textuală a descrierilor, permiţând interoperabilitatea cu alte sisteme.

Datele MPEG-7 sunt asociate conţinutului audio-video format din imagini statice, grafice, secvenţe audio, voce şi informaţii de compoziţie despre elemente multimedia şi pot fi combinate într-o prezentare multimedia.MPEG-7 se ocupă de diferite tipuri de aplicaţii, mai ales de cele care funcţionează în medii diferite, ceea ce înseamnă că trebuie să ofere un suport flexibil şi extensibil pentru datele audio-video. De aceea, MPEG-7 nu defineşte un sistem pentru descrierea conţinutului multimedia, ci un set de metode şi instrumente folosite pentru descrierea conţintului audio-video din diferite perspective.

Metodele şi instrumentele folosite de MPEG-7 sunt împărţite în opt categorii, ca în figura 3.6.

Elementele cheie în descrierea conţinutului multimedia folosind MPEG-7 sunt:- modelul conceptual derivat din cerinţele MPEG-7,- implementarea modelului care gestionează descrierile conţinutului,- schemele descriptive definite folosind limbajul de descriere a datelor.Relaţiile dintre elementele folosite în descrierea conţinutului multimedia cu MPEG-7

Page 67: CURS Tehnici Multimedia

- 67 -sunt prezentate în figura 3.7.

Specificatiile standardului MPEG-7

Specificaţiile standardului MPEG-7 au

fost împărţite în zece părţi în

funcţie de domeniul de aplicabilitate

sau de tipul datelor care fac subiectul lor. Scopul acestora este prezentat în continuare:Partea 1. Sistemele MPEG-7 - instrumentele necesare pentru pregătirea descrierilor MPEG-7, pentru transportul şi stocarea eficientă şi arhitectura terminalului,Partea 2. Limbajul de descriere a definiţiei - limbajul folosit pentru definirea sintaxei instrumentelor descriptive ale MPEG-7 şi pentru definirea noilor scheme descriptive, Partea 3. MPEG-7 vizual - instrumentele descriptive care folosesc numai descrieri vizuale,

Partea 4. MPEG-7 audio - instrumentele descriptive care folosesc numai descrieri audio,Partea 5. Scheme descriptive multimedia - instrumente descriptive care folosesc caracteristicigenerice şi descrieri multimedia,Partea 6. Software de referinţă MPEG-7 - implementarea părţilor importante ale MPEG-7,Partea 7. Testarea conformităţii MPEG-7 - conţine proceduri de testare a conformităţiiimplementărilor MPEG-7,Partea 8. Extragerea şi utilizarea descriptorilor - conţine material informativ (sub forma unuiraport tehnic) despre semnificaţia şi utilizarea unor instrumente descriptive,Partea 9. Profiluri şi niveluri MPEG-7 - conţine reguli şi profiluri standard,Partea 10. Definirea schemei MPEG-7 - specifică schema folosind limbajul de descriere adefiniţiei.

Soluţii software pentru gestiunea datelor multimedia

Accesarea componentelor hardware ale sistemului de calcul reprezintă în multe situaţii cea mai dificilă parte a dezvoltării aplicaţiilor datorită diversităţii interfeţelor de conectare utilizate, fiecare variantă presupunând utilizarea unor tehnici de programare diferite.

Page 68: CURS Tehnici Multimedia

- 68 -Sistemele de operare din familia Windows, de exemplu, permit manipularea

componentelor hardware şi a dispozitivelor periferice prin intermediul driver-elor instalate în sistem, pentru fiecare din aceste componente. Driver-ele de dispozitiv oferă acces standardizat la dispozitivele periferice şi componentele hardware disponibile.

Pentru accesarea dispozitivelor periferice şi a componentelor hardware, în general, există mai multe variante, fiecare potrivită pentru anumite situaţii:

• folosind interfaţa MCI (Media Control Interface),

• utilizarea bibliotecilor Win32 API (Application Programming Interface),

• utilizarea tehnologiei DirectX.

Interfaţa MCI

Interfaţa MCI asigură conexiunea şi controlul perifericelor hardware sau emulate software la un calculator în mediul Windows prin legături specifice descrise în regiştri sau în fişierul SYSTEM.INI.

Iniţial ea a fost definită pentru unitatea de CD-ROM apoi a fost extinsă şi pentru alte periferice multimedia.

MCI furnizează comenzi standard pentru lucru cu dispozitivele şi cu resursele multimedia stocate în fişiere. Aceste comenzi formează o interfaţă generică adaptată tipurilor de dispozitive multimedia. Interfaţa MCI fiind adresabilă prin comenzi, ea poate fi invocată atât din limbaje de programare (C, C#, Basic, Java) cât şi din limbaje de tip script (Open Script, Lingo).

MCI furnizează aplicaţiilor funcţionalităţi privind controlul audio şi vizual al perifericelor. Astfel, aplicaţiile pot utiliza MCI pentru a controla orice dispozitiv multimedia recunoscut, adică: dispozitive audio de tip wave, secvenţe MIDI şi CD audio precum şi dispozitive video digitale.

Opţiuni în procesarea fluxurilor unei resurse multimedia de tip aviO resursă multimedia de tip video conţine de obicei două fluxuri: cel de imagini şi cel

audio. In vizualizarea secvenţei se poate opta şi pentru accesarea separată a fluxurilor. Acest lucru se realizează cu comenzile:

setaudio pentru a controla fluxul audio;setvideo pentru fluxul de imagini.

• Accesul direct la fluxul multimedia se face prin utilizarea comenzii seek. Aceastăcomandă este utilizată pentru poziţionarea într-un fişier avi la o anumită poziţie (deînceput, de sfîrşit sau arbitrară). Poziţionarea se poate face în două moduri şi anume:exact sau aproximativ. Stabilirea modului de poziţionare se face cu comanda set(exactly on sau off). Poziţionarea exactă presupune accesarea cadrului dorit deutilizator; în cazul în care cadrul dorit nu este unul cheie iar fluxul este comprimat,operaţia de acces este mai lentă pentru că mai întâi se decomprimă fluxul, după care seaccesează cadrul respectiv. Poziţionarea aproximativă este mai rapidă pentru că seaccesează cel mai apropiat cadru cheie în raport cu cadrul luat ca reper.Poziţionarea mai implică şi stabilirea unităţii de măsură a reperului care poate fi în

sistem time code respectiv frame code. Opţiunea care trebuie setată (cu comanda set) este time format şi poate fi frames, caz în care valoarea furnizată comenzii seek reprezintă numărul frame-ului sau miliseconds, caz în care valoarea dată comenzii seek se presupune a fi milisecunde.

• Stabilirea vitezei de derulare a cadrelor se face tot cu comanda set iar opţiunea estemovie speed. Valoare 1000 asociată acestei opţiuni implică derularea secvenţei video la oviteză normală (aşa cum a fost ea înregistrată). De exemplu, dacă vrem să accelerăm fluxulvideo în vizualizare se măreşte valoarea, după cum dacă se doreşte vizualizarea în reluarevaloarea se scade.

Page 69: CURS Tehnici Multimedia

- 69 -Notificarea este procesul prin care o dată multimedia de tip continuu declanşează oacţiune în momentul terminării derulării ei. De obicei acţiunea constă în a trimite un mesajde notificare unei ferestre.

Bibliotecile Win32 API

Interfaţa de programare a aplicaţiilor Windows (Win32 API) este formată dintr-un set consistent de funcţii ce oferă programelor de aplicaţii diferite tipuri de servicii. Biblioteca Win32 API poate fi împărţită, în funcţie de serviciile pe care le oferă, în următoarele grupuri:

• Servicii Windows de bază - conţin servicii pentru depanare, manipularea erorilor,pentru procese, thread-uri, fişiere, comunicaţii interprocese, monitorizareaperformanţelor, securitate etc.,

• Servicii pentru interfaţa cu utilizatorul, numite şi servicii utilizator, se ocupă degestiunea cozii de mesaj e, a controalelor, a resurselor, a intrărilor la nivelulutilizatorului,

• Servicii pentru grafică şi multimedia - conţin funcţii pentru gestiunea culorilor, aGDI, a funcţiilor multimedia, a secvenţelor video, a imagini statice, funcţii OpenGL,funcţii Windows Media,

• Servicii pentru baze de date şi mesagerie - conţin funcţii pentru gestiunea DAO(Data Access Objects), SQL Server, MAPI (Messaging API),

• Servicii pentru reţea şi sisteme distribuite - conţin funcţii pentru gestiunea cozii demesaje, a reţelei, pentru apelul procedurilor aflate la distanţă (RPC), funcţii de rutareşi accesul la distanţă, gestiunea sincronizărilor, TAPI (Telephony API),

• Servicii pentru Internet, Intranet şi Extranet - conţin funcţii pentru indexare,funcţii pentru manipularea Internet Explorer-ului, serverul site-ului web, NetShow,

• Servicii de gestiune a sistemului - conţine servicii de configurare, gestiuneasistemului, setup.Fiecare grup de servicii este susţinut de un set de componente ale sistemului de

operare: subsistemul de DLL-uri al mediului Win32, driver-ele, serviciile sistemului de operare. Arhitectura sistemului multimedia al Windows 2000 este prezentată în figura 3.8.

La primul nivel se situează programele de aplicaţii care interfaţează cu un set de DLL-uri sistem prin Win32 API. Nivelul DLL sistem conţine DLL-uri de uz general precum:

Page 70: CURS Tehnici Multimedia

- 70 -GDI32.DLL pentru interfaţa cu dispozitivele grafice, -

USER32.DLL pentru interfaţa cu utilizatorii şi gestiunea ferestrei,KERNEL32.DLL - pentru servicii de bază ale ferestrei.Majoritatea modulelor acestui nivel sunt conţinute de sistemul de operare, dar unele

componente ale acestui nivel se bazează pe suportul unor drivere furnizate de producătorii de hardware.

Dedesubt se află intrarea apelurilor serviciilor sistem care invocă apelurile sistem servite de rutinele serviciului sistem în nucleul sistemului de operare.

Componentele aflate la nivelul al doilea au următoarele funcţionalităţi:GDI (Graphics Device Interface) şi ICM (Image Color Management) oferă o interfaţă grafică de programare independentă pentru programele de aplicaţii.

Secţiunea multimedia a Win32 API controlează MCI (media control interface), intrările audio, citirea/scrierea din/în fişierele multimedia, joystick-ul şi timer-ul multimedia.

Video for Windows furnizează suportul Win32 API pentru prelucrarea datelor video.API-urile pentru imagini statice reprezintă o nouă interfaţă Microsoft pentru achiziţia

imaginilor statice de la scannere şi camere digitale.OpenGL este un standard de programare de nivel înalt pentru grafica 2D/3D care

permite descrierea obiectelor prin puncte, segmente de dreaptă şi suprafeţe 3D.Windows Media este o componentă nouă a sistemului multimedia Win32 şi este

formată din: Windows Media Services, Windows Media Encoder, Windows Media Player Control şi Windows Media Format.

Spre deosebire de MCI, API este o interfaţă mai cuprinzătoare deoarece implică lucru cu mai multe periferice, nu numai cu cele specifice multimediei. Această interfaţă pune la dispoziţia programatorului un set de funcţii, constante şi structuri pentru a controla dispozitivele şi nu comenzi, ca în cazul interfeţei MCI.

Lucru cu interfaţa API pentru multimedia implică cunoaşterea modului în care resursele multimedia sunt stocate în fişiere, deoarece accesul la o resursă se face în concordanţă directă cu conţinutul ei.Funcţiile API folosite pentru captura fluxului video preluat de la un dispozitiv periferic au prefixul cap şi au ca scop achiziţia, previzualizarea şi prelucrarea fluxului video în timp real.

Captura video este mediată de o fereastră specializată în acest sens numită AVICap. Această fereastră poate executa următoarele operaţii:

- captură de stream-uri audio şi video salvate în fişiere AVI; - conectarea şi deconectarea dinamică la / de la dispozitiv;- vizualizarea semnalului video în modul overlay saupreview;

- precizarea fişierului în care se va stoca fluxul captat;stabilirea ratei de captură;

- afişarea unei căsuţe de dialog specifică dispozitivului pentru a seta opţiuni privindformatul tipului media;copierea imaginilor în zona clipboard;

DirectX

DirectX este o tehnologie de programare avansată care permite utilizarea mai multor dispozitive hardware multimedia. DirectX oferă următoarele funcţionalităţi:

- la nivelul API, DirectX permite dezvoltatorilor de aplicaţii să obţină independenţăfaţă de dispozitivul utilizat fără a compromite performanţele aplicaţiei. Se pot astfelfolosi facilităţile dispozitivelor hardware fără a fi necesar să se interfaţeze cu acesteaîn mod direct.La nivelul driverului dispozitivului, DirectX permite furnizorilor de componente hardware să se concentreze pe noutăţile hardware şi să le lanseze pe piaţă, introducând în driverul dispozitivului funcţiile de manipulare specifice, care vor fi folosite prin intermediul DirectX.

Page 71: CURS Tehnici Multimedia

- 71 -Principalele componente ale DirectX sunt:

DirectDraw furnizează o interfaţă bidimensională pentru placa video care permite acces direct la memoria video, transferul rapid al blocurilor de biţi, gestiunea paletei de culori etc.

- DirectSound accelerează captarea şi redarea sunetelor digitale, accesul direct ladispozitivele de sunet şi permite mixarea fără întârzieri semnificative a sunetelor.

DirectMusic converteşte informaţiile audio de tip MIDI în secvenţe digitale prinsinteză hardware sau software. Secvenţele astfel obţinute sunt apoi transmisecomponentei DirectSound.DirectPlay facilitează comunicarea între utilizatorii simultani ai unei aplicaţiimultimedia, utilizatori conectaţi prin modem sau în reţea. Oferă o modalitate uniformăde comunicare pentru aplicaţiile DirectX, independentă de protocoalele sau serviciilede comunicare folosite de fiecare utilizator.Direct3D oferă două niveluri pentru aplicaţiile 3D: modul Direct3D Immediate şimodul Direct3D Retained.Direct3D Immediate este un API 3D de nivel scăzut pentru portarea aplicaţiilor

multimedia şi a jocurilor existente în DirectX.Direct3D Retained este un API de nivel înalt ce uşurează implementarea aplicaţiilor

grafice 3D şi se bazează pe Direct3D Immediate.- DirectInput permite controlul dispozitivelor de intrare interactive, oferind funcţii

pentru gestiunea mouse-ului, a joystick-ului şi a altor dispozitive periferice interactive. DirectSetup oferă funcţii pentru instalarea componentelor DirectX şi pentru construirea kit-urilor de instalare a aplicaţiilor multimedia.DirectShow permite redarea conţinutului audio şi video comprimat. Oferă suport pentru fişiere MPEG, QuickTime, AVI şi WAV dar permite şi adăugarea de noi formate prin aşa-numitele filtre.

DirectAnimation permite construirea de animaţii în diverse medii şi limbaje ca de exemplu: HTML, VBScript, Jscript, Java şi VisualC++. Lucrează cu imagini vectoriale, bitmap, obiecte 3D, cu secvenţe video şi sunete. DirectAnimation furnizează câteva controale client pentru redarea mediilor, ce pot fi folosite pentru manipularea datelor multimedia din pagini web sau din aplicaţii desktop. Arhitectura DirectX este prezentată în figura 3.9. Fiecare componentă a DirectX este accesibilă programatorilor prin unul sau mai multe DLL-uri ale subsistemului Win32.

Spre deosebire de API-urile Win32 tradiţionale care sunt formate din sute de funcţii C, DirectX foloseşte interfeţe COM pentru descrierea API-urilor DirectX.

Soluţia DirectShow pentru achiziţionarea şi manipularea datele multimediaÎn continuare se urmăreşte prezentarea componentei DirectShow a DirectX deoarece

aceasta oferă suport pentru captarea din diferite surse (plăci de numerizare, plăci video, webcam-uri şi microfoane), editarea, mixarea, codarea şi decodarea, redarea DVD-urilor,

precum şi transferul datelor multimedia la o înaltă calitate. DirectShow este succesorul Video for Windows şi ActiveMovie şi aduce îmbunătăţiri substanţiale acestora.

Page 72: CURS Tehnici Multimedia

- 72 -

Arhitectura orientată pe COM a DirectShow face ca acesta să suporte noi formate, nestandardizate sau să poată fi create diferite efecte şi transformări pe formatele standard. DirectShow oferă suportul implicit pentru MPEG-1 (inclusiv MP3), MPEG-2, MPEG-4, AVI, WAV, RIFF şi DVD. DirectShow detectează şi foloseşte automat acceleratoare hardware audio şi video, când acestea sunt diponibile.

Principalul scop al DirectShow este simplificarea creării aplicaţiilor multimedia pe platforma Windows, prin izolarea aplicaţiilor de complexitatea operaţiilor de transport de date, de diferenţele hardware ale sistemelor de calcul şi de elemente ce ţin de sincronizarea datelor.

DirectShow foloseşte DirectDraw şi DirectSound pentru a transmite în mod eficient datele, plăcii de sunet şi celei grafice. Sincronizarea este realizată prin încapsularea datelor

multimedia în eşantioane media cu marcatori de timp. Pentru a putea manipula formate, surse şi dispozitive hardware diferite, DirectShow foloseşte o arhitectură modulară, în care componente ale sistemului de operare numite filtre pot fi mixate, oferind astfel suport diferitelor scenarii. DirectShow conţine filtre care suportă diferite dispozitive de captură şi dispozitive bazate pe Windows Driver Model (WDM) precum şi filtre care folosesc diferite plăci de captură ce utilizează Video for Windows (VfW). Figura 3.10 prezintă legăturile dintre o aplicaţie - DirectShow - alte servicii ale sistemului de operare şi dispozitivele hardware.

Graful de filtreOri de câte ori un fişier sau flux media este înregistrat, captat, redat, difuzat sau

prelucrat, acest lucru se realizează prin conectarea unuia sau mai multor filtre într-o configuraţie numită graf de filtre. Construcţia grafului se poate realiza în cadrul aplicaţiei, scriind cod, sau folosind utilitarul Graph Edit. Indiferent care este modalitatea folosită, procesul începe cu filtru sursă şi se bazează întotdeauna pe doi factori principali - numărul de fluxuri şi tipul datelor media pe care un filtru îl aşteaptă la intrare şi numărul de fluxuri şi tipurile media rezultate.

Page 73: CURS Tehnici Multimedia

- 73 -

FiltreFiltrele sunt instrumente de bază ale DirectShow. DirectShow separă prelucrarea

datelor media în paşi, iar filtrul reprezintă unul (sau mai mulţi) dintre aceşti paşi ai procesului de prelucrare. Acest lucru permite aplicaţiilor să combine şi să armonizeze filtre pentru a realiza diferite tipuri de operaţii pe diferite formate media folosind diferite clase de dispozitive hardware şi software. În general, un filtru realizează o singură operaţie pe un flux multimedia. De exemplu, există filtre DirectShow care citesc fişiere, preiau fluxul video de la un dispozitiv de captură video, decodează un anumit format de flux, ca de exemplu un video MPEG-1, transmit datele plăcilor grafice sau de sunet. Pentru a realiza o anumită operaţie, o aplicaţie conectează câteva filtre, astfel încât ieşirea unui filtru devine intrare pentru altul. Un

set de filtre conectate poartă numele de graf-filtru. Aplicaţiile nu trebuie scrise astfel încât să gestioneze filtrele dintr-un graf-filtru deoarece DirectShow oferă o componentă de nivel ridicat, numită Filter Graph Manager, care controlează fluxul datelor prin graf. Aplicaţiile pot folosi funcţii API, de nivel ridicat, pentru a realiza operaţii asupra fluxurilor de date multimedia, de exemplu funcţia API Run - pentru a transmite datele în graf, sau Stop pentru a opri fluxul de date din graf. Dacă este necesar ca aplicaţia să controleze direct operaţiile din flux, se pot accesa filtrele în mod direct, prin intermediul interfeţelor COM. Filter Graph Manager transmite aplicaţiei notificări ale evenimentelor, astfel încât aplicaţia să poată răspunde acestor evenimente.

Toate filtrele DirectShow se încadrează într-una din categoriile: filtre sursă, filtre de transformare, filtre de redare.

Filtrele sursă - reprezintă fluxul multimedia de prelucrat. El poate proveni dintr-un fişier de pe hard disc, de la un CD sau DVD sau se poate obţine dintr-o sursă live precum un receptor TV sau o placă de captură conectată la o cameră digitală. Unele filtre au doar rolul de a transmite fluxul de date unui filtru-analizor sau unui filtru care împarte fluxul în elementele componente, în timp ce alte filtre sursă realizează analiza.

Filtrele de transformare - acceptă fie fluxul de date, fie date parţial prelucrate şi le prelucrează suplimentar înainte să le transmită mai departe. Există mai multe tipuri de filtre de

Page 74: CURS Tehnici Multimedia

- 74 -transformare şi anume: analizoare care împart fluxul în eşantioane sau frame-uri, compresoare şi decompresoare şi convertoare de format.

Filtrele de redare acceptă în general date complet prelucrate, aceste filtre realizând numai redarea datelor.

Pini - într-un graf de filtre, datele multimedia circulă de-a lungul fluxului, de la un filtru sursă, trecând eventual printr-unul sau mai multe filtre intermediare, până ajung la un filtru de redare. Pinii gestionează detaliile de nivel scăzut ale transferului de date între filtre. Un pin este un COM care suportă interfaţa COM IP in, are o direcţie (de intrare sau de ieşire) şi este asociat unui anumit filtru în cadrul grafului. Un pin reprezintă punctul de conectare cu un alt filtru. Pinii cunosc care sunt tipurile media pe care le pot suporta şi negociază tipul media când două filtre se conectează pentru prima dată. Dacă este acceptat tipul datelor media, pinii negociază detalii legate de modul de transfer al datelor imediat ce graful filtrelor începe să funcţioneze.

Eşantionarea - după extragerea fluxului din graf, biţii trebuie analizaţi şi împărţiţi în unităţi de sine stătătoare, numite eşantioane media. În DirectShow un eşantion media este împachetat într-un obiect COM. În plus faţă de datele multimedia, obiectul conţine informaţii incluzând tipul media şi timpii de sincronizare. Un obiect este un eşantion media pentru date video şi conţine informaţii aferente unui cadru video. Pentru audio, un obiect este un eşantion media care stochează date corespunzătoare câtorva eşantioane audio. În ambele cazuri, când datele circulă printr-un graf, de la un filtru la următorul, acest lucru se realizează în forma obiectelor - eşantioane media.

Alocatori - când două filtre se conectează, pinii lor trebuie să se înţeleagă asupra detaliilor legate de modul în care obiectele (eşantioane media) vor fi transportate de la primul până la ultimul filtru. Conectarea înseamnă determinarea mărimii, a locaţiei şi a numărului de eşantioane care vor fi utilizate. Dimensiunea eşantioanelor va depinde de formatul şi tipul datelor media iar locaţia bufferului poate fi în memoria principală sau pe un dispozitiv hardware. Crearea şi gestiunea eşantioanelor este realizată de un alocator, care este un obiect COM, creat de pinul de intrare al filtrului din partea inferioară a fluxului.

Ceas - în orice aplicaţie care foloseşte date multimedia, este vitală sincronizarea eşantioanelor astfel încât cadrele video să fie afişate la o rată corespunzătoare, ca fluxul audio să n-o ia înaintea celui video etc. Un graf de filtre al DirectShow foloseşte pentru sincronizare un singur ceas, obiect folosit de fiecare etichetă-timp, de fiecare proces sau eşantion media la redare.

Crearea grafului de filtrePrimul pas în crearea unui graf de filtre este identificarea şi crearea filtrelor necesare.

Toate filtrele DirectShow sunt înregistrate în regiştrii Windows sub forma GUID-urilor şi sunt memorate informaţii precum: tipurile media suportate, categoria căreia îi aparţine filtrul şi scopul filtrului. În plus, un filtru poate înregistra tipurile media pe care le va accepta ca pini de intrare şi de ieşire. Acest lucru se face prin înregistrarea unui GUID pentru tipul-major şi unul pentru subtip, pentru fiecare tip media pe care îl va accepta filtrul. Tipul-major şi subtipul corespund primelor două câmpuri ale structurii tipului media a structurii DirectShow (AM_MEDIA_TYPE) şi sunt folosite în acest fel pentru a găsi filtre care prelucrează anumite tipuri. Dând numele fişierului de redat în apelul funcţiei RenderFile, Filter Graph Manager poate căuta rapid în regiştrii care sunt filtrele care vor suporta tipul de fişier care trebuie redat. Efectul este găsirea unui filtru sursă, pe care îl creează şi îl adaugă la graful de filtre şi în plus indică filtrului sursă care este numele fişierului. Filtrul sursă poate avea mai mulţi pini de ieşire sau poate să nu aibă nici unul. Presupunând că filtrul sursă are cel puţin un pin de ieşire,

Page 75: CURS Tehnici Multimedia

- 75 -codul Filter Graph Manager-ului în locul RenderFile, va cere pinilor de ieşire ai filtrului sursă să afişeze tipurile media ale datelor pe care le obţin. Apoi Filter Graph Manager-ul poate căuta în regiştri filtrele care acceptă acele tipuri media prin pinii de intrare. Pentru a realiza căutarea, Filter Graph Manager creează o instanţă a obiectului numit Filter Mapper şi apelează metoda acestuia EnumMatchingFilters, pentru a căuta în regiştri. Această metodă poate enumera filtrele DirectShow (precum şi dispozitive hardware, ca de exemplu decodoare) pe categorii sau pe tipuri media şi returnează un obiect standard de tip COM IEnumMoniker ce conţine numele tuturor filtrelor sau dispozitivelor hardware care îndeplinesc criteriul de căutare.

Adăugarea filtrelor la grafDacă a fost găsit un nume pentru un filtru sursă care poate citi un fişier având tipul

specificat, Filter Graph Manager foloseşte CoCreateInstance pentru a crea o instanţă a filtrului folosind GUID-ul returnat şi apoi apelează propria metodă AddFilter pentru a adăuga filtrul la graf. Odată adăugat la graf, filtrul creează unul sau mai mulţi pini de ieşire configuraţi pentru tipul de fişier pe care îl va citi. După crearea pinilor, Filter Graph Manager va examina tipul media suportat de fiecare pin şi apoi caută din nou în regiştri un filtru care poate accepta acel tip media pe pinul său de intrare. Când găseşte un filtru potrivit, îl adaugă la graf şi apoi apeleză metoda Connect a interfeţei IPin a pinului de ieşire a filtrului din partea superioară a fluxului. Pinul de ieşire poate enumera tipurile media suportate de către pinul de intrare şi se aşteaptă să folosească acel tip apelând metoda ReceiveConnection a acelui pin. Dacă pinul de intrare acceptă tipul media, atunci se realizează conexiunea. Acest proces se repetă până când toate filtrele necesare au fost adăugate la graf. În mod obişnuit, al doilea filtru dintr-un graf de redare va fi un filtru de analiză sau de separare, care citeşte un flux de date (de exemplu AVI sau MPEG) şi îl împarte în fluxuri audio şi video separate, creând un pin de ieşire pentru fiecare flux. Dacă datele fiecărui flux sunt comprimate, următorul filtru de pe fiecare flux va fi unul de decomprimare, urmat de un filtru de redare.

Notificarea evenimentelorUn filtru informează Filter Graph Manager despre un eveniment, prin introducerea

unei notificări. Evenimentul poate fi unul aşteptat, ca de exemplu sfârşitul unui flux, sau el poate reprezenta o eroare, de exemplu de redare a unui flux. Filter Graph Manager gestionează unele evenimente legate de filtru iar altele sunt gestionate de aplicaţie. Dacă Filter Graph Manager nu gestionează un eveniment al filtrului, el plasează notificarea evenimentului într-o coadă. O aplicaţie colectează evenimente în coadă şi răspunde la ele pe baza tipului evenimentului. Notificarea evenimentelor în DirectShow este similară cu coada de mesaje a Windows-ului. Filter Graph Manager oferă trei interfeţe care suportă notificarea evenimentelor:• IMediaEventSink - conţine metoda care permite filtrelor să plaseze evenimente;• IMediaEvent - conţine metode care permit aplicaţiei să regăsească evenimente;• IMediaEventEx - extinde interfaţa IMediaEvent.

Crearea aplicaţiilor folosind DirectShowPrincipalele etape ce trebuie parcurse pentru crearea unei aplicaţii DirectShow sunt:

1. Crearea unei instanţe a Filter Graph Manager, folosind funcţia CoCreateInstance;2. Construirea unui graf de filtre cu Filter Graph Manager;

3. Controlul grafului de filtre şi tratarea evenimentelor la care trebuie să răspundă obiectele aplicaţiei.

Concluzii:Au fost dezvoltate o serie de soluţii practice pentru controlul dispozitivelor periferice,

captarea şi prelucrarea datelor multimedia, cele mai importante fiind prezentate în acest capitol.

Page 76: CURS Tehnici Multimedia

- 76 -Interfaţa MCI oferă o modalitate unitară de manipulare şi control a dispozitivelor

periferice şi a fluxurilor multimedia, dar pentru dezvoltarea de aplicaţii complexe această soluţie este greu sau chiar imposibil de utilizat datorită opţiunilor relativ limitate ale interfeţei MCI şi a complexităţii controlului dispozitivelor periferice şi a datelor multimedia.

Bibliotecile Win32 API oferă programelor de aplicaţii servicii diverse dintre care le remarcăm pe cele care permit accesarea şi controlul unei game largi de dispozitive periferice şi pe cele care permit captarea şi manipularea datelor multimedia. Utilizarea bibliotecilor API se poate face din diferite limbaje de programare şi permite accesarea rapidă a dispozitivelor periferice din limbaje de programare care nu au incluse astfel de funcţii. Utilizarea bibliotecilor API este o problemă complexă, cu un grad ridicat de dificultate comparativ cu celelalte două soluţii.

Tehnologia DirectX este formată dintr-o serie de componente dedicate anumitor dispozitive hardware sau date multimedia. Componentele DirectX sunt mai uşor de folosit de către programatori, în comparaţie cu celelalte variante dar opţiunile oferite sunt limitate de funcţionalităţile implementate în componentele DirectX. În plus, utilizarea funcţiilor DirectX presupune instalarea anterioară a bibliotecilor DirectX.

Animaţia

A anima ceva inseamna, literal, a il aduce la viata, a-i da viata. Animatia, in acceptiunea uzuala, cuprinde toate modificarile care au un efect vizual. Efectele vizuale pot fi de diferite feluri: pozitii care variaza in timp (motion dynamics - dinamica miscarii), modificari ale formei, culorilor, transparentei, structurii si a texturii suprafetelor unui obiect (update dynamics - dinamica infatisarii), si modificari ale iluminarii scenei, ale pozitiei observatorului (camerei de filmat) si a focalizarii.

Utilizarea calculatorului la producerea animatiei usureaza foarte mult munca de animare propriu-zisa si scurteaza semnificativ timpul de lucru. De la cea mai simpla forma de animare, constand din desenarea pe ecran a unui obiect si miscarea lui cu ajutorul mouse-ului pe o traiectorie data - actiuni care dupa aceea sunt memorate si redate identic in clipul de animatie dorit - si pana la pachetele hardware si software specializate pentru animatie complexa, multitudinea de variante si facilitati recomanda de la sine asistenta calificata a calculatorului in acest domeniu.

Vom prezenta cateva concepte de baza legate de procesul de producere a animatiei in general, si de utilizare a calculatorului la animare, in particular.

Procesul de introducere initiala (Input Process):

La inceput este nevoie de introducerea in sistem a unor cadre cu obiectul de animat, denumite cadre cheie (key frames). Acestea sunt cadrele de inceput si sfarsit ale animatiei, cat si cadrele intermediare ce corespund pozitiilor esentiale ale animatiei. Introducerea acestor cadre (imagini) se poate face in diferite moduri: scanarea imaginilor deja realizate pe hartie, fotocopierea lor cu ajutorul unei camere foto digitale, sau construirea lor direct pe calculator cu ajutorul unor pachete soft specializate in desenare, concomitent cu utilizarea unor dispozitive ca mouse-ul sau, mai bine, tableta grafica.

Procesul intermediar (Inbetween Process):

Construirea cadrelor intermediare ale animatiei, cuprinse intre cadrele cheie prezentate mai sus, se realizeaza de catre calculator prin operatia numita "interpolare". Cea mai simpla varianta de interpolare este cea liniara, denumita si "LERP" - Linear intERPolation.

Interpolarea liniara prezinta grave limitari. De exemplu, daca este folosita la determinarea pozitiilor intermediare ale unei mingi aruncate in aer, avand ca baza trei pozitii-cheie, traiectoria rezultata este complet nerealista (Fig. 2. a.).

Din aceasta cauza se prefera de cele mai multe ori o serie de algoritmi mai complicati dar mai realisti de interpolare, cum ar fi curbele spline (Fig. 2. b.).

Tot in cadrul procesului intermediar are loc interpolarea formei, texturii si aspectului suprafetelor obiectului animat.

Page 77: CURS Tehnici Multimedia

- 77 -

Fig. 2. Interpolarea miscarii unei mingi aruncate in sus:a.) Interpolare liniara,

b.) Interpolare cu curbe spline.

Metode de control a animatiei:

• controlul explicit integral: este cel mai simplu tip de control al animatiei. Animatorul furnizeaza cate o descriere pentru orice eveniment din animatie. Astfel, se vor specifica modificari simple cum ar fi scalarea, translatia sau rotatia, sau se va furniza informatia legata de cadrele-cheie implicate, impreuna cu metodele de interpolare necesare generarii cadrelor intermediare.

• controlul procedural: se bazeaza pe comunicarea dintre diverse obiecte pentru a le determina proprietatile. De exemplu, pozitia unui obiect poate influenta miscarea altuia ("mingile nu pot trece prin perete", etc).

• sisteme bazate pe constrangeri: miscarea a foarte multe obiecte din mediul fizic real au o traiectorie foarte dificil de descris in mod explicit. Totusi miscarea lor se supune la anumite constrangeri. Gasirea si specificarea acestora este obiectul acestui tip de control al animatiei.

• urmarirea si inregistrarea miscarilor din realitate (live action tracking): presupune preluarea miscarilor direct de la subiectii reali care le executa. O varianta traditionala este asa-zisa "rotoscopie" (rotoscoping): se creaza un film in care diferiti actori reali (oameni sau animale) joaca rolurile caracterelor din animatie. Apoi animatorii modifica filmul obtinut, dezvoltand fundalurile si inlocuind actorii reali cu personajele de animatie corespunzatoare. O alta varianta utilizeaza o serie de senzori de pozitie amplasati in punctele-cheie ale corpului uman, de

Page 78: CURS Tehnici Multimedia

- 78 -

exemplu. Din urmarirea si inregistrarea miscarii acestora, se poate construi pe calculator animatia completa a obiectelor asemanatoare celui real. • cinematica si dinamica: exprima diversele evenimente din animatie prin legile fizice ce le guverneaza. De exemplu, afirmatiile urmatoare reprezinta o descriere cinematica a unei scene: "Cubul este in origine la momentul t=0. El se va deplasa apoi cu o acceleratie constanta in directa [1,1,5]."

Stocarea animatiilor in sistemele de calcul se poate face in formate "standard" de film digital cum ar fi "AVI" si "Quicktime", sau in formate de fisiere proiectate special pentru stocarea animatiei: "FLI" si "FLC" - lansate de firma "Animator Pro".

. Stocarea numerică a acestei mişcări impune reţinerea elementelor independente ce compun mişcarea, în conformitate cu un parametru fixat, timpul. Elementele variabile se stochează împreună cu parametrii lor temporali, folosind formate independente, construcţia ansamblului pornind de la formatele grafice fixe.

Cele mai cunoscute formate de fişiere sunt:· Cele care conţin animaţie bitmap: FLI (versiune mai veche, cu capacităţi

limitate) şi FLC (Animation Flic), recunoscute mai ales în domeniul animaţiei pe PC;· Formatul pentru stocarea imaginii animate sau pentru video comprimat, RLE

(Run Length Encoding), care este utilizat şi recunoscut de numeroase editoare grafice,furnizate mai ales împreună cu Video for Windows.

Formatul Photo Kodak. Formatul Photo CD reprezintă o combinaţie între fotografie şi informatică, şi permite stocarea imaginilor de înaltă calitate pe un CD, pornind de la o simplă peliculă foto. Noua tehnologie este o combinaţie a proceselor tradiţionale de developare, a proceselor digitale şi a tehnicilor de afisaj. Imaginile numerice difuzate de Photo CD Kodak nu sunt stocate în fişiere recunoscute deja pentru imaginile fixe, ele dispunând de format propriu Photo CD Kodak, care poate stoca aceeaşi imagine la cinci rezoluţii diferite, format denumit PCD (Photo CD). Standardul Orange Book reglementează specificaţiile legate de formatul Photo

Capitolul V. Limbaje de specialitate

Conceptele cheie:HTML (Hypertext Markup Language) - este o aplicaţie a SGML (Standard

Generalized Markup Language), dezvoltată de World Wide Web, care permite definirea structurii logice a unui document Web.

Hypermedia - este un element de multimedia, o tehnică de structurare a informaţiilor multimedia şi hypertext, ce desemnează o reţea de texte sau noduri informaţionale, interconectate, prin care utilizatorul se poate deplasa cu uşurinţă, prin accesarea cu ajutorul mouse-ului a unei succesiuni de legături.

Hypertextul - reprezintă informaţia textuală, nesecvenţială, având un anumit mod de organizare, cu particularitatea că poate fi manipulată prin anumite legături realizate între diferite părţi ale informaţiei, într-o anumită logică.

Limbajul script - angajează un sistem de programare orientat pe obiect, proiectat să permită independenţa de sistemul de operare şi de hardware, şi furnizează modalitatea de manevrare a obiectelor pe ecran.

Page 79: CURS Tehnici Multimedia

- 79 -

Legătură (link) - constituie conexiunile între noduri.Nodul - este elementul ce conţine text, grafică, sunete sau informaţii înrudite, dintr-

o bază dată de cunoştinţe.Script - un set de comenzi monitorizate prin apăsarea unui buton care permite

executarea unei acţiuni.Tagurile – instrucţiuni simple ale limbajului Hypertext Markup Language pe care

browser-ul de Web (aplicaţia utilizată pentru a accesa fişierele de Internet) le interpretează, redând conţinutul sub o anumită formă, poziţionare şi culoare.

URL (Uniform Resource Locator) - reprezintă adresa unică a unui document pe World Wide Web, folosită pentru iniţierea unei legături pe Internet; de exemplu:www.usv.ro.

Limbajul markup HTML

In anul 1965, cercetatorul Ted Nelson inventeaza termenul hipertext, definindu-l drept "material scris sau grafic interconectat intr-o maniera complexa care in mod conventional nu poate fi reprezentat pe hirtie. El poate contine cuprinsuri ale propriului sau continut si relatiile dintre diverse parti componente; poate de asemeni contine adnotari, adaugiri si note de subsol pentru cei care doresc sal examineze". In prezent, termenii de hipertext si hipermedia sint considerati sinonimi.

Definitiile hipertextului sint multiple. De exemplu, iata doua dintre ele.

Conform cu J.Smith si S.Weiss, hipertextul este:

1. o forma de document electronic;

1. o metoda de organizare a informatiilor in care datele sint memorate intr-o retea de noduri si legaturi, putind fi accesata prin intermediul navigatoarelor interactive si manipulata de un editor structural.

In viziunea lui W.Weiland si B.Shneiderman, hipertextul denota o tehnica pentru organizarea informatiei textuale printr-o metoda complexa neliniara in vederea facilitarii explorarii rapide a unei cantitati mari de cunostinte. Conceptual, o baza de date hipertext poate fi gindita ca un digraf, unde fiecare nod poarta un fragment de text si unde arcele grafului conecteaza unele fragmente de text cu altele inrudite. Pentru a vizualiza textul dintr-o astfel de baza de date, utilizatorul se va folosi de o interfata, traversind legaturile.

În 1991, Paul Lindner şi Mark P. McCahill de la Universitatea din Minnesota, au creat protocolul Gopher, care reprezintă o modalitate intuitivă şi simplă pentru căutarea şi organizarea fişierelor pe Internet. Gopher a fost imediat acceptat pe Internet, oferind o funcţionalitate necesară tuturor. Cu toate acestea, încă lipseau hyper-legăturile şi elementele grafice.

Page 80: CURS Tehnici Multimedia

- 80 -

În timp ce protocolul Gopher se răspandea, Tim Berners-Lee a creat World Wide Web în 1992.

World Wide Web folosea trei tehnologii noi, importante:· HTML (HyperText Markup Language) folosit pentru a scrie paginile de

Web;· HTTP (HyperText Transfer Protocol) pentru a transmite aceste pagini;· Un Web browser, program client pentru a recepţiona, interpreta, şi afişa

rezultatul căutarii.Folosind limbajul HTML, aproape orice persoană având un editor de text şi acces la

un site Internet, poate dezvolta pagini atractive vizual, prezentând şi organizând informaţia foarte asemănător cu majoritatea publicaŃiilor online. Astfel, pagina Web reprezintă un fişier text care conţine marcatori HTML sau tag-uri, care detaliază modul în care va fi afişată pagina pe ecran.Limbajul HTML (Hypertext Markup Language) este limbajul care permite crearea şi programarea documentelor electronice cu conţinut multimedia, bazate pe structurile hypermedia şi hypertext. Este considerat o implemetare simplă a standardului SGML (Standard Generalized Markup Language) şi este propriu arhitecturii client-server, a unei reţele informatice. Paginile documentului hypermedia sau hypertext descris în limbaj HTML sunt scurte şi oferă posibilităţi de explicare a cuvintelor sau conceptelor, prin intemediul legăturilor realizate către alte părţi ale documentului sau către alte documente

Page 81: CURS Tehnici Multimedia

- 81 -

Limbajul redă stuctura şi conţinutul documentului şi nu forma sa de prezentare, el fiind conceput printr-o serie de marcaje, denumite şi etichete, care evidenţiază componentele şi legăturile documentului.

Marcatorii se pot referi la diverse aspecte, precum:· Formatarea textului, atributele de caracter tipografic sau paragraf;· Organizarea conţinutului în tabele, rame (frames);· Cuvinte cheie pentru motoare de căutare, atribute descriptive;· Inserare de conţinut multimedia, imagini, sunete, animaţie, documente

diverse;· Crearea de legături între paginile documentului, site-ului, legături cu restul

Internetului;· Colectarea de informaţii prin formulare.

Citirea şi vizualizarea paginii se realizează prin intermediul programului de navigare, denumit şi browser, care prezintă documentul în modul în care este descris de limbaj. Printre browserele utilizate sunt Mosaic şi Netscape. Ordonarea documentelor HTML se realizează prin modul în care este structurată adresa lor, care este un identificator unic, denumit URL (Uniform Resource Locator) al documentului.

Limbajul HTML poate fi utilizat în dezvoltarea de prezentări multimedia, de documente electronice (precum e-mail), în sistemul de operare Windows şi în dezvoltarea de cărţi electronice( e-books).

Avantajele utilizarii limbajului HTML:· Uşurinţa folosirii acestuia;· Posibilitatea integrării textului cu grafica;· Posibilitatea de realizare a legăturilor;

· Posibilitatea de declanşare a unei succesiuni dorite, de acţiuni, prinsublinierea şi prezentarea sub o anumită formă a conţinutului acestor pagini.

Forma generală a unui fişier HTML este dată în exemplul de mai jos.

Page 82: CURS Tehnici Multimedia

- 82 -

Exemplul 1. Forma unui document HTML

<HTML><HEAD><TITLE>A Simple Sample HTML Document</TITLE></HEAD><BODY><H1>Welcome to the World of HTML</H1><HR>HTML documents can be as simple as this Web page, which consists of just asingle page of <B>text</B> and <I>links</I>, or as complex as a 10,000page corporate intranet site replete with Java applets and CGI databaseaccess. <P>In this book, we'll explore the possibilities of HTML, but we'll alsocheck out what can be done by adding other elements to your documents.<P>Click <A HREF="sample.htm">HERE</A> to reload this page!<P></BODY></HTML>

Page 83: CURS Tehnici Multimedia

- 83 -

Limbaje script ale uneltelor authoring (soft-urilor pentru dezvoltare de prezentări multimedia)

Un script poate fi definit ca fiind un set de comenzi monitorizate prin apăsarea unui buton care permite executarea unei acţiuni. Script-urile se referă la obiecte multimedia şi stabilesc comportamentul corespunzător al acestora. Acţiuni simple asupra obiectelor multimedia pot fi: derularea cu o viteză mai mare, redimensionarea unei ferestre video, etc. Limbajul script angajează un sistem de programare orientat pe obiect, proiectat să permită independenţa de sistemul de operare şi de hardware, şi furnizează modalitatea de manevrare a obiectelor pe ecran. De aceea, aplicaţiile multimedia create cu sistemele authoring sunt independente de sistemul de operare.

Execuţia unui script este condiţionată de mai multe etape de codificare. Un script realizat cu ajutorul unei unelte authoring este transcris într-un cod intermediar, care se execută în momentul derulării. Codul este tradus în instrucţiuni de către un interpretor de cod intemediar. Script-urile pot fi analizate şi în formă textuală de către un interpretor-analizor. Player-ul care execută programul script (poate fi un program precum Acrobat Reader, runtine de Power Point sau reader de Macromedia Flash) intepretează script-urile şi compune prezentarea mediilor sub interacţiunea utilizatorului. Codul generat de script este independent de procesor, deşi player-ul care îl citeşte, la momentul execuţiei, depinde de aceasta. Player-ul comunică cu sistemul de operare şi cu interfaţa grafica. El conţine un analizor de cod dependent de maşină şi un sistem care gestionează prezentarea, alocă şi gestionează resursele multimedia, precum şi interactivitatea. Sistemul de gestiune a resurelor multimedia are rolul de a organiza datele şi de a le prezenta pe ecran sincronizat, şi de a gestiona în acelaşi timp şi resursele.

Lipsa de standardizare a limbajelor script a determinat ca fiecare unealtă authoring şi limbaj script să deţină propriul său player de execuţie. De aceea, este dificil

Astfel afişează Netscape Navigator exemplul HTML de mai sus :

Page 84: CURS Tehnici Multimedia

- 84 -

ca un periferic de redare a prezentării multimedia să suporte concomitent mai multe limbaje script.

În prezent se încearcă includerea unui limbaj script comun în toate corpurile standardelor cunoscute ale multimediei şi anume DSM-RF (Digital Storage Media) stabilit de grupul MPEG ca format scripting de referinţă pentru extensia Digital Storage Media. O altă propunere de standardizare este SMLS (Standard Multimedia Language Scripting), creat pe extensii ale standardului SGML (Standard Genealized Markup Language). Prin folosirea arhitecturii SMLS, un asemenea document cu script-uri incluse devine o aplicaţie de sine stătătoare. Acest limbaj are însă anumite deficienţe:

· nu specifică un anumit limbaj script sau de progamare;· nu specifică tipurile de date de lucru;· nu specifică formate de interschimb, sursă sau binare;· nu specifică reguli de codificare a mediilor.

Această extensie a standadului SGML prezintă însă un larg interes în Word Wide Web.

Hypertext şi hypermediaAtât hypertextul cât şi hypermedia sunt atât medii multiple cât şi instrumente de

gestionare complexă a elementelor individuale de informaţie într-o structură cu un anumit sens. Ele permit ghidarea din punct de vedere structural, cât şi exploatarea. Hypertextul reprezintă informaţia textuală, nesecvenţială, având un anumit mod de organizare, cu particularitatea că poate fi manipulată prin anumite legături realizate între diferite părţi ale informaţiei, într-o anumită logică. Informaţia manevrată prin sistemul hypertext este divizată în noduri, între care se stabilesc legături, fiecare nod reprezentând un anumit tip de informaţie, modul tipic de acces la informaţie realizându-se prin navigare.

Hypermedia, ca şi hypertextul, este un element de multimedia, o tehnică de structurare a informaţiilor multimedia şi hypertext, ce desemnează o reţea de texte sau noduri informaţionale, interconectate, prin care utilizatorul se poate deplasa cu uşurinţă, prin accesarea cu ajutorul mouse-ului a unei succesiuni de legături. Utilizatorul sistemului de hypermedia poate naviga pentru a parcurge diferite documente: text, imagine numerică, secvenţe video, audio sau documente de natura diferită.

Pentru programarea sau structurarea acestor medii există două modalităţi:· utilizarea instrumentelor authoring şi a limbajelor script incluse;· utilizarea unor facilităţi oferite de alte limbaje, mai complexe.

Acest limbaj oferă utilizatorilor posibilitatea de a accesa informaţia şi a naviga în interiorul documentelor într-o maniera intuitivă, cu ajutorul legăturilor (“link-urilor”). Construirea acestor structuri hyper se bazează pe anumite principii:

· Principiul metamorfozei – reţeaua de legături de date ce constituiehypertextul sau hypermedia este într-o permanentă construcŃie şi adaptare conform noilorcerinţe;

· Principiul eterogenităţii – în componentele reţelei sunt informaţii denatură diferită (etrogenă) şi se pot regăsi pe toate tipurile de suporturi posibile, detransmitere a informaţiei;

· Principiul multiplicităţii şi al deplasării pas cu pas care demonstrează căse poate alege orice punct din pachet, ca şi nod de origine al căutării, traseul de parcurgere a structurii configurându-se treptat, pornind de la aceasta. Multiplicitatea provine din posibilitatea existenţei unor multiple punct de origine;

· Principiul exteriorităţii, care se bazează pe faptul că reţeaua de date are ounitate organică, dar facilitează şi deplasarea spre exterior, mişcarea;

· Principiul topologic, care concluzionează faptul că nu există o cale trasată

Page 85: CURS Tehnici Multimedia

- 85 -

dinainte ci totul este în continuă reconfigurare topologică;· Principiul mobilităţii centrelor, conform căruia reţeaua nu are centru sau

nu contează care element poate fi considerat la un moment dat centru.

Modalităţi de regăsire şi navigareMetodele de regăsire a informaţiei în sistemele hypermedia sau hypertext se pot

clasifica astfel:· Metode categoriale, ce permit selectarea documentelor, a paginilor din

documente sau câmpuri text dintr-o anumită categorie;· Metode de regăsire bazate pe relaţia cuvânt, ce ralizează căutarea

cuvintelor conform apropierii lor generale şi ordinii lor;· Metode de regăsire bazate pe adiacenţă, care fac legătura spaţială din

aproape în aproape, în funcţie de următorul element ce trebuie găsit;· Metode de regăsire alternative, ce aplică în regăsirea informaţiei criteriul

“or” pentru două sau mai multe cuvinte;· Metode de regăsire bazate pe asociere, prin utilizarea criteriului de

regăsire “and”, pentru două sau mai multe cuvinte;· Metode de regăsire bazate pe un criteriul de negare “not”, regăsirea

informaiei fiind exclusivă pentru referinţele la un cuvânt, care nu este asociat cu celiniţial;

· Metode de regăsie ce folosesc trunchierea, adică regăsesc un cuvânt prinutilizarea oricărui sufix posibil al său;

· Metode de găsire prin cuvinte intemediare ce realizează căutari dinaproape în aproape, prin cuvinte intermediare către cel căutat.

Navigarea prin aceste sisteme este posibilă datorită elementelor de bază ale structurii “hyper”, care sunt “nodul” şi “legatura” (link-ul). Nodul este elementul ce conţine text, grafică, sunete sau informaţii înrudite, dintr-o bază dată de cunoştinţe, iar legăturile constituie conexiunile între acestea, ambelele formând structura de bază a sistemului de acces la informaţii.

Dacă pagina referiţă se află pe acelaşi disc local, dar într-un alt director atunci pentru a preciza poziţia ei în structura de directoare se poate folosi adresarea relativă.

Exemplul 2. Legatura către o pagină locală

<HTML><HEAD><TITLE> COMUTAREA INTRE DOUA PAGINI AFLATE PE ACELASI DISCLOCAL</TITLE></HEAD><BODY><H3>PAGINA 3 </H3><A HREF="../../EXEMPLE/LIST/LISTEX_11.HTML"> LINK CATRE O PAGINA CU LISTE </A> </BODY> </HTML>

Sistemele hypermedia şi hypertext pot furniza căi de navigare atât unidirecţionale cât şi bidirecţionale. Cea mai cunoscută modalitate de navigare prin structurile “hyper” este cea prin butoane, întrucât permite accesul facil la informaţia existentă în nodurile reţelei, prin simpla accesare a butoanelor afişate.

Page 86: CURS Tehnici Multimedia

- 86 -

Cea mai simplă modalitate prin care se poate ţine evidenţa legăturilor este cea a biţilor de navigaţie. Prin setarea acestora se pot afla informaţii despre existenţa unei legături între cuvintele “active” ale paginilor de text. Această modalitate determină o structură de navigaţie simplă, în care elementele sunt conectate fie în ierarhie, fie în secvenţă, existând un anumit traseu de parcurs.

Atunci când stuctura de navigaţie este mai complexă, elementele nu se conectează direct într-o ierarhie sau într-o secvenţă, ci prin legături intermediare. Pentru facilitarea navigării se recomandă folosirea criteriilor de selecţie a elementelor. În acest tip de sistem paginile documentului nu vor mai fi ordonate secvenţial ci prin intermediul legăturilor. De asemeni, legăturile pot fi realizate şi către pagini din alte documente.

Sistemele hypertext şi hypermedia pot folosite în mod curent pentru realizarea de publicaţii electronice, în documentare, pentru realizarea de pagini interactive, cataloage electronice sau pentru furnizarea de informaţii publice.

Limbaje vizuale pentru realizarea de producţii multimedia O altă clasificare a uneltelor authoring multimedia are drept criteriu capacitatea de programare a acestor sisteme. Ea este legată de limbajele de programare specifice sistemelor sau de limbaje de programare de nivel înalt, cum ar fi C au Basic. Un sistem authoring multimedia, ce deţine un limbaj propriu inclus, dispune de două posibilităţi de programare:

· Cu ajutorul unui limbaj script şi se bazează pe condiţii prestabilite prin comenzi, fiind considerate a fi cele mai puternice deoarece asigură controlul navigaţiei în document - produsul ToolBook. Multimedia ToolBook este un sistem orientat pe programare vizuală, produs de firma Asymetrix. Denumirea, aceea de instrument de creat carţi multimedia, provine de la faptul că aplicaţia multimedia este construită pe principiul cărţii, cu pagini dispunând de un prim plan (foreground) şi un fundal (background). Fundalul conţine, de obicei, elemente ce se repetă în mai multe pagini (butoane de navigaţie, elemente de decor, etc.) şi poate fi comun mai multor pagini. Produsul lucrează sub Windows şi utilizează toate tipurile de resurse specifice acestuia. Recurge frecvent la biblioteci cu legare dinamică DLL (Dynamic Linked Library) proprii sau aparţinând sistemului Windows, care conţin funcţii pentru crearea, manipularea şi prezentarea aplicaţiilor multimedia. Elementele de multimedia sunt gestionate ca obiecte, iar acţiunile sunt asociate unor mesaje. Obiectele pot avea proprietăţi modificabile sau nemodificabile (pot fi doar consultate). Multimedia ToolBook dispune şi de un limbaj de programare de tip script, numit Open Script. Denumirea provine de la faptul că el descrie scenariul conform căruia acţionează aplicaţia în interacţiunea cu utilizatorul.

Page 87: CURS Tehnici Multimedia

- 87 -

· Vizuală, bazată pe manipularea directă a unor semne, cea mai simplă fiind cea cu icon-uri, sistemul generând comenzi şi folosindu-se de un set de icon-uri predefinite (icon-ul predefinit de tip obiect se referă la imaginea fizică a acestuia); acestea permit accesul dinamic la toate tipurile de media.

Categoriile de icon-uri predefinite folosite de diferite produse authoring, pot fi:· Pentru acces la mediile de comunicare;· Pentru efecte speciale;· De alegere a tipului de mediu;· De decizie în structura de navigaŃie;· Pauză;· Ştergere ecran;· Grupare pe nivele de agregare;· De calcul;· Pentru apeluri externe.

Structura aplicaţiei admite drept conţinut, pentru categoria icon-urilor medii de comunicare, orice tip de elemente multimedia de tip: text, grafică, animaţie, sunet, video.

Uneltele authoring ce suportă programarea vizuală pot întreţine legături cu exteriorul prin comunicarea directă cu alte programe sau prin stocarea şi preluarea funcţiilor în sau din biblioteci cu legături dinamice DLL, sau prin inserarea de obiecte împachetate OLE.

Capitolul VI. Produsul Director şi bazele de date multimedia

Conceptele cheie:Bazele de date multimedia - combină bazele de date (orientate pe obiect) cu

lumea multimediei, rezultanta fiind o gestiune eficientă a datelor, combinată cu un mecanism dinamic de interogare şi prezentare a informaţiei; Bazele de date multimedia permit crearea, memorarea, transferul, integrarea şi prezentarea nu numai de date alfanumerice ci şi audio şi video, codificate digital, folosind metode de stocare şi regăsire specifice.

Produsul Director (Macromedia) - se încadrează în categoria soft-urilor authoring bazate pe organizarea proiectului de-a lungul unei axe a timpului; secvenţierea evenimentelor şi obiectelor pe această axă, adică viteza de derulare a proiectului trebuie să se producă, de regula, la viteza unei secvenţe video, adică 25030 de cadre (elemente şi evenimente) pe secundă, pentru a putea fi percepute în mişcare.

Produsul DirectorVor fi prezentate componentele necesare organizării unei producţii multimedia cu

Director.Pentru prezentarea şi compararea diferitelor produse authoring se utilizează, ca şi

criteriu de clasificare, metafora ce stă la baza secvenţierii şi organizării elementelor multimedia şi a evenimentelor într-un proiect realizat cu ajutorul acestor produse.

După cum a mai fost precizat, Multimedia ToolBook este un soft authoring ce face parte din categoria softurilor care îşi organizează evenimentele pe structura de paragrafe, pagini, cărţi. Dintr-o altă categorie de softuri, ce se bazează pe fluxul de icon-uri şi este condus de evenimentul ce se desfăşoară, face parte produsul Authorware Professional. Evenimentele de interacţiune şi elementele multimedia sunt organizate ca obiecte, pe scheletul unui anumit proiect.

Page 88: CURS Tehnici Multimedia

- 88 -

Produsul Director (Macromedia) se încadreaza în categoria soft-urilor authoring bazate pe organizarea proiectului de-a lungul unei axe a timpului. Secvenţierea evenimentelor şi obiectelor pe această axă, adică viteza de derulare a proiectului trebuie să se producă, de regulă, la viteza unei secvenţe video, adică 25030 de cadre (elemente şi evenimente) pe secundă, pentru a putea fi percepute în mişcare. Cadrele grafice, organizate secvenţial, pot fi redate însă la o viteză paticularizată, ce poate fi fixată de utilizator, în funcţie de cerinţele proiectului.

Selectarea celui mai potrivit instrument authoring se realizează în funcţie de tipul proiectului multimedia ce trebuie construit.

Produsul authoring Director a fot realizat de către firma Macromind şi deţine un suport biplatformă, Macintosh şi Windows, fiind utilizat pentru realizarea de prezentări interactive, CD-Rom-uri educaţionale, vizualizări tehnice sau simulări, făcând parte din categoria celor mai folosite soft-uri authoring bazate pe construcţiile de-a lungul axei timpului, caracteristică ca permite utilizatorului perceperea uşoară a proiectului, într-un mod dinamic.

Produsele realizate cu ajutorul acestui soft pot fi controlate şi gestionate prin limbaje specializate de programare, de tip script. Produsul Director beneficiază de unlimbaj script denumit LINGO, construit din mai multe comenzi, funcţii, proprietăţi şi operatori specifici. Acesta dispune şi de facilităţi de depanare şi editare.

Considerat a fi un produs foarte bun, el funcţionează după două moduri principale de organizare: Overview şi Studio. Pentru crearea de prezentări simple, liniare, de tip programare iconică se utilizează varianta Overview. Acest mod de creaţie a prezentărilor multimedia se bazează pe un set de icon-uri predefinite. Cele mai recente versiuni ale produsului, renunţă la modul Overview, considerat a fi mai puţin folositor şi util pentru creatori, atât pe platforma Windows cât şi Macintosh. Pentru realizarea unor proiecte deosebite se utilizează modul de lucru Studio. Acesta deţine un set de ferestre: CAST, PAINT, SCORE, LINGO, PANEL, prin intermediul cărora se creează elementele proiectului, recunoscute sub numele de ACTORI, se organizează proiectul multimedia, şi se realizează comunicarea cu utilizatorul. În spatele acestor ferestre de lucru se găseşte SCENA, prin care se organizează şi desfăşoară proiectul.

· Componenta CAST – conţine lista tuturor elementelor ce compun proiectul,prezentată sub forma unor mici ferestre de vizualizare. Prin intermediul acesteia serealizează operaţiile de import sau de creare a mediilor: text, grafică, animaţie, fişiersunet, video digital, precum şi a script-urilor, constituindu-se sub forma unei baze dedate. Crearea mediilor se realizează cu ajutorul editoarelor şi uneltelor specializatedeţinute de Director. Există posibilitatea ca diferite componente ale acestei liste să fieaduse şi din alte aplicaţii, prin import. Este vorba de fişiere de format AIFF (pentrusunet), PICS, PICT (pentru imagini fixe) şi Qtmovie (pentru filme).

· Componenta PAINT – furnizează un set de unelte de desenare şi colorare. Ocaracteristică este aceea că elementul grafic nou creat nu trebuie salvat într-un fişierseparat pentru a putea fi importat în producţia multimedia, deoarece el este adăugatautomat ferestrei CAST, la închiderea ferestrei PAINT. Acest element este apoi extas dinCAST în fereastra SCORE, pe un canal, ocupând un anumit număr de cadre. Acţiunea seva defăşura pe tot parcursul cadrelor active.

· Componenta SCORE – este organizată ca un tabel, cu rânduri şi coloane,cunoscute sub denumirea de canale şi cadre. Rândurile – cadrele, sunt reprezentate decomponentele listei CAST precum şi de script-urile care controlează comportamentul şiproprietăţile obiectelor. Coloanele SCORE sunt considerate cadre de defăşurare aproiectului şi conţin toate elementele care trebuie să evolueze în acel cadru, într-uninterval de timp (elementele CAST, script-urile lor, ritmul de derulare al cadrului şidiferite sunete). Imediat ce un element este pus în fereastra SCORE într-un anumit cadru,

Page 89: CURS Tehnici Multimedia

- 89 -

el îşi va face direct apariţia şi pe ecran, pe scena vizibilă în spatele ferestrei de organizareşi sincronizare. Modul de organizare asigurat prin fereastra SCORE permite secvenţierea,animarea şi sincronizarea mediilor existente ca membri CAST şi asigură controlul cuprecizie al tranzacţiilor. Poate fi controlată şi prioritatea de afişare a membrilor CAST pescenă, în background şi foreground, prin comanda SHUFFLE.

· Componenta LINGO – este necesară pentru introducerea şi realizareasecvenţierii şi a sincronizării de elemente, pentru organizarea documentelor multimedia.De asemeni, prin comenzile sale pot fi gestionate perifericele audio şi video specifice:CD-ROM, player, videodisc, recorder-videodisc, CD-audio, plăci video. În plus, serealizează şi gestiunea încărcării mediilor pentru a optimiza redarea proiectelor. Scrip-urile LINGO pot controla atât membrii individuali CAST (mediile de comunicare) cât şiîntregul proiect de cadre din SCORE. Mai mult, editorul script încorporat deţine facilităţide depanare a programelor sursă. Script-urile se ataşează în mod obişnuit unor butoane şi însoţesc anumite evenimente, ce se vor declanşa.

Dotat cu numeroase facilităţi, inclusiv cu un limbaj propriu, acest produs authoring, este cel mai bine cotat software pentru crearea de enciclopedii multimedia. Paşii ce trebuiesc urmaţi în organizarea unei prezentări multimedia, construită cu produsul Director, sunt:

1. Stabilirea actorilor, respectiv a mediilor de diferite tipuri, cu proprietăţile lor, care vor participa la desfăşurarea proiectului. Etapa se concretizează prin aducerea în fereastra CAST a elementelor componente ale proiectului.

2. Aşezarea surselor multimedia într-o prezentare logică sau într-o secvenţă de desfăşuare, prin intermediul ferestrei SCORE.

3. Perfectarea interfeţei cu utilizatorul şi adăugarea interactivităţii prin reglarea modului de acţiune a actorilor.

4. Distribuirea şi difuzarea producţiei multimedia, de tip Director.

Bazele de date multimedia

Utilizarea multimedia pentru realizarea bazelor de dateBazele de date multimedia combină bazele de date (orientate pe obiect) cu lumea

multimediei, rezultantă fiind o gestiune eficientă a datelor, combinată cu un mecanism dinamic de interogare şi prezentare a informaţiei. Bazele de date multimedia permit crearea, memorarea, transferul, integrarea şi prezentarea nu numai de date alfanumerice ci şi audio şi video, codificate digital, folosind metode de stocare şi regăsire specifice.

Datele multimedia au un impact foarte puternic asupra modului în care trebuie dezvoltată aplicaţia şi asupra funcţionării acesteia, ceea ce detemină un anumit mod de gestiune a datelor.

În funcţie de platformele utilizate şi de date şi soluţiile propuse pentru dezvoltarea bazei de date multimedia, există mai multe nivele de structurare a acestora:

· Structura funcţionala sau tehnologică – are în vedere funcţiile de creare,achiziţie, compresie, stocare, manipulare, transmitere la distanţă, sincronizare şicombinarea informaţiilor digitale

· Structura relaţională – are în vedere aspectele corelării statice a tipurilor dedate pe care le suportă o bază de date multimedia după modelul pe obiecte; fiecare obiectconţine operaţii specifice într-un mod care permite realizarea practică a structuriifuncţionale, având o structură internă proprie, determinată, între obiecte existândconexiuni care stau la baza oragnizării lor în obiecte complexe, gruparea lor pe claseputând fi făcută manual, semiautomat sau automat

· Structura de interogare sau dinamică – include metodele specifice de regăsirea informaţiei în funcţie de tipul ei, modul de inteacţiune dintre utilizator şi baza de date

Page 90: CURS Tehnici Multimedia

- 90 -

multimedia; structura de interogare cuprinde şi o componentă de acces de tipnavigaţional, care perite ghidarea utilizatorului în orice moment.

· Structura de prezentare sau de sistem – ţine de aspectele specifice de run-timea unei baze de date multimedia şi asigură consultarea bazei de date independent deperiferic şi de platforma pe care se face vizualizarea.

Selectarea celui mai bun software pentru crearea bazelor de date multimedia se face în funcţie de elementele care se tratează. Există produse destinate specific stocării şi consultării imaginilor şi produse capabile să gestioneze date de tipuri diferite. Produseleau două funcţii principale: de stocare şi de consultare. Există şi prgrame ce permit crearea unei baze de date, fără a impune stocarea fizică a documentelor în această bază de date. Cel mai des însă, documentele se regăsesc pe un CD-ROM, pe un CD-Photo sau pe alt suport.

. Software pentru bazele de date multimediaAlegerea celui mai adecvat software pentru crearea bazelor de date multimedia se

face în funcţie de elementele care se tratează. Cele mai uzuale produse realizate pentru platformele PC, sunt:

• GESCO (Windows) - aplicaţie ce oferă posibilitatea de gestionare a documentelor atât sub formă numerică cât şi sub formă analogă (video disc). Sistemul se adresează ambelor clase de utilizatori: clasa celor care crează baza de date şi clasa celor care consultă baza de date. Este disponibil atât în versiune mono post cât şi în versiune reţea.

• ImagePals (Windows) - este o aplicaţie pentru imagini, organizată pe trei module: . modulul catalog (pentru gestiunea, clasificarea şi organizarea imaginilor), • modulul de editare (ce permite retuşul electronic al imaginilor) • modulul de captare (ce permite lucrul cu o parte a ecranului sau cu tot ecranul).

• MediaText (Dos/Windows) - este o aplicaţie ce este utilizată pentru clasificarea documentelor fotografice, sonore şi video, cu posibilitatea de asociere de comentarii textuale. Permite interogarea prin limbaj natural sau prin cuvinte cheie.

• Taurus (Windows) - este un mediu de gestiune electronică a documentelor multimedia. El răspunde de gestiunea textelor, a fotografiilor, a imaginilor video numerice, a microfilmelor sau înregistrărilor sonore. Taurus gestionează, de asemenea, un istoric al statisticilor de exploatare a bazei documentare.

Sub acest nucleu se realizează numeroase funcţii ce privesc:• Pilotarea discurilor optico-numerice, a lectorilor şi a plăcilor de numerizare a

microfilmelor, vodeodiscurilor şi compact discurilor;• Recunoaşterea optică a caracterelor;• Conectarea în reţea;• Comprimarea/decompriarea imaginilor cu şi fără pilotarea scannerelor şi

imprimantelor;• Interpretarea surselor în limbaj C;• Importarea de fişiere de diferite tipuri şi formate;• Numerizarea şi gestionarea documentelor sonore, precum şi captarea de

imagini video.

Page 91: CURS Tehnici Multimedia

- 91 -

Capitolul VII. Dezvoltarea şi furnizarea proiectelor multimedia

Înaintea dezvoltării oricărui proiect multimedia trebuie definit scopul acestuia şi identificate metodele prin care acesta poate fi dezvoltat. Etapele ce trebuiesc urmate sunt următoarele:

1. Definirea ideii2. Analiza: necesităţilor, costurilor, conţinutului, pieţei, tehnologiilor,

mediului de distribuţie3. Evaluare/Raportare: reproiectare - implementare/renunţare4. Pretestare: definirea obiectivelor proiectului, definirea abilităţilor necesare,

crearea structurii, poziţionarea vânzărilor şi marketingului, crearea prototipului/ renunţare5. Dezvoltarea prototipului: proiectarea structurii, proiectarea interfeţei,

dezvoltarea mesajului, testarea prototipului6. Focus-group: evaluare/raportare, reproiectare - implementare/renunţare7. Dezvoltare Alpha: detaliere, finalizare, producerea elementelor grafice,

producerea elementelor video/audio, rezolvarea problemelor tehnice, testarea prototipului8. Focus group: evaluare/raportare, reproiectare şi implementare9. Dezvoltare Beta: distribuire către testare, implementare potenţiale corecţii,

pregătirea documentelor pentru utilizatori, ambalare, pregătirea listei clienţilor vizaţi, anunţarea presei şi stakeholderilor (persoane fizice sau juridice interesate).

10. Evaluare/raportare: reproiectare – implementare11. Furnizare: pregătirea suportului tehnic, pregătirea echipei de vânzări,

lansare şi distribuire.În vederea definirii ideii trebuiesc avute în vedere următoarele aspecte:

· Care este esenţa a ceea ce se doreşte să se realizeze/scopul/mesajul pe carese doreşte a fi transmis;

· Cum se poate organiza dezvoltaea proiectului;· Ce elemente multimedia (text, sunet, imagine) vor transmite mai bine

mesajul dorit;· Daca există deja alte materiale, precum casete video, casete cu muzică,

documente, fotografii, logo-uri, reclame, pachete de marketing ce pot ajuta în dezvoltareaproiectului;

· Dacă ideea derivă dintr-o temă deja existentă care poate fi dezvoltată prinmijloace multimedia sau se dezvoltă ceva complet nou;

· Ce tehnică de calcul este disponibilă pentru dezvoltarea proiectului/ dacăeste suficientă;

· Cât spaţiu de depozitare a informaţiei pe calculator, este necesar şi de câtse dispune;

· Ce tehnică de calcul au la dispoziţie utilizatorii finali;· De ce tehnică multimedia se dispune;· Care sunt capacităţile şi abilităţile soft şi hard de care se dispune;· Daca firma poate dezvolta singură proiectul/ cine o poate ajuta;· De cât timp dispune pentru dezvoltarea lui;· De ce buget dispune;· Cum va fi distribuit produsul final;

Timpul investit în definirea proiectului în acest mod, realitate-testare, poate fi cea mai valoroasă investiţie. Va ajuta firma să se decidă dacă va dezvolta proiectul sau renunţă la idee.

Dacă se decide că ideea este valoroasă, atunci se poate trece la etapa următoare,

Page 92: CURS Tehnici Multimedia

- 92 -

pretestarea. Obiectivele proiectului trebuiesc definite în cele mai mici detalii, din punct de vedere al abilităţilor necesare pentru dezvoltarea lui şi utilizarea lui, al bugetului şi conţinutului. Proiectul trebuie definit în documente mai întâi, detaliat având explicaţii foarte clare legate de modul de funcţionare.

Rolul principal al dezvoltării prototipului este de testare a ideii şi îmbunătăŃire, funcţie de rezultatele obţinute în urma focus-grupului. Ulterior acestei etape se pot reproiecta eventualele corecţii ce au fost identificate în urma analizei reacţiei potenţialilor end-useri ( utilizatori finali).

Multimedia este o tehnologie în dezvoltare şi necesită deţinerea anumitor abilităţi. Utilizatorii ei provin din diferite arii de activitate, prin urmare pentru dezvoltarea echipei este necesară cunoaşterea exactă a abilităţilor şi cunoştinţelor ce vor fi solicitate pentru dezvoltarea proiectului, astfel încât să fie evitate potenţiale dificultăîi generate de insatisfacţia clientului referitor la cantitatea sau calitatea materialului furnizat.

În cadrul proiectului multimedia pot fi mai multe sacini de îndeplinit. O listă scută a sarcinilor ce trebuiesc avute în vedere, este următoarea:

· Proiectarea cadrului de instruire· Susţinerea de sesiuni de dezvoltare de idei· Identificarea platformei de distribuţie multimedia· Identificarea platformei authoring· Identificarea conţinutului care este disponibil· Dezvoltarea structurii de navigare· Crearea de planşe· Dezvoltarea intefeţei· Dezvoltarea conţinutului informativ· Cercetarea· Formarea echipei· Construirea prototipului· Testarea· Revizuirea aspectelor legate de design· Crearea graficii· Crearea animaţiei· Producerea efectelor audio· Producerea efectelor video· Digitizarea audio şi video· Testarea functionalităţii· Amplasarea lor în proiectul multimedia· Testarea finală· Multiplicarea· Pregătirea pachetelor· Furnizarea (şi instalarea)

Etapa de planificare presupune planificarea din punct de vedere temporal a tuturor fazelor, sarcinilor şi articolelor necesare pentru o bună dezvoltare şi implementare a proiectului. Pentru aceasta este necesară estimarea tuturor timpilor necesari pentru îndeplinirea fiecărei sarcini şi alocarea acestuia persoanelor ce vor fi implicate în dezvoltarea proiectului. În cazul acestor tipuri de proiecte, planificarea poate fi foarte dificilă, din cauza faptului că presupune foarte multe încercări şi erori, în dezvoltarea părţii artistice şi în plus, datorita necesităţii de îmbunătăţire tehnologică permanentă în ceea ce priveşte aspectele legate de soft şi hard. Mai mult fiecare etapă a proiectului trebuie aprobată de client, acest lucru necesitând timp şi eventuală revizuire a etapei de proiect ce a fost supusă examinării, în vederea aprobării.

Page 93: CURS Tehnici Multimedia

- 93 -

În estimarea consturilor trebuie să incluse toate costurile de dezvoltare a proiectului, inclusiv cele de administraţie şi management. Trebuie ţinut cont de faptul că dacă proiectul care va fi dezvoltat este creat pentru un client, a discuta cu acesta la telefon înseamnă bani şi timp, la fel şi scrierea de rapoarte şi transmiterea de mail-uri către acesta. În plus unii dintre membrii echipei, care reprezintă graficianul, muzicianul, designer-ul şi persoana care concepe textul, presupun o investiţie de timp şi bani mai mare pentru îndeplinirea sarcinilor. Mai mult aceştia trebuie să participe la sesiunile de lucru şi la cele creative ale proiectului. Ca un element general valabil, trebuie să se ţină seama de faptul că trei elemente principale sunt variabile în proiect: timpul, banii şi oamenii implicaţi în dezvoltarea acestuia. Orice variaţie în sensul ceşterii sau descreşterii unuia din aceste elemente presupune variaţia în sens contrar a unuia sau a celorlate două elemente.

Costurile dezvoltării proiectului multimedia includ:1. Costuri de dezvoltareCategoriile de cheltuieli ce trebuiesc luate în considerare pentru dezvoltarea unui

proiect multimedia sunt: salariile, întâlnirile cu clienţii, achiziţia conţinutului, costurile de comunicare, de deplasare, legate de propuneri şi pegătirea contractului, cheltuieli de regie.

2. Costurile de producţieCategorii de cheltuieli:

. management (salarii, comunicare, transport, consumabile)

. achiziţia conţinutului (salarii, cercetare, licenţe)

. producţia grafică (salarii, hard/soft, taxe pentru utilizare de conţinut,animaţie, consumabile)

. producţia audio (salarii, hard/soft, taxe studio, licenţe, consumabile,stocare date, taxe muzicieni/cântăreţi)

. producţia video (salarii, had/soft, închirieri echipamente, taxe talente,închirieri locaţii, închiriere studio, achiziţii digitale şi editare,consumabile)

3. Costuri de testareCategorii de cheltuieli: salarii, focus-grupuri, editare, Progam Beta4. Costuri de distibuţieCategorii de cheltuieli: salarii, documentare, împachetare, producţie, marketing,

publicitate, furnizare.Toate propunerile multimedia înaintate clienţilor trebuie să includă o descriere a

audienţei vizate şi a platformei multimedia ce va fi utilizată. Trebuie ţinut cont de faptulcă există posibilitatea ca utilizatorul final să nu dispună de toate capacităţile multimedia pe care le are şi firma care le crează şi prin urmare este important să existe o descriere detaliată a platformei hard şi soft necesară pentru furnizarea produsului final către utilizator. În funcţie de scopul proiectului şi de mărimea şi stilul echipei, pot fi dezvoltate două abordări în crearea unui proiect multimedia original. Poate fi investit mai mult efort în crearea unui cuprins sau a unei schiţe grafice a proiectului care să descrie proiectul în detaliu. Această abordare este recomandată pentru echipe care sunt capabile să construiască rapid prototipuri şi la fel de repede să le convertească în produs final. O altă abordare pune mai puţin accent pe cuprins, utilizând mai puţin design, şi concentrează mai mult efort în transmiterea informaţiilor.

Metoda utilizată depinde integral de sarcinile pe care echipa de proiect trebuie să le îndeplinească, dacă atât design-ul cât şi implementarea vor fi realizate de aceeaşi echipă sau de către echipe de proiect separate, ceea ce va presupune o mai mare detaliere a tuturor specificaţiilor. Ambele abordări necesită însă aceeaşi cunoaştere a instrumentelor şi capacităţilor multimedia şi ambele necesită un cuprins sau o schiţă a proiectului.

Prima abordare este, de obicei, mai agreată de clienţi, care preferă să aibă mai mult control asupra procesului de producţie şi a costurilor de producţie. În ambele cazuri însă, cu

Page 94: CURS Tehnici Multimedia

- 94 -

cât etapele proiectului sunt mai bine planificate, cu atât mai bine şi mai uşor este constuit proiectul.

Bibliografie

1. Hammond Ray, Digital Business – Surviving and Thriving în an On-lineWorld, Coronet Books, Hoder and Stoughton, London, 19962. Linda Bird, Internet – Ghid complet de utilizare, Editura Corint, Bucuresti20043. Ion Smeureanu, Georgeta Drula, Multimedia, concepte si practică, EdituraCISON, Bucuresti, 19974. Tay Vaughan, Multimedia – Making it Work, Publisher Osborne/McGraw Hill,Berkeley, 20015. Gârdan, D.,A., Tehnici Multimedia , Universitatea Spiru Haret ,Bucureşti6. Guan, Ling et al. “Frontmatter” Multimedia Image and Video Processing Ed. Ling Guan et al. Boca Raton: CRC Press LLC, 2001 ( eBook)7. Buraga Sabin Corneliu, Tehnologii Web, vol. I, II , Matrix Rom, Bucuresti, 2001

Page 95: CURS Tehnici Multimedia

- 95 -