Mauro Graziani - Audio Analogico

8/18/2019 Mauro Graziani - Audio Analogico...

1/14

Mauro GrazianiMauro GrazianiMauro GrazianiMauro GrazianiConservatorio E.F. Dall'Abaco - VeronaConservatorio E.F. Dall'Abaco - VeronaConservatorio E.F. Dall'Abaco - VeronaConservatorio E.F. Dall'Abaco - Verona

Biennio di Composizione Ind. Tecnologico/MultimedialeBiennio di Composizione Ind. Tecnologico/MultimedialeBiennio di Composizione Ind. Tecnologico/MultimedialeBiennio di Composizione Ind. Tecnologico/Multimediale

Modelli di analisi, rappresentazione e trattamento digitale delModelli di analisi, rappresentazione e trattamento digitale delModelli di analisi, rappresentazione e trattamento digitale delModelli di analisi, rappresentazione e trattamento digitale del

suonosuonosuonosuonoModulo 3Modulo 3Modulo 3Modulo 3

Analisi e Rappresentazione mediante FFTAnalisi e Rappresentazione mediante FFTAnalisi e Rappresentazione mediante FFTAnalisi e Rappresentazione mediante FFT

NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseg NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseg NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseg NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseguenza la loro uenza la loro uenza la loro uenza la loro qualità è inferiore rispetto a quelli qualità è inferiore rispetto a quelli qualità è inferiore rispetto a quelli qualità è inferiore rispetto a quelli in formato lineare in formato lineare in formato lineare in formato lineare distribuiti nel corso delle lezioni.distribuiti nel corso delle lezioni.distribuiti nel corso delle lezioni.distribuiti nel corso delle lezioni.

0. Introduzione0. Introduzione0. Introduzione0. Introduzione

In questa figura è schematizzato il passaggio dalla musica all'analisi del singolo suono. È importanteosservare che, fino al riquadro b passiamo attraverso vari livelli di ingrandimento del fenomeno sonoro: dac in poi, invece, passiamo all'analisi.

uro Graziani - Audio analisi - Pensare il suono http://www.maurograziani.org/text_pages/analisi/l03/MG...

14 27/10/2010 10.59


2/14


14 27/10/2010 10.59


3/14

Si tratta di questa breve nota di pianoforte (Re4) vista:

come inviluppo, nella sua evoluzione temporale in ampiezzaa.come forma d'onda non statica ma in evoluzione nel corso della notab.come fft istantanea che, in questo punto, evidenzia le componenti armoniche e un po' di rumorec.come sonogramma che delinea le componenti e il variare della loro ampiezza nel tempod.come spettrogramma in 3D che evidenzia anche l'inviluppo delle singole armonichee.

La tecnica utilizzata in queste analisi è la FFT (fast fourier transform: trasformata veloce di Fourier) che è laversione ottimizzata per massimizzare la velocità di calcolo su computer della DFT (discrete fouriertransform: trasformata discreta di Fourier).

1. FFT1. FFT1. FFT1. FFT

La base della FFT è il fatto che ogni segnale può essere scomposto in una serie di sinusoidi, ciascuna dellequali possiede una ben determinata frequenza, ampiezza e fase (teorema di Fourier).Bisogna notare che la trasformata di Fourier non è l'unica esistente. Esistono altre trasformate in grado discomporre un segnale in una serie di componenti dello stesso tipo. Quella di Walsh, per esempio,scompone un segnale in una serie di onde quadre e presenta dei vantaggi dal punto di vista della sintesi

(le onde quadre sono molto più facili da generare rispetto alle sinusoidi). La trasformata di Fourier, però,evidenzia alcune caratteristiche interessanti:

Gli elementi base della scomposizione (le sinusoidi) sono onde prive di armonici. Possono quindiessere considerate come "i mattoni" mediante la cui somma si crea un suono complesso.In effetti, questa proprietà è verificabile in quanto, sommando le suddette sinusoidi, si ottiene ilsuono di partenza, come potete sentire in questo esempio.È vero che la stessa cosa accadrebbe anche sommando le onde generate da una qualsiasi altratrasformata, ma la scomposizione basata su Fourier ha una maggiore evidenza percettiva. È più moltofacile farsi una immagine di un suono come somma di elementi percettivamente semplici, come lesinusoidi, rispetto alla somma di elementi complessi.

Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere le sue componenti, siano essearmoniche o meno, passando dalla visione della forma d'onda, con il tempo sull'asse X, alla visione infrequenza (frequenze sull'asse X). Proprio per questo è corretto dire che, con la FFT, si passa dal dominiodel tempo a quello della frequenza.Il principale parametro di controllo della FFT è la sua risoluzione che è determinata dal numero dicampioni (detti "punti") su cui viene effettuata. Come vedete nella figura seguente, le componenti (oparziali) della nota di pianoforte di cui sopra sono via via più evidenti con l'aumentare del numero dipunti. Naturalmente un maggior numero di punti significa anche un maggior tempo di calcolo.


14 27/10/2010 10.59


4/14

Si ha, quindi, un passaggio dal dominio del tempo a quello delle frequenze. Come tale, però, la FFT è unaanalisi istantaneaistantaneaistantaneaistantanea che vale solamente in quel punto del suono. Dato che il suono è in evoluzione, poteteconsiderare una singola FFT come un fotogramma di un film.

1.1 Interpretazione della FFT1.1 Interpretazione della FFT1.1 Interpretazione della FFT1.1 Interpretazione della FFT

Dal punto di vista matematico la FFT è un procedimento che esprime una funzione come somma disinusoidi.Dal punto di vista acustico può benissimo essere vista come un più semplice e comprensibile banco di filtriche suddivide l'intero spazio delle frequenze da 0 a SR/2 in tante bande quanti sono i punti diviso 2. UnaFFT a 1024 punti, quindi, equivale a suddividere il campo frequenziale in 512 bande.Si può quindi considerare la FFT come un sistema che misura l'energia contenuta in ognuna di questebande. Se, per es., si lavora con 2048 punti, è come se si dividesse l'intero spazio frequenziale fra 0 e SR/2in 2048 / 2 = 1024 parti. Di conseguenza, con SR = 44100, ogni banda sarebbe larga mediamente circa 22050/ 1024 = 21.53 Hz.Vedendo la cosa in questo modo, si capisce anche perché la risoluzione in frequenza aumenta con ilnumero dei punti e quindi anche perché, nella figura qui sopra, con 256 punti non si isolano le componenti.

22050 / 128 = circa 172 Hz, che è troppo per isolare delle singole sinusoidi. La situazione migliora con 512punti (risoluzione circa 86 Hz), è buona con 2048 (ris. circa 22 Hz) e ottima con 16384 punti (ris. circa 2.69Hz).

La seconda cosa da ricordare è che, comegià detto, l'analisi è istantanea e vale, cioè,solo per l'istante in cui è stata effettuata. Ilpunto di analisi è quello mediano rispetto alsegmento analizzato. Se abbiamo un suonocon SR = 44100 e facciamo una analisi su4096 punti che a 44100 corrispondono quasia 1/10 di sec., l'istante a cui l'analisi si

riferisce è il centro di quei 4096 campioni.Prima e dopo, il suono potrebbe esserediverso.È quindi errato fare una analisi e pensare "in questo suono troviamo queste componenti". Il concetto esattoè "in questo suono, in questo istante, troviamo queste componenti".


14 27/10/2010 10.59


5/14

In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e poi moltiplicato per un inviluppo aforma di campana (con il massimo al centro) e trasformato come nella figura a fianco. Questo per evitareche il troncamento alle estremità influenzi il risultato. L'effetto della finestra è quello di dare un pesomaggiore al centro del segmento e mostrare lo spettro con maggiore pulizia.Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si differenziano per la pendenza e la formadei lati, il cui effetto su frequenza e ampiezza è ridotto, ma è più evidente sulla fase delle componentirisultanti, quindi per il momento lo possiamo ignorare. Normalmente si usano finestre di Hamming oBlackmann. Chi volesse una trattazione matematica rigorosa della FFT può consultare questa dispensa in

PDF, a cura di R. Di Federico distribuita dal DEEI Un. di Padova.Ultima considerazione: la FFT si fa su suoni monofonici. Se un suono è stereo, l'unica possibilità è farnedue, una per canale nello stesso punto.

1.2 Sonogramma e Spettrogramma1.2 Sonogramma e Spettrogramma1.2 Sonogramma e Spettrogramma1.2 Sonogramma e Spettrogramma

Ora il nostro problema è: se la FFT è istantanea, come si può creare una mappa completa dell'evoluzione diun suono nel tempo?La risposta è semplice: per poter ottene una tale mappa, occorre fare una serie di singole analisi a intervalliregolari per tutta la durata dell'evento sonoro. Otteniamo così un sonogramma in cui abbiamo il temposull'asse X, le frequenze sull'asse Y e ogni componente è rappresentata da una linea che si estende nel

tempo, il cui colore è tanto più forte quanto è maggiore l'ampiezza.Poiché la rappresentazione è sul piano, mentre le dimensioni da rappresentare sono 3 (frequenze, tempo eampiezza), per la terza si deve ricorrere al colore. Lo schema dei colori può essere diverso, ma l'importanteè che sia in grado di evidenziare le differenze di ampiezza creando con lo sfondo un contrasto tantomaggiore quanto più l'ampiezza è elevata.

Con lo stesso procedimento si può ottenere uno spettrogramma. Si tratta di una rappresentazione 3D in cuiabbiamo ancora le frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate comealtezze sull'asse Z. In tal modo è possibile distinguere chiaramente anche l'inviluppo dei singoli armonici.Ovviamente in quest'ultimo caso la colorazione è accessoria e non del tutto necessaria, però. se è sensata,aiuta, così come aiuta il fatto che lo spettrogramma possa essere ruotato e studiato da diverse prospettive.

Il problema della risoluzione temporale in un sonogrammaIl problema della risoluzione temporale in un sonogrammaIl problema della risoluzione temporale in un sonogrammaIl problema della risoluzione temporale in un sonogramma

Nel caso del sonogramma, dobbiamo anche tener conto della velocità con cui il suono cambia nel tempo. Isuoni emessi dagli strumenti musicali variano abbastanza lentamente e con una certa gradualità, tranne


14 27/10/2010 10.59


6/14

che nel momento dell'attacco in cui possono esserci anche variazioni molto veloci (i cosiddetti "transitori"o "transienti").In natura, però, possiamo trovare anche suoni che, nel corso della loro vita, esibiscono variazioni moltocomplesse e veloci. In tal caso, a volte, la ricerca di una maggiore risoluzione in frequenza, aumentando ilnumero dei punti e quindi la lunghezza del segmento su cui si fa l'analisi, può contrastare con la visione divariazioni temporali troppo veloci. La risoluzione in frequenza contrasta con la risoluzione temporale.Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di analisi è lunga 16384 punti, essa dura16384 / 44100 = 0.37 secondi, il che significa che ogni variazione che dura meno ha buone probabilità di

risultare malamente definita in senso temporale. La cosa è mitigata solo dal fatto che, nella serie di analisiper creare il sonogramma, le finestre delle varie analisi vengono parzialmente sovrapposte. Comunque, inquesti casi, una FFT con pochi punti seguirà meglio il fenomeno rispetto a una con più punti, anche sequest'ultima produce risultati più definiti in frequenza.Ascoltate questo uccellino e osservate il sonogramma nella figura qui sotto. Fatelo varie volte in modo dacapire bene la corrispondenza fra suono e rappresentazione. Se avete Cool-Edit, andate in Spectral View incui potete vedere il sonogramma con la barra in movimento durante il play.

NB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suNB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suNB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suNB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suoni. Pendetelooni. Pendetelooni. Pendetelooni. Pendetelocome una specie di solfeggio timbrico e sonoro.come una specie di solfeggio timbrico e sonoro.come una specie di solfeggio timbrico e sonoro.come una specie di solfeggio timbrico e sonoro.

Il numero di punti di questo sonogramma è 1024. Supponiamo di voler aumentare la risoluzione infrequenza e aumentiamo il numero di punti a 16384. Quello che otteniamo è il sonogramma seguente

Notate come le variazioni rapide siano andate quasi completamente perse. In particolare, non si vedonopiù i veloci glissati discendenti a circa 2 sec., il cui posto è stato preso da masse di estensione che va dallafrequenza superiore a quella inferiore dell'intero glissato.Nel caso dei sonogrammi, quindi, è molto importante scegliere il giusto numero di punti cercando uncompromesso fra definizione in frequenza e definizione temporale.Curiosità finale: guardate il bellissimo paesaggio disegnato dallo spettrogramma del canto dell'uccellino.


14 27/10/2010 10.59


7/14

1.2 Analisi di suoni reali1.2 Analisi di suoni reali1.2 Analisi di suoni reali1.2 Analisi di suoni reali

1.2.1 Analisi istantanea1.2.1 Analisi istantanea1.2.1 Analisi istantanea1.2.1 Analisi istantaneaSubito un caso complesso. SIb di pianoforte. Notate l'alto numero di parziali armoniche, sia pure conqualche piccola deviazione (la fondamentale è 232.8). Notate anche che la parziale che ha maggiorampiezza è la seconda, all'8va sopra la fondamentale. Non è un caso particolare. Accade spesso e dipendedalla cassa di risonanza o dalla risonanza del corpo dello strumento (vedi CD Acustica).Guardate sempre il numero in basso a destra, sotto l'asse orizzontale come riferimento per l'estensionedello spettro.

SOL basso di violoncello


14 27/10/2010 10.59


8/14

SOL di tromba qui la terza parziale ha l'ampiezza maggiore

E ora qualche suono con parziali inarmonicheUn gong

Tam-tam (grande gong non intonato)


14 27/10/2010 10.59


9/14

Piatto (batteria)

Notate come, in questi ultimi due casi che si avvicinano molto al rumore indifferenziato (soprattutto ilpiatto), non abbia più senso parlare di parziali, ma solo di bande di rumore più o meno estese. Nel caso delpiatto c'è una banda centrata intorno ai 6000 Hz e un'altra fra i 12000 e 20000 Hz.Ora guardate un rumore quasi totalmente indifferenziato come quello prodotto da una fontana

Come vedete, non si vedono parziali, ma solo una banda continua la cui ampiezza diminuisce verso gliacuti.

1.2.2 Analisi nel tempo1.2.2 Analisi nel tempo1.2.2 Analisi nel tempo1.2.2 Analisi nel tempo

Ora esamineremo gli stessi suoni mediante sonogramma per osservare la variazione dello spettro neltempo. Il link ai suoni non è riportato essendo lo stesso degli esempi di cui sopra.


14 27/10/2010 10.59


10/14

Ogni sonogramma racconta una storia che in qualche caso diventa un romanzo. Bisogna saper leggere isonogrammi come carta stampata.

Sib di pianoforteSib di pianoforteSib di pianoforteSib di pianoforte

Notate:

il rumore della percussione (martelletto) che si vede come banda rossa nel primo 10mo di secondo. Èun rumore indifferenziato che si estende ad alto volume fino a circa 7000 Hz, ma arriva anche più inalto.la grande quantità di armonici nella prima parte del suono. All'istante dell'attacco si arriva fino acirca 15000 Hz (qualcuno isolato anche oltre)

la rapida scomparsa delle componenti alte: la maggior parte è già sparita entro il primo secondo disuono. La loro durata decresce in funzione dell'altezza seguendo una curva esponenzialedecrescente. Questo comportamento è tipico dei suoni a evoluzione liberaQuesto comportamento è tipico dei suoni a evoluzione liberaQuesto comportamento è tipico dei suoni a evoluzione liberaQuesto comportamento è tipico dei suoni a evoluzione libera (pizzicati,percussivi).le componenti che vanno e vengono (linee interrotte), indice di battimentiil blob rosso finale sui bassi è lo smorzatore.

Sol basso di violoncelloSol basso di violoncelloSol basso di violoncelloSol basso di violoncello


di 14 27/10/2010 10.59


11/14

Anche qui molti armonici, ma la maggior parte è piuttosto debole. Solo quelli in rosso hanno una ampiezzachiaramente sensibile, ma tutti gli altri, sebbene singolarmente non siano così evidenti, nel loro insiemedanno corpo al suono.Le macchie in alta frequenza sono interpretabili (a posteriori) come il rumore dell'arco che è proprio unosfregamento a frequenze alte.Notate che, al momento dell'attacco, gli armonici arrivano quasi tutti insieme (con un beve ritardo), poirimangono in buona parte stabili per tutta la durata del suono e scompaiono in breve tempo (a cominciaredalle componenti alte) alla fine. Questo comportamento è tipico dei suoni a evoluzione controllataQuesto comportamento è tipico dei suoni a evoluzione controllataQuesto comportamento è tipico dei suoni a evoluzione controllataQuesto comportamento è tipico dei suoni a evoluzione controllata

(archi, fiati). In questo caso il decadimento è lungo (quasi 1/2 secondo) e dipende dal fatto che la cordariesce ancora a vibrare se l'arco viene tolto di colpo.

In entrambi questi esempi abbiamo visto molti armonici. Ciò dipende dal fatto che, in entrambi i casi,abbiamo analizzato note basse generate da corde grosse. In genere, i suoni bassi hanno una maggiorequantità di armonici, per varie ragioni:

le strutture vibranti più massicce possono vibrare in modo più complesso rispetto a quelle sottilinormalmente, le strutture vibranti che emettono suoni bassi vengono trattate con maggiore violenza,sia perché sono più massicce, ma soprattutto per compensare l'effetto Fletcher (vedi CD Acustica:curve di Fletcher) per cui occorre una ampiezza assoluta notevolmente maggiore per produrre suonipercepiti allo stesso volume di quelli nella banda 500 - 2000 Hzgli armonici di fondamentali alte escono molto prima dalla banda udibile: una fondamentale a 100Hz ha il 200mo armonico a 20000 Hz, mentre se la fondamentale è a 2000 Hz, già il 10mo armonico èa 20000 Hz.

Sol di trombaSol di trombaSol di trombaSol di tromba

Due grafici per la tromba: a sin. l'inviluppo, a des. il sonogramma.Notate come l'attacco in sfz , tipico degli ottoni e ben visibile nell'inviluppo (occorre superare una certasoglia perché scatti la vibrazione) si rifletta nel sonogramma con componenti che all'inizio risultano piùforti e meno precise (un po' più sporche).Notate anche come esista un leggero glissando al momento dell'attacco, più visibile nelle frequenze alte. Inrealtà l'entità del glissando è uguale, in percentuale, su tutte le componenti, ma, essendo l'asse Y lineare enon logaritmica, si vede di più sugli alti (se è dell'1%, a 300 Hz è 3 e a 3000 Hz è 30).Infine, il giallo diffuso, è il rumore del soffio.

GongGongGongGong


di 14 27/10/2010 10.59


12/14

Un suono inarmonico, come si vede bene nell'ingrandimento a des. (la distanza fra le componenti èvariabile).Per il resto, il quadro è quello tipico dei suoni a evoluzione libera: percussione iniziale con parecchiecomponenti che spompaiono rapidamente seguendo un pronunciato andamento esponenziale.

TamtamTamtamTamtamTamtam

Molte componenti che vanno a riempire dapprima lo spazio sui bassi e poi si estendono verso l'alto (iltamtam è grande e impiega tempo, circa 1 sec., a entrare in vibrazione nella sua interezza). Ci avviciniamoal rumore indistinto a banda limitata, ma esistono alcune componenti molto pronunciate (soprattuttoquella più bassa che agisce come pseudo-fondamentale).Il decadimento rispetta sempre la legge secondo cui gli alti se vanno prima, ma in modo meno regolare, acausa delle grandi dimensioni e della diversa densità e spessore del materiale che lo compone.

PiattoPiattoPiattoPiatto


di 14 27/10/2010 10.59


13/14

Siamo al rumore indistinto. La differenziazione fra le singole componenti si perde in favore di 2 bande: laprima arriva fino a circa 11000 Hz con centro intorno ai 6000/8000, la seconda fra 12000 e quasi 20000 Hz.Alcune componenti della prima banda rimangono come rumore residuo (molto debole) quando il piatto èstoppato.

FontanaFontanaFontanaFontana

Infine, la fontana: rumore statico, indifferenziato, con maggior peso sulle frequenze basse. Notate ladifferenza qualitativa con l'esempio precedente: qui non c'è il minimo accenno a delle righe che possanosuggerire delle componenti.

Ora, per avere un'idea della complessità dell'analisi e della ricostruzione eseguite in tempo reale dal nostrosistema percettivo, osservate il sonogramma di un frammento musicale solistico che potete ascoltarecliccando sul titolo.

Albenitz - Asturias (frag.)Albenitz - Asturias (frag.)Albenitz - Asturias (frag.)Albenitz - Asturias (frag.)


di 14 27/10/2010 10.59


14/14

Index Back Next


Documents

Mauro Graziani - Audio Analogico