12
Analyse van de zangstem : geluiden in beeld Koen Eneman 1,2 , Tom Francart 1 1 ExpORL – Dept. Neurowetenschappen – Katholieke Universiteit Leuven O & N 2, Herestraat 49 bus 721 B-3000 Leuven, België 2 Groep T Leuven Engineering College Vesaliusstraat 13 B-3000 Leuven, België Inleiding Dankzij het samenbrengen van kennis uit verschillende wetenschapsdomeinen, zoals de anatomie, fysiologie, fonetiek, fysica en signaalanalyse, is de laatste decennia belangrijke vooruitgang geboekt op het vlak van de kennis van de menselijke stem. Deze ontwikkelingen gaan hand in hand met de peilsnelle evolutie in het domein van de informatisering, wat leidt tot steeds meer geavanceerde, computergebaseerde analyse- en visualisatietechnieken waarmee stemgeluiden op een snellere en beter kwantificeerbare wijze geanalyseerd kunnen worden. Deze recente ontwikkelingen op het vlak van de kennis van de menselijke stem en het gebruik van softwaregebaseerde visualisatietechnieken kunnen het zangonderricht en de zangpraktijk in belangrijke mate ondersteunen. Dat dit voorlopig slechts in beperkte mate gebeurt, valt deels te verklaren door de intrinsieke aard en de natuur van het zingen. Nog meer dan bij het aanleren van een muziekinstrument wordt de zangpedagoog geconfronteerd met een complex en in hoofdzaak intern en dus onzichtbaar klankproductieproces, en is daarom veelal aangewezen op een louter intuïtieve duiding en bijsturing. Daarenboven is de denkwereld van de zanger, van de wetenschapper gespecialiseerd in de menselijke stem en van de expert in signaal- en dataverwerking erg verschillend. Ieder gebruikt een specifiek jargon en eigen methoden, zodat specialisten uit verschillende disciplines elkaar vaak niet begrijpen. De doelstelling van deze tekst is dan ook tweevoudig. Enerzijds willen we een aantal basisbegrippen uit het domein van de fysica en de signaalanalyse toelichten en demystificeren met als doel beter inzicht te verschaffen in de fundamentele fysische processen die ten grondslag liggen aan de productie van spraak- en zangsignalen. Anderzijds trachten we aan te tonen hoe we met behulp van een softwarepakket en steunend op deze basisbegrippen (zang)stemsignalen kunnen visualiseren en analyseren, en hoe dit kan bijdragen tot een verbeterd en versneld leerproces in zangonderricht. Het is hierbij geenszins de bedoeling klassieke zangmethoden in twijfel te trekken of door het gebruik van technische hulpmiddelen zingen te verengen tot een louter technische aangelegenheid waar het artistieke geen plaats heeft. In tegendeel, het verwerven van inzicht in het functioneren van de stem en het gebruik maken van softwareondersteuning kunnen bijkomende hulpmiddelen zijn die het leerproces versnellen.

Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

  • Upload
    others

  • View
    3

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

Analyse van de zangstem : geluiden in beeld

Koen Eneman1,2, Tom Francart1

1ExpORL – Dept. Neurowetenschappen – Katholieke Universiteit Leuven O & N 2, Herestraat 49 bus 721

B-3000 Leuven, België

2Groep T Leuven Engineering College Vesaliusstraat 13

B-3000 Leuven, België

Inleiding

Dankzij het samenbrengen van kennis uit verschillende wetenschapsdomeinen, zoals de anatomie, fysiologie, fonetiek, fysica en signaalanalyse, is de laatste decennia belangrijke vooruitgang geboekt op het vlak van de kennis van de menselijke stem. Deze ontwikkelingen gaan hand in hand met de peilsnelle evolutie in het domein van de informatisering, wat leidt tot steeds meer geavanceerde, computergebaseerde analyse- en visualisatietechnieken waarmee stemgeluiden op een snellere en beter kwantificeerbare wijze geanalyseerd kunnen worden. Deze recente ontwikkelingen op het vlak van de kennis van de menselijke stem en het gebruik van softwaregebaseerde visualisatietechnieken kunnen het zangonderricht en de zangpraktijk in belangrijke mate ondersteunen. Dat dit voorlopig slechts in beperkte mate gebeurt, valt deels te verklaren door de intrinsieke aard en de natuur van het zingen. Nog meer dan bij het aanleren van een muziekinstrument wordt de zangpedagoog geconfronteerd met een complex en in hoofdzaak intern en dus onzichtbaar klankproductieproces, en is daarom veelal aangewezen op een louter intuïtieve duiding en bijsturing. Daarenboven is de denkwereld van de zanger, van de wetenschapper gespecialiseerd in de menselijke stem en van de expert in signaal- en dataverwerking erg verschillend. Ieder gebruikt een specifiek jargon en eigen methoden, zodat specialisten uit verschillende disciplines elkaar vaak niet begrijpen. De doelstelling van deze tekst is dan ook tweevoudig. Enerzijds willen we een aantal basisbegrippen uit het domein van de fysica en de signaalanalyse toelichten en demystificeren met als doel beter inzicht te verschaffen in de fundamentele fysische processen die ten grondslag liggen aan de productie van spraak- en zangsignalen. Anderzijds trachten we aan te tonen hoe we met behulp van een softwarepakket en steunend op deze basisbegrippen (zang)stemsignalen kunnen visualiseren en analyseren, en hoe dit kan bijdragen tot een verbeterd en versneld leerproces in zangonderricht. Het is hierbij geenszins de bedoeling klassieke zangmethoden in twijfel te trekken of door het gebruik van technische hulpmiddelen zingen te verengen tot een louter technische aangelegenheid waar het artistieke geen plaats heeft. In tegendeel, het verwerven van inzicht in het functioneren van de stem en het gebruik maken van softwareondersteuning kunnen bijkomende hulpmiddelen zijn die het leerproces versnellen.

Page 2: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

Basisconcepten

Vooraleer we de mogelijkheden van een softwarepakket voor de visualisatie en analyse van zangstemsignalen bespreken, lichten we eerst een aantal basisconcepten uit het domein van de fysica, psycho-akoestiek, fonetiek en signaalanalyse toe. Inzicht in deze begrippen laat toe om de grafische output die het softwarepakket produceert, beter te begrijpen, en reikt bijkomende achtergrondkennis aan aan de zangstudent en professionele zanger. Geluid Een variatie (verstoring) van de luchtdruk die we met het oor kunnen waarnemen, wordt geluid genoemd. Geluid ontstaat wanneer een geluidsbron (menselijke stem, muziekinstrument, luidspreker, ...) trillingen teweegbrengt die zich verplaatsen doorheen de lucht en na verloop van tijd het oor van de luisteraar bereiken. Stemgeluid Kenmerkend voor de menselijke stem is dat ze ons in staat stelt een grote diversiteit aan geluiden te produceren. Die diversiteit heeft zowel betrekking op de aard van het geluidssignaal (vergelijk de klinker [a:] met de medeklinker [X]), de toonhoogte (een getrainde stem kan zelfs 3 octaven bestrijken) alsook het volume (vergelijk zeer stil spreken met het zingen van een luide eindnoot in een opera-aria). (A)periodisch geluid Grosso modo kan men menselijke stemgeluiden in twee klassen onderverdelen. Men spreekt zo van periodische en aperiodische signalen. Bij periodische signalen herhaalt dezelfde golfvorm zich steeds in de tijd. Bij een aperiodisch signaal is geen herhaald patroon waar te nemen. In de praktijk komen perfect periodische signalen echter niet voor. Nochtans zijn heel wat natuurlijke geluiden gedurende een beperkt tijdsinterval bij benadering periodisch. Voorbeeld van (quasi-) periodische stemgeluiden zijn klinkers. Heel wat medeklinkers daarentegen zijn aperiodisch (bvb. [s], [X], [t], [p]). Ter illustratie wordt in figuur 1 de akoestische verstoring getoond die een (quasi-)periodisch signaal zoals de klinker [a:] (grafiek bovenaan) teweegbrengt gedurende een korte tijdsspanne van ongeveer 1/20e van een seconde. Binnen dit tijdsvenster lijkt eenzelfde patroon zich een zevental keren te herhalen. De figuur onderaan toont daarentegen een golfvorm die overeenkomt met een aperiodisch signaal (medeklinker [t]). Hierin is geen herhaald patroon te onderscheiden.

Page 3: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045−0.2

−0.1

0

0.1

0.2Medeklinker [t]

Tijd (sec.)

Ako

estis

che

vers

torin

g

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045

−0.1

0

0.1

Tijd (sec.)

Ako

estis

che

vers

torin

g

Klinker [a:]

Figuur 1: Tijdsvoorstelling van een (quasi-)periodisch signaal bovenaan (klinker [a:]), en een

aperiodisch signaal onderaan (medeklinker [t]). Toonhoogte Een van de belangrijke parameters om een (zangstem)geluid te karakteriseren is de toonhoogte, ook wel pitch genoemd. Toonhoogte is een eerder intuïtieve, psycho-akoestische maat die gebruikt wordt om geluiden van laag naar hoog te rangschikken. Frequentie De hoogte van een toon kan op verschillende wijzen worden uitgedrukt. Musici maken meestal gebruik van notennamen. Dit systeem heeft als nadeel dat het de toonhoogte in discrete stappen beschrijft, en dus niet eenvoudigweg toelaat kleine verschillen in toonhoogte (kleiner dan een 'halve toon', of een komma) weer te geven. Een meer nauwkeurige beschrijving bekomt men door gebruik te maken van het begrip frequentie. Dit sterk wiskundig/fysisch onderbouwd concept vindt zijn oorsprong in het parametriseren van sinusvormige periodische signalen. De frequentie van een sinusoïdaal signaal wordt gedefinieerd als het aantal keren dat het sinusvormig patroon zich herhaalt per seconde. De fysische eenheid die men gebruikt om dit aantal periodes per seconde uit te drukken, wordt hertz (Hz) genoemd. Bij het gecombineerd aanbieden van meerdere tonen komen echter bepaalde niet-lineaire kenmerken van het gehoor naar boven, wat onder andere leidt tot het genereren van differentiaaltonen. Differentiaaltonen worden inwendig in het oor aangemaakt wanneer bijvoorbeeld twee zuivere tonen met verschillende frequentie aan een luisteraar worden aangeboden. Ze zijn hoorbaar als parasitaire laagfrequente tonen die op het signaal gesuperponeerd worden. Kamermusici maken soms handig gebruik van dit verschijnsel tijdens het stemmen en steunen hierop om intonatieverschillen weg te werken. Door het ontstaan van differentiaaltonen horen we iets dat er in werkelijkheid, in strikt fysische zin, niet is. Het

Page 4: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

genereren van deze parasitaire tonen holt het begrip frequentie als onbetwistbare maatstaf voor toonhoogte dan ook deels uit. Amplitude Afgezien van de frequentie wordt een sinusoïdaal signaal ook gekenmerkt door zijn amplitude, dwz. de signaalsterkte. Amplitude is een puur fysische grootheid, die contrasteert met het psycho-fysische begrip luidheid, dat aangeeft hoe luid mensen bepaalde geluiden ervaren. Het menselijk gehoor is daarbij niet even gevoelig voor alle frequenties. Het is niet verwonderlijk dat de gevoeligheid het grootst is in het frequentiegebied dat het belangrijkst is voor spraakverstaan, dwz. voor frequenties tussen 3000 en 4000 Hz. Frequentiespectrum Perfect sinusvormige tonen vindt men haast nooit in de natuur terug. Ze kunnen wel artificiëel aangemaakt worden, getuige daarvan bijvoorbeeld de toon die men hoort als men een televisietestbeeld bekijkt of een telefoonhoorn opneemt. Aangezien natuurlijke geluiden nooit perfect sinusvormig zijn, kunnen ze niet met een enkele frequentie beschreven worden. Natuurlijke geluiden kunnen echter wel aanzien worden als een combinatie van meerdere sinusoïdale tonen, elk met een verschillende frequentie en amplitude. Een grafische voorstelling van deze frequentiecomponenten en hun amplitude wordt het frequentiespectrum van het signaal genoemd. Ter illustratie verwijzen we naar figuur 2 waar het frequentiespectrum van twee gezongen klinkers getoond wordt.

0 500 1000 1500 2000 2500 3000

−60

−40

−20

0

Frequentie (Hz)

Mag

nitu

de (

dB)

Klinker [a:] gezongen

0 500 1000 1500 2000 2500 3000

−60

−40

−20

0

Frequentie (Hz)

Mag

nitu

de (

dB)

Klinker [i:] gezongen

Figuur 2: Frequentiespectrum van een gezongen [a:]- en een gezongen [i:]-klank

Hoe hoger de curve bij een bepaalde frequentie, hoe groter de amplitude bij de betreffende frequentie en hoe meer van deze frequentie in het signaal aanwezig is. Merk op dat de amplitude in decibel (dB) wordt uitgedrukt. Op deze manier krijgt men een intuïtief beeld van de

Page 5: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

luidheidsaangroei. Menselijke perceptie (van geluidssterkte bvb.) vertoont immers een min of meer logaritmische afhankelijkheid (wet van Weber en Fechner [Everest]), die met behulp van een decibel-schaal kan benaderd worden. Grondfrequentie Naast het begrip toonhoogte spreekt men ook van grondfrequentie of grondtoon (F0). De grondfrequentie is de laagste frequentie die in een (quasi-)periodisch signaal voorkomt wanneer men abstractie maakt van laagfrequente stoorsignalen (ruis), die onvermijdelijk in een opname aanwezig zijn. Zo merkt men in figuur 2 op dat de grondfrequentie van beide signalen gelijk is aan 183 Hz. Men dient hierbij wel op te merken dat toonhoogte en grondfrequentie in wezen verschillende begrippen zijn. Grondfrequentie is een fysisch, signaaltechnisch concept, daar waar toonhoogte een psychofysische maat is. Hoewel beide meestal zeer sterk gerelateerd zijn, kunnen grondfrequentie en waargenomen toonhoogte soms echter verschillend zijn, zoals bvb. in het geval van diepzeeduikers die ten gevolge van het inademen van gasmengsels met een hoge concentratie aan helium een stemgeluid met een hoge toonhoogte lijken te produceren. Men kan aantonen dat ondanks de hogere pitch de grondfrequentie haast niet wijzigt in vergelijking met het inademen van normale lucht. Boventonen Zuivere sinusoïdale tonen zijn monofrequent, en bevatten maw. enkel de grondfrequentie. Alle natuurlijke geluiden zijn complexe klankpatronen, die naast een eventuele grondtoon, ook andere frequentiecomponenten bevatten. Dit blijkt onder andere uit figuur 2, die het frequentiespectrum van twee gezongen klinkers toont. In het geval van een (quasi-)periodisch signaal, zoals de signalen getoond in figuur 2, zijn deze extra frequentiecomponenten allemaal gehele veelvouden van de grondfrequentie. Men noemt deze veelvouden van de grondfrequentie boventonen of harmonischen. In het geval van de frequentiespectra getoond in figuur 2, ziet men naast de grondfrequentie (F0=183 Hz), frequentiecomponenten op gehele veelvouden van 183 Hz, zijnde 366, 549, 732, 915, ... Hz. Ondertonen Bij geluidsproductie worden naast boventonen soms ook ondertonen gegenereerd. Ondertonen zijn gehele fracties van de pitch, en veelvouden hiervan. In het geval van de menselijke stem zijn ondertonen eerder een marginaal verschijnsel en wijzen ze hoofdzakelijk op stempathologieën, of een stemgebruik dat niet overeenstemt met dat van de klassieke westerse zangtraditie. Ondertonen worden zo bijvoorbeeld waargenomen bij ruw stemgebruik, al dan niet ten gevolg van een pathologie, bij Mongoolse keelzangers en jazz-zangers. Ook bepaalde muziekinstrumenten (bvb. saxofoon) kunnen ondertonen genereren. Klankkleur Een vergelijking van de twee frequentiespectra in figuur 2 leert vooreerst dat beide spectra dezelfde frequentiecomponenten bevatten. De reden hiervoor is dat beide klinkers op dezelfde toonhoogte gezongen zijn. Hoewel we dezelfde frequenties aantreffen, zijn de overeenkomstige amplitudes echter duidelijk verschillend. De [i:]-klank vertoont een merkbaar lagere energie in het frequentiegebied tussen 500 en 1500 Hz dan de gezongen [a:]. Een gelijkaardige vaststelling zou men kunnen doen wanneer men verschillende muziekinstrumenten een zelfde toon zou laten produceren. De toonhoogte bepaalt daarbij welke frequenties in het signaal aanwezig zijn, en legt bijgevolg de grondfrequentie vast, en dus ook de afstand tussen de verschillende pieken (boventonen) die men in het frequentiespectrum aantreft. De verdeling van de amplitude en de energie over de verschillende frequenties daarentegen bepaalt de klankkleur, het timbre dat het muziekinstrument voortbrengt, en laat bijgevolg toe te horen welk instrument de toon heeft voortgebracht.

Page 6: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

Bij (zang)stemgeluiden hebben we een gelijkaardig principe: de toonhoogte bepaalt welke frequenties aanwezig zijn, de verdeling van de energie over de verschillende boventonen laat toe een onderscheid te maken in klankkleur, dwz. welke klank uitgesproken of gezongen wordt (bvb. verschil tussen [a:] en [i:]). Formanten Om de verdeling van de amplitude over de verschillende frequenties en de daarbij horende klankkleur te karakteriseren, tekent men vaak een omhullende bovenop het frequentiespectrum, zoals geïllustreerd in figuur 3. Deze omhullende geeft de algemene trend in het frequentiespectrum weer en maakt daarbij abstractie van de snelle schommelingen die optreden, zoals de pieken bij veelvouden van de grondtoon (199 Hz).

0 1000 2000 3000 4000 5000 6000−70

−60

−50

−40

−30

−20

−10

0

10

20

30

40

Frequentie (Hz)

Mag

nitu

de (

dB)

Klinker [o:] gezongen

Frequentiespectrum [o:]Spectrale omhullende berekend met LPCpitch (F0) : 199 Hz

eerste formant (F1)

tweede formant (F2)

zangersformant (F3+F4)

Figuuur 3: Frequentiespectrum van een gezongen [o:]-klank met aanduiding van de spectrale

omhullende, de pitch en de laagste formanten We stellen vast dat de amplitudeomhullende verschillende maxima vertoont. Deze maxima worden formanten genoemd. Formanten ontstaan ten gevolge van resonanties in het spraakkanaal. Het spraakkanaal of vocal tract is het akoestische pad tussen de stemplooien en de mond/neusopening, en bestaat grosso modo uit de keel- neus- en mondholte. Het blijkt dat de klankkleur van de klinker die men hoort, hoofdzakelijk bepaald wordt door de positie van de eerste twee formanten. In het geval van figuur 3 situeert de eerste formant (F1) zich rondom de eerste harmonische, dwz. rond 400 Hz, en bevindt de tweede formant (F2) zich in de buurt van de derde harmonische, dwz. rond 800 Hz. De nabijheid van een formant tot een harmonische van de grondtoon is cruciaal voor de grootte en de resonantie van de geproduceerde klank [Nair]. Naarmate de pitch verhoogt, neemt ook de afstand tussen de harmonischen toe, en bijgevolg ook de kans dat de formant tussen twee harmonischen in valt, met een daling van de volheid van de klank en resonantie tot gevolg. In het geval van figuur 3 is de curve die de omhullende weergeeft, automatisch met behulp van een computerprogramma bepaald. Deze methode werkt goed zolang

Page 7: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

de toonhoogte lager is dan ruwweg 350 Hz. Voor hoge tonen dient men beroep te doen op andere methodes, bvb. gebaseerd op vocal fry (zie verderop in de tekst). Zangersformant In het frequentiespectrum van een (klassiek geschoolde) zanger treft men naast de eerste twee formanten, die voornamelijk bepalen welke klinker (met welke klankkleur) gezongen wordt, ook nog een zogenaamde zangersformant aan. Deze zangersformant ontstaat doordat de zanger de positie van de derde, vierde en/of vijfde formant (F3, F4, F5) stemtechnisch manipuleert. Op deze wijze komen F3, F4 en F5 dichter bij elkaar te liggen en verhoogt de amplitude (energie) van de boventonen in het frequentiegebied rondom (typisch) 2800 Hz (zie figuur 3). Bij niet-zangers worden de formanten F3, F4 en F5 niet bewust verplaatst, met als gevolg dat de zangersformant zich niet of minder duidelijk manifesteert. De zangersformant is hoorbaar als een soort glinster die op de stem aanwezig is en de klank briljant maakt. Verder laat het de zanger bijvoorbeeld toe om boven een orkest uit te zingen omdat frequenties die met de zangersformant overeenkomen, slechts in beperkte mate in een normale orkestklank aanwezig zijn. De zangersformant is over het algemeen meer prominent aanwezig bij mannen- dan bij vrouwenstemmen [Sundberg]. Bron-filter model Uit het voorgaande leren we dat de belangrijkste attributen van een (stem)geluid de toonhoogte, het timbre, de aard van de klank en de geluidssterkte zijn. De aard van de klank (stemhebbende (mede)klinker, ruisklank, plofklank, ...) wordt deels gecontroleerd in het strottenhoofd, waar de stemplooien al dan niet aan het trillen gebracht worden (stemhebbende of niet-stemhebbende klank), en deels veroorzaakt door een occlusie of vernauwing in de mond (bvb. plofklanken). De toonhoogte hangt dan weer samen met de grondfrequentie, die bepaald wordt door de snelheid waarmee de stemplooien trillen. Het timbre tenslotte is gerelateerd aan de positie van de formanten. Deze worden bepaald door de vorm en bijgevolg de resonanties van het spraakkanaal (vocal tract), dwz. de weg (keel- neus- en mondholte) waarlangs geluidssignalen propageren. Vooral de positie van lip, tong, kaak en zacht gehemelte zijn hierbij van cruciaal belang. Zij bepalen waar het spraakkanaal vernauwd wordt, en bij welke frequenties de formanten bijgevolg ontstaan. Dit inzicht heeft geleid tot het zogenaamde bron-filter-spraakproductiemodel.

generator

Glottaal puls-

modelx

Amplitude

generatorx

Amplitude

Vocal tract

model

Stralings-

model

vocal tract filter-

parameters

Impuls-

modelx

Ruis-

generatorx

Vocal tract

model

Pitch

Figuur 4: Bron-filter-spraakproductiemodel Met dit model modelleert en genereert men (kunstmatige) spraaksignalen als een bronsignaal dat gefilterd wordt in het spraakkanaal, waardoor het een welbepaalde klankkleur meekrijgt. Dit model verschaft niet alleen inzicht in hoe spraaksignalen ontstaan, maar kent ook heel wat

Page 8: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

technische toepassingen. Zo ligt het bron-filter-spraakproductiemodel bvb. aan de basis van de spraakcompressietechnieken die gebruikt worden in de GSM mobiele-telefoniestandaard. Spectrogram Stemgeluiden variëren sterk als functie van de tijd. Zo wisselen (quasi-)periodische klanken zoals klinkers vaak snel af met aperiodische signalen (medeklinkers). Dit brengt met zich mee dat de frequentie-inhoud en dus ook de formantstructuur van stem- en zanggeluiden voortdurend wijzigen. Een louter spectrale voorstelling van het signaal zoals in figuur 2 of 3, kan de frequentie-inhoud dan ook slechts weergeven op een welbepaald tijdsogenblik. Gezien het inherent tijdsvariërende karakter van de stem is het daarom meer aangewezen om te opteren voor een gecombineerde tijds-frequentievoorstelling van het signaal. Dit doet men met behulp van een spectrogram. Een spectrogram is een grafiek die, zoals geïllustreerd in figuur 5, met behulp van kleuren of grijswaarden de frequentie-inhoud van het signaal weergeeft als functie van tijd en frequentie. Hoe intenser de grijswaarde of de kleur, hoe sterker de overeenkomstige frequentiecomponent aanwezig is in het signaal op het desbetreffende tijdsogenblik. Figuur 5 toont zo de spectro-temporele structuur van een zangstemgeluid. Het valt op dat de structuur duidelijk fluctueert als functie van tijd en frequentie.

Spectro-temporele analyse en visualisatie van de zangstem

Gedurende de laatste jaren zijn verschillende softwarepakketten ontwikkeld waarmee stemgeluiden in real-time gevisualiseerd kunnen worden. Naast het gebruik voor wetenschappelijke kennisverwerving en het opsporen van stempathologieën, kunnen ze ondersteuning geven bij zangonderricht en gebruikt worden als een soort spiegel, als een extra zintuig waarmee vanuit een bijkomende invalshoek inzicht verschaft wordt in het leerproces. Dat neemt niet weg dat het beste akoestische analyse-apparaat nog steeds het menselijk gehoor is. Belangrijk nadeel van een strategie die gebaseerd is op beoordelen door beluisteren, is dat auditieve perceptie moeilijk kwantificeerbaar en dus objectiveerbaar is, wat het uitwisselen en opslaan van beoordelingsgegevens bemoeilijkt [Nair]. Voorts is een grondige en objectieve zelfbeoordeling aan de hand van auditieve waarneming niet evident omdat de interne en externe perceptie van stemgeluid behoorlijk kan verschillen ten gevolge van verschillen in geluidspropagatie (bvb. beengeleiding). Het maken en beluisteren van geluidsopnames van de eigen stem kan hier gedeeltelijk aan verhelpen, met die beperking dat geluidsopnames geen real-time beoordeling, en dus geen direkte terugkoppeling of bijsturing toelaten. In wat volgt geven we enkele voorbeelden van wat mogelijk is met een softwarepakket voor geluidsanalyse. Dit is geenszins een exhaustieve lijst van mogelijkheden. Andere interessante voorbeelden zijn te vinden in [Nair]. Voor het genereren van de spectra en spectrogrammen werd gebruik gemaakt van het softwarepakket Baudline [Baudline], dat gratis verkrijgbaar is. We moeten wel opmerken dat het hier gaat om technische parameters, die het artistieke aspect kunnen ondersteunen, maar het geenszins in de weg mogen staan. Tevens gaat het hier over analyses op micro-schaal: we beschouwen losse klinkers en medeklinkers, overgangen tussen twee klanken of ten hoogste een enkele zin. We hebben het nooit over een volledig lied of het samenspel met andere instrumenten. Als we het spectrogram van een gezongen zin bekijken, valt als eerste het verschil tussen klinkers en medeklinkers op. Bij de klinkers zijn duidelijk harmonischen te onderscheiden op gehele veelvouden van de grondfrequentie. Bij medeklinkers kunnen we onderscheid maken tussen onder andere stemhebbende en stemloze medeklinkers. Bij stemhebbende medeklinkers zijn naast een ruiscomponent ook harmonischen te onderscheiden, zij het dikwijls minder duidelijk dan bij

Page 9: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

klinkers. Stemloze medeklinkers bevatten geen harmonischen, maar ruis of andere klanken. In wat volgt zullen we ons vooral toespitsen op klinkers. Toonhoogte De meest voor de hand liggende parameter die met behulp van een spectrogram gekwantificeerd kan worden, is de toonhoogte. Deze kan in hertz afgelezen worden als de frequentie van de grondtoon, dwz. de laagst frequente, duidelijk zichtbare piek in het spectrum of spectrogram. De harmonischen liggen op gehele veelvouden van de grondfrequentie. De waarde in hertz kan omgerekend worden naar een notenwaarde door middel van een tabel of met een eenvoudige berekening. Als we het verloop van de toonhoogte bestuderen, kunnen we nagaan of de toonhoogte stabiel blijft wanneer één noot moet gezongen worden, of hoe ze evolueert over verschillende gezongen noten heen. Ook kunnen we kijken of de toonhoogte onmiddellijk correct was, dan wel of de zanger een ``aanloop'' nam naar de juiste toonhoogte. Door middel van visualisatiesoftware kan de zanger zelf achteraf nagaan of de productie goed was of zelfs tijdens de productie op het bewegend beeld het verloop van de toonhoogte volgen.

Figuur 5: Spectrogram van een gezongen klinker met vibrato Figuur 5 toont een voorbeeld van een spectrogram dat gemaakt werd met het programma Baudline, dat niet enkel statische spectrogrammen kan tonen, maar ook een bewegend beeld dat in real-time wordt bijgewerkt. De verticale as (links) toont de tijd in milliseconden. De horizontale as (bovenaan) toont de frequentie in hertz. We leiden uit de figuur af dat de toon niet onmiddellijk stabiel was: de zanger had wat tijd nodig om op de juiste toonhoogte uit te komen. De toonhoogte varieert daarbij van 123 Hz naar een stabiele 175 Hz. Daarna zien we dat de toonhoogte regelmatig varieert in de tijd, dit duidt op een vibrato. Vibrato Een vibrato kan op twee manieren gekwantificeerd worden: enerzijds is er de vibratofrequentie (VF) anderzijds de vibrato-amplitude (VA). De VF kunnen we berekenen door de lengte in seconden te meten van een aantal periodes (bijvoorbeeld 5) en dan het aantal periodes te delen door die lengte. Het resultaat is de VF in hertz. Een ``normaal'' vibrato ligt tussen de 4,5 Hz en 6,5 Hz [Nair p177]. Door verschillende periodes samen te nemen worden verschillen in frequentie uitgemiddeld en verhoogt ook de nauwkeurigheid van de meting. Een vibrato met een te lage VF noemt men wel eens een wobble en wordt als onaangenaam ervaren. In pop-muziek hoort men dikwijls vibrato's met een erg hoge VF.

Page 10: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

In figuur 5 zijn 5 periodes van het vibrato aangeduid. Ze beslaan een lengte van 0.95s. Dit geeft een VF van 5/0.95=5.2 Hz. Ook zien we dat het vibrato niet onmiddellijk aanwezig was bij het begin van de noot, hetgeen in klassieke zang conventioneel geduid wordt als spanning omstreeks het strottenhoofd. Ook kunnen we nagaan hoe groot het vibrato is qua verandering in toonhoogte. Dit noemen we de vibrato-amplitude (VA). We kunnen de VA berekenen door de verhouding te maken tussen de centrumfrequentie (de toonhoogte die door een luisteraar waargenomen wordt en overeenkomt met de gemiddelde toonhoogte die we aflezen van het spectrogram) en de maximale uitwijking in frequentie. Als deze verhouding groter wordt dan ongeveer 3%, wordt het geheel niet meer waargenomen als één enkele toon, maar eerder als snelle variaties tussen verschillende tonen. Deze meting kan men doen op een willekeurige boventoon. Visueel kan de meting eenvoudiger zijn op een hoge boventoon van voldoende amplitude, aangezien de absolute verschillen in frequentie daar groter zijn. Als we deze meting doen in figuur 5 op de 22ste harmonische (23ste piek), lezen we een centrumfrequentie af van 4036 Hz en een frequentie-uitwijking van 86 Hz. Dit geeft een uitwijking van 86/4036=2,1%. De continuïteit van het vibrato over verschillende klanken heen is een indicatie voor spanning. Als het strottenhoofd vrij kan bewegen is het vibrato regelmatig en stopt het niet bij overgang naar een andere klank of toonhoogte. Merk op dat men bij het vibrato ook een variatie in amplitude van het geluid zou kunnen beschouwen naast een variatie in toonhoogte. We gaan hier niet dieper op in. Formanten Als we naast de grondfrequentie ook de harmonischen beschouwen, kunnen we in het spectrogram en het spectrum verschillende formanten ontwaren door een denkbeeldige lijn te trekken door de pieken van de harmonischen. Als de harmonischen ver uit elkaar liggen (bij een hoge toonhoogte) wordt het echter moeilijk om nog duidelijke formanten te onderscheiden. Dit kunnen we oplossen door de zanger eerst de klank te laten zingen, de articulatoren in dezelfde positie te laten houden en een aperiodisch geluid te laten produceren met de stembanden. Een vocal fry is in deze zeer geschikt [Miller].

Figure 6: Spectrogram van een langzame overgang van klinker [o:] naar klinker [i:] In figuur 6 is een spectrogram te zien van een langzame overgang tussen een [o:] en een [i:]. We zien duidelijk de tweede formant verschuiven van ongeveer 800 Hz tot ongeveer 1600 Hz.

Page 11: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

Figure 7: Spectrum van een [a:]-klank, op een normale manier gezongen (volle lijn) en gegenereerd met behulp van een vocal fry (stippellijn)

In figuur 7 staan het spectrum van een [a:] op een normale manier gezongen en daarop het spectrum van een vocal fry met de articulatoren in dezelfde positie. In dat laatste kunnen we duidelijk de verschillende formanten onderscheiden en hun centrumfrequenties aflezen: F1=630, F2=1124, F3=2460, F4=2900 en F5=3481 Hz. F1 en F2 bepalen welke klinker we horen: als we deze waarden opzoeken in een tabel met formantfrequenties per klinker vinden we dat dit een [a:] is. De positie van deze formanten is min of meer vrij te kiezen door de zanger of spreker. De positie van de hogere formanten is moeilijker te beïnvloeden en bepaalt vooral het timbre van de klank. Het leren zingen van klinkers behelst voor een groot deel het plaatsen van de formanten zodat de gewenste klank geproduceerd wordt. Het is een subtiel samenspel tussen de positie van de harmonischen en de positie van de formanten. De positie van de harmonischen is meestal door de partituur opgelegd als een bepaalde toonhoogte, de positie van F1 en F2 ligt ook min of meer vast met de klinker die gezongen moet worden. De hogere formanten kunnen door de zanger vrij geplaatst worden. Elke geschoolde zanger heeft zijn eigen ``resonantiestrategie'', zijn eigen manier om de formanten te plaatsen zodat de harmonischen optimaal versterkt worden en de gewenste klankkleur bereikt wordt. Opmerking: bij erg hoge grondtonen, wordt het onmogelijk om nog een duidelijk onderscheid tussen klinkers te maken, aangezien er geen harmonischen beschikbaar zijn ter hoogte van de formantfrequenties die deze klinkers bepalen. Men gaat dan in hoofdzaak pogen om de formanten mooi te laten samenvallen met de harmonischen van de grondtoon om deze optimaal te versterken. Zangersformant Een zangersformant is een duidelijke piek in het spectrum rond de 2800 Hz die vooral voorkomt bij geschoolde klassieke zangstemmen. Hij wordt gevormd door formanten 3, 4 en 5 dichter bij elkaar te brengen, hetgeen resulteert in een hogere resonantiepiek dan te realiseren zou zijn met één enkele formant. Hij manifesteert zich duidelijk bij vrijwel alle stemhebbende klanken. Bij ongeschoolde zangers komen formant 3, 4 en 5 uiteraard ook voor, maar ze liggen verder uit elkaar.

Page 12: Analyse van de zangstem : geluiden in beeld - KU Leuvenu0023287/reports/zangstem...Analyse van de zangstem : geluiden in beeld Koen Eneman1,2, Tom Francart1 1ExpORL – Dept. Neurowetenschappen

Door middel van een real-time spectrogram kan men nagaan in welke mate er een zangersformant aanwezig is en nagaan wat de invloed is van veranderingen van de articulatoren. Onset Onset is een parameter die heel eenvoudig te bestuderen is met behulp van een spectrogram. Het idee is dat de volledige resonantie aanwezig moet zijn van bij het prilste begin van de klank. In figuur 5 zien we dat de eerste twee formanten vanaf het begin aanwezig zijn, maar dat de hogere resonanties pas na enkele hondersten seconden verschijnen en tevens verdwijnen voor de klank helemaal weg is. Benchmarking De benchmarking-techniek [Nair] is een voorbeeld van het gebruik van visuele feedback in het zangonderwijs. Het idee is dat de leerling met hulp van de leraar een zo goed mogelijk voorbeeld van een klinker zingt (optimale resonantie, vibrato, het gewenste timbre, ...) en daar een opname van maakt voor latere referentie. Dit noemen we de benchmark. Later kan bij het studeren deze benchmark gebruikt worden als ideaal model waar naartoe gewerkt moet worden. Het spectrum van de benchmark kan op het scherm getoond worden met daarbij het spectrum van de huidige klank. Op deze manier moet de student niet op zijn eigen gevoel of gehoor afgaan, maar heeft hij een objectieve maat voor zijn prestaties. Later dient het spectrogram uiteraard terug door het eigen gevoel of gehoor vervangen te worden.

Literatuur

[Everest] F.Alton Everest, "Master Handbook of Acoustics", 4th ed., McGraw-Hill, 2001

[Miller] D.G. Miller, "Registers in singing", PhD thesis, Rijksuniversiteit Groningen, 2000 [Nair] G. Nair, "Voice tradition and technology", Singulare Publishing Group, 1999 [Baudline] http://www.baudline.com [Sundberg] J. Sundberg, "Level and center frequency of the singer’s formant.", J Voice. 2001 Jun;15(2):176-86.