Barwa głosu: Od produkcji przez akustykę do percepcji i z powrotem

Barwa głosu: Od produkcji przez akustykę do percepcji i z powrotem

Maciej Karpiński

Wydział Neofilologii UAM

Plan

1. Barwa głosu – koncepcje, definicje

2. Skąd się bierze barwa głosu?

3. Percepcyjna ocena barwy głosu

4. Akustyczne korelaty barwy głosu

5. Podsumowanie – problemy, zastosowania

Barwa głosu – pojęcie, intuicje

Słyszę głosy

Określ brzmienie głosów w każdej parze i wskaż, czym się różnią

1. 2. 3. 4. 5.

Słyszę głosy Głos… taki i owaki. Jakimi określeniami możemy się posłużyć?

Dźwięczny, bezdźwięczny, suchy, chropawy, łagodny, nośny, przenikliwy, matowy, spokojny, kojący, drżący, zmysłowy, słaby, głuchy, napięty, potężny, natarczywy, przekonujący, pewny, niepewny, zrzędliwy, gniewny, radosny, wątpiący, zmęczony, szorstki, ciepły, chłodny, zimny, zniechęcony, nieswój, energiczny, wielki, śpiewny, monotonny, słodki, gorzki…

Co problematycznego jest w tym zbiorze określeń?

Określenia dotyczą nie tylko barwy samego dźwięku – często odnoszą się do mówcy, jego stanów psychicznych, postaw, zachowań. Bywają mniej lub bardziej metaforyczne.

W jakim stopniu są uniwersalne, w jakim specyficzne kulturowo?

Czy łatwo stworzyć odpowiedniki danego zbioru określeń w języku X dla innych języków?

Jak zdefiniować poszczególne określenia, by umożliwić osobom opisującym barwę głosu ich konsekwentne użycie?

skąd się bierze barwa głosu

Więcej niż fonacja, czyli

Skąd się bierze barwa głosu

https://www.youtube.com/watch?v=wR41CRbIjV4

https://www.youtube.com/watch?v=IuqLfOjmSiA

https://www.youtube.com/watch?v=-68xL-DGEBo

Tor głosowy

„Brzmienie krtani” – mało interesująca akustycznie pulsacja – brzęczenie

Tor głosowy – jego forma i tkanki z których jest zbudowany nadają głosowi brzmienie

Tor głosowy i zbliżone do niego części ciała pełnią również funkcję rezonatorów – zatem wpływają na ostateczną barwę emitowanego dźwięku.

Warto zatem usystematyzować przynajmniej najważniejsze części składowe toru głosowego, które mogą wpływać na barwę głosu…

https://www.youtube.com/watch?v=P2pLJfWUjc8

https://www.youtube.com/watch?v=wR41CRbIjV4

Próba systematyzacji (Laver 1991)

Supralaryngeal Settings Laryngeal Settings

Longitudinal axis: labial labial protrusion

labiodentalization laryngeal

raised larynx lowered larynx

Simple phonation types: modal voice

falsetto whisper

creak

Latitudinal axis settings:

labial close rounding open rounding lip-spreading

lingual tip/blade tip articulation

blade articulation retroflex articulation

tongue-body dentalized

palato-alveolarized palatalized velarized

pharyngealized laryngopharyngealized

mandibular close jaw position open jaw position

protruded jaw position retracted jaw position

Compound phonation types:

whispery voice whispery falsetto

creaky voice creaky falsetto whispery creak

whispery creaky voice whispery creaky falsetto

breathy voice harsh voice

harsh falsetto harsh whispery voice

harsh whispery falsetto harsh creaky voice

harsh creaky falsetto harsh whispery creaky voice

harsh whispery creaky falsetto

velopharyngeal settings: nasal

denasal

Overall muscular tension settings: tense voice

lax voice

Skąd się bierze barwa głosu?

Jednak, jeśli uznać barwę głosu za cechę percepcyjną, to – jeśli chodzi o falę dźwiękową – należałoby brać pod uwagę to, co faktycznie dociera do ucha.

Na percepcję i ocenę barwy głosu może wpływać środowisko akustyczne! Jednak z reguły będzie nam zależało na wyeliminowaniu tego czynnika. Zatem warto ściśle określić warunki rejestracji głosu oraz odsłuchu, aby uniknąć uwikłania w kolejne zmienne.

Oczywiście, liczy się też stan narządu słuchu, lecz również i stan psychofizyczny samego słuchacza. Być może osoba w stanie depresji będzie inaczej odbierała i oceniała daną barwę głosu niż w stanie euforii.

Próby definiowania

Po co definiować? Po co badać?

Barwa głosu a język (phonemic vs. non-phonemic)

barwa – istotna percepcyjnie, różnicująca charakterystyka samogłosek

różnice u danego mówcy (np. te same samogłoski w różnych miejscach wypowiedzi) i między mówcami (te same samogłoski w tym samym miejscu tej samej wypowiedzi)

Czy można kojarzyć barwę głosu z językiem lub z kulturą? (np. „szwedzka” vs. „polska” barwa głosu)

Po co badać?

detekcja ekspresji emocji w mowie

rozpoznawanie mówcy

diagnostyka toru głosowego

zastosowania w reklamie, komunikacji publicznej („zawodowi mówcy”, politycy, etc.), codziennej komunikacji językowej, itd.

Definicje

ANSI (1960):

Overall sound quality: That attribute of auditory sensation in terms of which a listener can judge that two sounds similarly presented and having the same loudness and pitch are dissimilar.

Laver:

Voice quality, the quasi-permanent quality of a speaker’s voice (Abercrombie, 1967) can be thought of as deriving from two main sources: firstly, the anatomical and physiological foundation of a speaker’s vocal equipment; and secondly, the long-term muscular adjustments, or ‘settings’ (Honikman, 1964), once acquired idiosyncratically, or by social imitation, and now unconscious, of the speaker’s larynx and supralaryngeal vocal tract.

Trask (1996):

Voice quality is defined by Trask (1996:381) as the characteristic auditory coloring of an individual's voice, derived from a variety of laryngeal and supralaryngeal features and running continuously through the individual's speech. The natural and distinctive tone of speech sounds produced by a particular person yields a particular voice.

Problematyczna kategoria

Złożoność – odpowiada za nią cały zestaw parametrów akustycznych, które wchodzą we wzajemne interakcje

Niska stabilność parametrów w czasie

Barwa (w ogóle) dźwięku vs. barwa głosu (ludzkiego) – czy rozumieć tak samo?

Odbiorca – słuchacz: kategoria percepcyjna

Złożona rola komunikacyjna – poziom językowy (fonemiczny) i para/pozajęzykowy

• problem definicyjny • trudna analiza • trudna interpretacja

Voice Quality Perception Physiologic component

aphonic no sound or a whisper

inability to set vocal folds into vibration, caused by lack of appropriate power (air pressure) or a muscular/tissue problem of the folds

biphonic two independent pitches

two sources of sound (e.g., true folds and false folds, or two folds and whistle due to vortex in air)

bleat (see flutter)

breathy sound of air is apparent

noise is caused by turbulence in or near glottis, caused by loose valving of laryngeal muscles (lateral cricoarytenoid, interarytenoid and posterior cricoarytenoid).

covered muffled or 'darkened' sound

lips are rounded and protruded or larynx is lowered to lower all formants so a stronger fundamental is obtained

creaky sounds like two hard surfaces rubbing against one another

a complex pattern of vibrations in the vocal folds creates a intricate formation of subharmonics and modulations

diplophonic

pitch supplemented with another pitch one octave lower, roughness usually apparent

a period doubling, or Fo/2 subharmonic

flutter often called bleat because it sounds like a lamb's cry

amplitude changes or frequency modulations in the 8-12Hz range

glottalized clicking noise heard during voicing

forceful adduction or abduction of the vocal folds during speech

hoarse (raspy) harsh, grating sound combination of irregularity in vocal fold vibration and glottal noise generation

honky excessive nasality excessive acoustic energy couples to the nasal tract

htt

p:/

/ww

w.n

cvs.

org

/ncv

s/tu

tori

als/

voic

epro

d/t

uto

rial

/qu

alit

y.h

tml

Voice Quality Perception Physiologic component

jitter pitch sounds rough fundamental frequency varies from cycle to cycle

nasal (see honky)

pressed harsh, often loud (strident) quality vocal processes of the arytenoid cartilages are squeezed together, constricting the glottis, and causing low airflow and medial compression of the vocal folds

pulsed (fry) sounds similar to food cooking in a hot frying pan

sound gaps caused by intermittent energy packets below 70 Hz and formant energy dies out prior to re-excitation

resonant (ringing) brightened or 'ringing' sound that carries well

epilaryngeal resonance is enhanced, producing a strong spectral peak at 2500-3500 Hz; in effect, formants F3, F4 and F5 are clustered

rough uneven, bumpy sound appearing to be unsteady short-term, but persisting over the long-term

modes of vibration of the vocal folds are not synchronized

shimmer crackly, buzzy short-term (cycle-to-cycle) variation in a signal's amplitude

strained effortfulness apparent in voice, hyperfunction of neck muscles, entire larynx may compress

excessive energy focused in laryngeal region

strohbass popping sound; vocal fry during singing sound gaps caused by intermittent energy packets below 70 Hz and formant energy dies out prior to re-excitation

tremerous affected by trembling or tremors modulation of 1-15 Hz in either amplitude or pitch due to a neurological or biomechanical cause

twangy sharp, bright sound often attributed to excessive nasality, but probably also has an epilaryngeal basis

ventricular very rough (Louis Armstrong-type voice) phonation using the false folds anterior rather than the vocal folds; unless intentional due to damage to the true folds, considered an abnormal muscle pattern dysphonia

wobble wavering or irregular variation in sound amplitude and/or frequency modulations in the 1-3 Hz range

yawny quality is akin to sounds made during a yawn

larynx is lowered and pharynx is widened, as people do when yawning - hence the name

htt

p:/

/ww

w.n

cvs.

org

/ncv

s/tu

tori

als/

voic

epro

d/t

uto

rial

/qu

alit

y.h

tml

W czym mierzyć?

Na przykład:

„Patients were instructed to produce the vowel |a| using a comfortable loudness level and a constant pitch. Each vowel production was recorded with a constant mouth-to-microphone distance of 5 cm. All digital recordings were made in a quiet room. Each patient sustained an |a| for at least 3 seconds at a comfortable pitch level. The task was repeated at least four times, and the fourth trial was most often the recorded sample.”

(Bhuta et al. 2003)

Liczy się zatem nie tylko właściwa rejestracja sygnału (jak wspomniano wyżej), ale również wybór fragmentów do analizy – niezależnie od tego, czy ma ona charakter oceny percepcyjnej czy badania instrumentalnego. Najprostszym podejściem będzie pomiar na podobnych segmentach, np. na realizacjach tej samej samogłoski w różnych miejscach wypowiedzi lub u różnych mówców. Dążąc do uniknięcia wpływów sąsiadujących segmentów oraz perturbacji w sygnale, do których może dochodzić na granicach segmentów, czasami do pomiaru wybiera się jedynie środkową część (np. 30%) samogłoski. Jednak w badaniach percepcyjnych taki wycinek wypowiedzi może się okazać zbyt mały, by uczestnicy mogli ocenić jego barwę.

percepcyjna ocena barwy głosu

Słyszeć między wierszami, czyli

Percepcyjna ocena barwy głosu

Co do barwy głosu wnosi słuchacz?

W przypadku badań eksperymentalnych jego uwaga może zostać „sztucznie” skierowana na pewne aspekty barwy głosu, a od innych odciągnięta.

Słuchacz samorzutnie może skupić się na pewnych aspektach barwy głosu, a inne percepcyjnie pomijać.

Czynniki kontekstowe i sposób ich oddziaływania na słuchacza (np. rozproszenie) i jego możliwości percepcyjne.

Ogólny stan psychiczny i fizyczny słuchacza (np. kwestia stanu narządu słuchu i podsystemów nerwowych, które są odpowiedzialne za jego przetwarzanie).

Percepcja barwy głosu: jak słuchać, żeby słyszeć?

Jak słuchać?

jednokrotnie, „naturalnie”?

Jednokrotnie, uważnie, wnikliwie?

wielokrotnie?

fragmentami? jakimi?

w zwolnionym tempie?

Strategia/procedura odsłuchu może mieć ogromny wpływ na wyniki!

Protokoły, standardy, czyli jak poprawić sobie samopoczucie

Consensus Auditory-Perceptual Evaluation—Voice Protocol (CAPE-V, Kempster, Gerratt, Verdolini Abbott, Barkmeier-Kraemer, & Hillman, 2009): ocena głosu na skali wizualnej w kategoriach severity, roughness, breathiness, strain, pitch, loudness, i… dowolnych innych.

Grade Equivalent to Overall Severity (GRBAS, Hirano, 1981) – ocena na czteropunktowej skali, lecz w podobnych wymiarach: Roughness, Breathiness, Asthenicity (weakness), and Strain na but uses four-point scales instead of marks on a line.

Wszystkie współczesne skale lub zbiory etykiet są zaskakująco podobne do znanych od stuleci (często podawany przykład repertuaru określeń, zaproponowanego przez Juliusza Polluksa w 2 stuleciu n.e. [Kreiman, Vanlancker Sidtis, & Gerratt 2005].

„Centuries of consistent use give such scales a ring of truth that reinforces the widespread belief in their validity.”

[Kreimann & Gerratt 2014]

Parametry akustyczne

Oscylogram i spektrogram pod lupą

Otwórz wskazany plik z folderu Barwa Głosu;

Otwórz obiekt funkcją view and edit;

Skorzystaj z funkcji zoom tak, aby na ekranie zaczął się pojawiać spektrogram i intonogram;

W widocznym fragmencie zlokalizuj przynajmniej 2 wystąpienia tej samej samogłoski (najlepiej w różnych kontekstach, np. w nagłosie, w wygłosie, w pozycji akcentowanej, nieakcentowanej);

Wytnij je i umieść na liście obiektów Praata;

Otwórz powstałe obiekty funkcją view and edit

Nieregularnie czyli ciekawie

Periodyczność sygnału mowy: przybliżenie

Ile periodyczności jest w sygnale: Harmonics-to-Noise Ratio (HNR)

Co zaburza periodyczność?

Jak zmierzyć zaburzenia?

w domenie częstotliwości (jitter)

w domenie amplitudy (shimmer)

Teixeira & Concalves 2014

voice breaks

Głos się łamie, czyli

Voice breaks

Otwórz w Praacie plik „11_Sample_VQ_schody”

Otwórz obiekt funkcją view and edit

Włącz opcje Show spectrogram oraz Show pulses

Znajdź i powiększ fragment o bojlerze :-)

Co widać?

Zaznacz ODPOWIEDNI fragment i z menu Pulses wybierz opcję Voice Report

Bezdźwięcznie

Fraction of locally unvoiced* pitch frames - odsetek fram w analizie częstotliwości podstawowej, które zostały „zdiagnozowane” jako bezdźwięczne – podawana w procentach.

Number of voice breaks – ile razy w sygnale pojawiają się sekcje bezdźwięczne (dłuższe niż 1.25/pitchfloor).

Degree of voice breaks – jaka część czasu trwania sygnału przypada na przebiegi bezdźwięczne.

*) frama/ramka jest uznawana za lokalnie bezdźwięczną, jeśli jej voicing strength jest poniżej progu określonego jako voicing threshold (domyślnie 0,45) lub lokalny szczyt amplitudy poniżej progu silence treshold (domyślnie 0,03)

Harmonics-to-Noise Ration

zawartość cukru w cukrze, czyli

Harmonics-to-noise Ratio (Harmonicity)

Parametr wskazujący, jak bardzo periodyczny jest sygnał akustyczny, tzn. jak silne są w nim komponenty, które można uznać za periodyczne.

HNR można zatem uznać za wskaźnik proporcji sygnał – szum.

Jednostka: dB

W Praacie – na bazie dokładnej autokorelacji (algorytm z Boersma 1993)

Interpretacje pomiarów

HNR = 0 dB -> równy udział składnika periodycznego i szumów

HNR = 20dB -> 99% składnika harmonicznego, 1% szumów

Typowe HNR dla samogłosek wysokich, np. /i/ - około 20dB, dla niskich – około 40dB

(HNR znacznie czulsze na zaburzenia w sygnale o wyższych częstotliwościach składowych)

Głos „chrypiący” -> HNR dla /a/ może być niższe niż 20dB

Zob. np. Felippe et al. 2006

Zob: http://www.sltinfo.com/acoustic-measures-norms/

Jak (z)mierzyć HNR?

Otwórz wskazany plik z dostarczonego zestawu

Zaznacz obiekt reprezentujący ten plik na liście obiektów i wybierz funkcję To Harmonicity (cc) z menu Periodicity

Przeprowadź pomiary dla poszczególnych próbek i zanotuj wyniki

Jeśli próbki niejednorodne, spróbuj przeprowadzić pomiar dla całej próbki, a potem jej fragmentów

UWAGA! Konkretne wartości z obiektu Harmonicity można wyekstrahować funkcją Query z menu po prawej stronie okna.

Przyjrzyj się powiększonemu oscylogramowi wybranych próbek – czy pozwoliłby on przewidzieć wyniki pomiarów?

Mierzymy HNR

Otwórz jeden z dostarczonych plików z wypowiedziami lub nagraj własny

Z pliku wyodrębnij kilka (5-10) krótkich próbek i umieść na liście obiektów:

samogłoski (np. /i/, /u/, /a/)

spółgłoski dźwięczne (np. /b/, /d/, /z’/, /Z/)

spółgłoski bezdźwięczne (np. /S/, /s’/)

wypełniacze („jęki namysłu”)

W których przypadkach wyniki są „skrajne”? Jaka jest stabilność parametru między realizacjami tego samego segmentu (głoski)? Jak zmienia się w obrębie danego segmentu? Jakie wyniki dają pomiary na dłuższych fragmentach wypowiedzi? Gdy wynik pomiaru wydaje się niezgodny z intuicją, powiększ oscylogram sygnału i spróbuj ustalić, co może być przyczyną.

Noise-to-harmonic ration (NHR)

Średnia wartość energii składnika nieharmonicznego w zakresie od 1500 Hz do 4500 Hz do energii składnika harmonicznego w zakresie of 70 Hz do 4500 Hz. Daje ogólną informację o obecności szumu w analizowanym sygnale.

Na podstawie: Multi-Dimensional Voice Program Model 4305 Manual, Kay Elemetrics Group, 1992.

Jitter i shimmer

Bojaźń i drżenie…

Jitter jitterowi nierówny Jitter (absolute) – zmienność (wariancja) częstotliwości podstawowej (okres do okresu) – średnia bezwzględna różnica między kolejnymi okresami:

gdzie Ti to wartości okresów F0 a N to liczba wyekstrahowanych wartości F0.

Jitter (relative) to średnia bezwzględna różnica między kolejnymi okresami podzielona przez średni okres, wyrażona w procentach:

(definicje przyjęte przez autorów programu Praat)

Jitter jitterowi nierówny

Jitter (rap) – względne średnie zaburzenie (Relative Average Perturbation), średnia bezwzględna różnica między okresem a średnią wartością tego okresu i dwóch sąsiednich, podzielona przez średnią wartość okresu.

Jitter (ppq5) – pięciopunktowy współczynnik zaburzenia okresu (Period Perturbation Quotient), obliczany jako bezwzględna różnica między okresem a średnią z niego i czterech okresów sąsiadujących, podzielona przez średni okres.

Jitter (ddp) – Difference of the Differences of Period. Średnia bezwzględna różnica między kolejnymi różnicami między poszczególnymi interwałami, podzielona przez wartość średniego interwału (czasu między dwoma kolejnymi punktami PointProcess).


Shimmer, ale który?

Shimmer (local) – średnia bezwzględna różnica między amplitudami kolejnych okresów podzielona przez średnią wartość amplitudy (W MDVP - Shim, 3.810% określone jako wartość progowa dla patologii)

Shimmer (local, dB) – średnia bezwzględna wartość algorytmu (o podstawie = 10) różnicy amplitudy między kolejnymi okresami, pomnożona przez 20 (MDVP: ShdB, 0.350 dB jako wartość progowa dla patologii.)

Shimmer (apq3) – trójpunktowy współczynnik zaburzeń amplitudy (APQ) – średnia bezwzględna różnica między amplitudą okresu oraz średnią amplitudą okresu i okresów sąsiadujących, podzielona przez średnią wartość amplitudy.

Shimmer (apq5) – pięciopunktowy współczynnik zaburzenia amplitudy. Średnia bezwzględna różnica między amplitudą danego okresu a średnią amplitudą tego okresu i czterech okresów najbliżej sąsiadujących, podzielona przez średnią wartość amplitudy.


Shimmer, ale który?

Shimmer (apq11) – jedenastopunktowy współczynnik zaburzenia amplitudy – średnia bezwzględna różnica między amplitudą okresu a średnią amplitudą okresu wraz z jego najbliższymi dziesięcioma okresami sąsiadującymi, podzielona przez średnią wartość amplitudy (Zgodnie z MDVP, 3.070% to próg patologii).

Shimmer (ddp) – średnia bezwzgledna różnica między kolejnymi różnicami między amplitudami kolejnych okresów. (w Praacie – wynik podstawowej instrukcji Get shimmer, potrojona wartość Shimmer(APQ3))


Mierzymy jitter i shimmer Wczytaj wskazany sygnał (sygnały)

Otwórz go w edytorze

W menu Pulses aktywuj opcję Show pulses

Zaznacz krótki fragment

„dobrze brzmiącą”, długą samogłoskę

samogłoskę w wygłosie

samogłoskę w głosie suchym, zachrypniętym, etc.

spółgłoskę dźwięczną

spółgłoskę bezdźwięczną

Wybierz z menu Pulses opcję Voice report

Na początek proponuję wybrać parametry typu „local”

Przetestuj, jakie wartości przybierają parametry u tego samego mówcy w różnych realizacjach tej samej samogłoski oraz u różnych mówców w podobnych realizacjach podobnych samogłosek.

Wiadro dziegciu ;-)

(Oguz et al. 2011:839)

Co z tego wynika?

Omówione parametry wiążą się z barwą głosu – ich wartości decydują jednak tylko o pewnej składowej wrażenia percepcyjnego.

Parametry nie są od siebie w pełni niezależne – zmiana wysokości głosu czy tempa mowy wpływa na wartości parametrów ściślej związanych z barwą głosu

Interpretacja ich wartości jest nieoczywista i wymaga uwzględnienia szeregu uwarunkowań (np. społecznych), wykraczających poza sam sygnał mowy i proces artykulacji.

Być może koncepcja barwy głosu jest zbyt szeroka lub pojęcie jestniewłaściwie zdefiniowane?

Mimo wspomnianych problemów, parametry te mogą mieć wartość diagnostyczną (schorzenia toru głosowego), w rozpoznawaniu mówcy, w określeniu stanu emocjonalnego, detekcji „indeksykaliów” – ustalaniu, co wiadomo o mówcy, itd.

Dziękuję za uwagę

Kontakt:

[email protected]

http://maciejk-karpinski.home.amu.edu.pl

http://amu.academia.edu/MaciejKarpinski

Literatura (cytowana i nie tylko)

ANSI (1960) S1.1-1960, Acoustical terminology, New York: American National Standards Institute.

Bhuta, T., Patrick, L., D. Garnett 2003. Automatic system to detect the type of voice pathology. Journal of Voice.

Boersma, P., Weenink, D. Praat: doing phonetics by computer. [Online]

Farrus, M., Hernando, J. & Ejarque, P. 2007. Jitter and Shimmer Measurements for Speaker Recognition. Proceedings of INTERSPEECH 2007, pp. 778–781.

Felippe, Ana Clara Naufel de, Grillo, Maria Helena Marotti Martelletti, & Grechi, Thaís Helena 2006. Standardization of acoustic measures for normal voice patterns. Revista Brasileira de Otorrinolaringologia, 72(5), pp. 659-664.

Gelfer, M.P. 1988. Perceptual attributes of voice: Development and use of rating scales, Journal of Voice, 2, pp. 320-326.

Kłaczyński, M. 2007. Zjawiska wibroakustyczne w torze głosowym. Dysertacja doktorska, AGH Kraków.

Literatura (cytowana i nie tylko) Kreiman, J. & Gerrat, B. R. 2005. Perception of aperiodicity in pathological voice, Acoustical Society of

America, vol. 117, pp. 2201-2211.

Kreiman, J. & Gerratt, B. R. 1998. Validity of rating scale measures of voice quality, Journal of the Acoustical Society of America, 104, pp. 1598-1608.

Kreiman, J. & Gerratt, B.R. 1996. The perceptual structure of pathologic voice quality, Journal of the Acoustical Society of America, 100, pp. 1787-1795.

Kreiman, J. & Gerratt, B.R. 2000. Sources of listener disagreement in voice quality assessment, Journal of the Acoustical Society of America, 108, pp. 1867-1879.

Kreiman, J., Gerratt, B.R. & Precoda, K. 1990. Listener experience and perception of voice quality, Journal of Speech and Hearing Research, 33, pp. 103-115.

Kreiman, J., Gerratt, B.R., Precoda, K. & Berke, G.S. 1992. Individual differences in voice quality perception, Journal of Speech and Hearing Research, 35, pp. 512-520.

Kreiman, J., Vanlacker-Sidtis, D., Gerratt, B. 2004. Defining and measuring sound quality, From Sound to Sense, MIT. Xue, S.A., Deliyski, D. 2001. Effects of Aging on selected voice parameters: Preliminary normative data and educational implications, Educational Gerontology, 27, pp. 159-168.

Laver, J. 1980. The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press.

Laver, J. Voice quality and indexical information.

Oguz, H., Kilic, M., Safak, M. A. 2011. Comparison of results in two acoustic analysis programs: Praat and MDVP. Turk J Med Sci, 41 (5), pp. 835-841

Documents

Barwa głosu: Od produkcji przez akustykę do percepcji i z powrotem