Upload
percy
View
47
Download
0
Embed Size (px)
DESCRIPTION
Ako používame pozornosť a apriórne informácie pri priestorovom počúvaní. Norbert Kopčo Katedra kybernetiky a umelej inteligencie, T echnick á univerzita Košice Hearing Research Center and Center for Computational Neuroscience Boston University. 9/23/2011, Kognice, Brno. Prehľad. - PowerPoint PPT Presentation
Citation preview
Ako používame pozornosť Ako používame pozornosť a apriórne informácie a apriórne informácie
pri priestorovom počúvaní pri priestorovom počúvaní
Norbert Kopčo
Katedra kybernetiky a umelej inteligencie, Technická univerzita Košice
Hearing Research Center and Center for Computational NeuroscienceBoston University
9/23/2011, Kognice, Brno
2
Prehľad
Úvod do priestorového sluchu: funkcie, neurálne štruktúry, aplikácie výskumu
Dve príkladové štúdie:Experiment 1: Presúvanie priestorovej pozornosti pri
separovaní rečiExperiment 2: Použitie apriórnej informácie
pri lokalizácii hovoriaceho
Cieľ: Ukázať, že faktory ako vôľou riadená pozornosť a vedomá voľba stratégie sú kritické pri počúvaní v zložitých (každodenných) prostrediach.
(+Aktuálne bežiace projekty)
3
Funkcie sluchuČlovek je schopný zvuky:
- identifikovať - lokalizovať- porozumieť
Veľmi zložitý proces: Napr., ako vieme, ktorý zvuk pochádza z ktorého zdroja, ak počujeme viac zvukov súčasne?
Príklad: Bóje v prístave …
Yost (1994)
4
Priestorový sluch: načo máme dve uši?
Lokalizovanie zvukov v priestore: v porovnaní so zrakom je sluch podstatne horší (dva rády), ale pokrýva celý priestor. Užitočné napr. ako výstražný mechanizmus.
Separácia zvukov: ak počúvame viac vecí naraz, sluchový systém môže porovnať zvuk zaznamenaný ušami a na základe tohoto porovnania zlepšiť porozumenie jednému z počutých stimulov. Používame napr. ak hovorí viac ľudí naraz (cocktail party effect), ale aj pri potláčaní odrazov zvuku od stien.
Analýza sluchovej scény: vytvorenie vnútorného modelu sluchového prostredia pre orientáciu, interakciu, a správne spracovanie/porozumenie.
5
Neurálna štruktúra (po kôru)
Časti:Veľa podkôrových:- kochleárny nukleus- mozgový kmeň: olivárny komplex- stredný mozog: colliculus inferior- thalamus: MGB
Porovnanie so zrakom:Sluch rýchlejší a presnejší(vďaka podkôrovým štruktúram)
Midbrain
Pons
Thalamus
(Kandel, Schwartz, Jessel)
6
Neurálna štruktúra (kôra)
Primárna kôraDve paralelnédráhy (hypotetické):- „čo“- „kde“
Veľa interakcií:napr. s inými modalitami, na všetkých úrovniach
(Rauschecker a Tian, 2000)
7
Aplikácie výskumu priestor. sluchu
Prostetika:- načúvacie strojčeky, kochleárne a kmeňové implantáty
Psychologické aspekty a komunikácia medzi ľuďmi:- kognitívna záťaž rušivých zvukov napr. pri výuke,
komunikácia v zložitých prostrediach (letoví navigátori)
Sluchový displej („zobrazovanie“ informácií sluchom):- pre slepcov, pri aktivitách s veľkou kognitívnou záťažou
Technické systémy:- automatické rozpoznávanie reči, strojová lokalizácia zvukov,
počítačové hry, systémy pre virtuálnu realitu
Experiment 1: Orientovanie
priestorovej pozornosti pri selektívnom počúvaní
9
Problém selektívneho počúvania…
Presnosť spracovania reči poslucháčom je vo všeobecnosti dobrá, ak reč prichádza z miesta, na ktoré poslucháč zameriava svoju pozornosť. Ale, ak má spracovať reč z miesta, na ktoré jeho pozornosť zameraná nie je, presnosť spracovania sa zhorší.
Otázka: Čo sa stane ak sa poloha hovoriaceho, na ktorého sa má pozornosť zamerať, v čase mení?
Cieľ: - študovať krátkodobú dynamiku selektívnej pozornosti,- merať presnosť spracovania reči v prípade meniacej sa polohy cieľa počas prezentácie sekvencie slov.
Hypotéza: Presnosť spracovania reči je horšia keď poslucháč musí presúvať priestorovú selektívnu pozornosť (napriek tomu, že vie kam ju má presunúť).
10
Predošlý výskum
Apriórna znalosť, „ktorým smerom“ (staticky) počúvať zlepšuje porozumenie reči pri počúvaní viacerých súčasne hovoriacich (Kidd et al. JASA 2005; Best et al. JARO 2007)
Presnosť porozumenia sa zlepšuje aj po desiatkach počutých slov (Brungart et al. Percept Psychophys 2007)
My meriame krátkodobú dynamiku selektívnej pozornosti: sledujeme efekt zmeny polohy cieľa počas prezentácie sekvencie slov
11
Metódy: Poloha cieľa sa mení
“9 3 5 1”
“5 4 2 9”“3 9 1 5”
“1 2 6 7”
“6 8 4 2” 2(+1) usporiadania
STATICKÉ: poloha cieľa sa počas sekvencie nemení
DYNAMICKÉ: poloha sa mení od čísla k číslu
4 rýchlosti prezentácie Pauza medzi slovami 0, 250, 500, 1000 ms
2 hlasové typy
NÁHODNÝ, KONŠTANTNÝ
STATICKÉ
DYNAMICKÉ ČAS
ČAS
12
Výsledky: priemerná presnosť
STATICKÉ
DYNAMICKÉ ČAS
ČAS
NÁHODNÝ HLAS
0 250 500 10000
10
20
30
40
50
60
70
80
90
100
inter-word delay (ms)
% c
orre
ct
STATICKÉ
DYNAMICKÉ
13
% s
práv
nych
odp
oved
í
Výsledky: priemerná presnosť
STATICKÉ
DYNAMICKÉ ČAS
ČAS
S PREDSTIHOM
0 250 500 10000
10
20
30
40
50
60
70
80
90
100
inter-word delay (ms)
% c
orre
ct
STATICKÉ
DYNAMICKÉDYNAMICKÉ S PREDSTIHOM
NÁHODNÝ HLAS
14
STATICKÉ
DYNAMICKÉ
DYNAMICKÉ S PREDSTIHOM
Výsledky: závislosť na poradí
STATICKÉ
DYNAMICKÉ ČAS
ČAS
S PREDSTIHOM
NÁHODNÝ HLAS
1 2 3 420
30
40
50
60
70
80
digit position
% c
orre
ct
0 ms
1 2 3 420
30
40
50
60
70
80
digit position
250 ms
1 2 3 420
30
40
50
60
70
80
digit position
500 ms
1 2 3 420
30
40
50
60
70
80
digit position
1000 ms
15
0 250 500 10000
10
20
30
40
50
60
70
80
90
100
pauza medzi slovami (ms)
% s
práv
nych
odp
oved
í
STATICKÉ
DYNAMICKÉ
Výsledky: priemerná presnosť
STATICKÉ
DYNAMICKÉ ČAS
ČAS
KONŠTANTNÝ HLAS
16
0 250 500 10000
10
20
30
40
50
60
70
80
90
100
pauza medzi slovami (ms)
% s
práv
nych
odp
oved
í
STATICKÉ
DYNAMICKÉDYNAMICKÉ S PREDSTIHOM
Výsledky: priemerná presnosť
STATICKÉ
DYNAMICKÉ ČAS
ČAS
S PREDSTIHOM
KONŠTANTNÝ HLAS
17
1 2 3 420
30
40
50
60
70
80
poradie čísla
% s
práv
nych
odp
oved
í
0 ms
1 2 3 420
30
40
50
60
70
80250 ms
1 2 3 420
30
40
50
60
70
80500 ms
1 2 3 420
30
40
50
60
70
801000 ms
STATICKÉ
DYNAMICKÉ
DYNAMICKÉ S PREDSTIHOM
Výsledky: závislosť na poradí
STATICKÉ
DYNAMICKÉ ČAS
ČAS
S PREDSTIHOM
KONŠTANTNÝ HLAS
18
Analýza chýb
KONŠTANTNÝ HLASNÁHODNÝ HLASNajčastejší typ chyby je identifikovanie vedľajšieho slova.
Zlepšenie správnosti pri statickej polohe cieľa je primárne spôsobené redukciou výskytu odpovedí uvádzajúcich maskovacie číslo.
Priestorový filter má tvar gausovskej distribúcie.
STATICKÉ
DYNAMICKÉ
DYNAMICKÉ S PREDSTIHOM
19
Exp 1: ZhrnutieSchopnosť rozpoznať, zapamätať si, a vyvolať z pamäti
krátku sekvenciu slov sa zhorší, keď sa poloha hovoriaceho behom sekvencie mení.
Toto zhoršenie pretrváva aj ak sa:- spomalí rýchlosť prezentácie,- priestorová informácia o cieli poskytne predom (aj keď je náskok 1 sekunda!!!)- predom poskytnutá informácia pomáha len pri konštantnom cieľovom hlase
Zvýšena kognitívna záťaž vyvolaná presúvaním pozornosti má pretrvávajúce následky.
Zhoršenie výkonu v dynamickom prostredí má minimálne dva komponenty:– kogn. záťaž vyvolaná rýchlym presúvaním cieľa,– strata schopnosti vylepšovať pozornostný filter
počas prezentácie sekvencie.
Best, Ozmeral, Kopco, and Shinn-Cunningham (2008). PNAS 105:13173-13177.
20
E1a: maskovače bez významu
Q: Je zlepšenie pri statickom počúvaní spôsobené tým, že maskovače sú potenciálnymi cieľmi?
Metódy:Ako Exp. 1 s konšt. hlasom, ale maskovače časovo prevrátené (prehrávané zozadu) a zhlasnené o 10 dB
Výsledok:Ako Exp. 1, ale predstih LEDky už nezlepšuje výkon
pauza medzi slovami (ms)
% s
práv
nych
odp
oved
í
21
E1b: zapamätaná trajektória
Q: Je zlepšenie pri statickom počúvaní spôsobené neurčitosťou polohy nasledovného cieľa?
Metódy:Ako Exp. 1 s konšt. hlasom, ale trajektória pohybu cieľa zafixovaná a natrénovaná.
Výsledok:Žiadne zlepšenie (ale experiment vykonaný len s 0-sekundovou pauzou medzi slovami)
pauza medzi slovami (ms)
% s
práv
nych
odp
oved
í
22
E1c: hladká trajektória
Q: Je strata pri dynamickom presúvaní pozornosti ovplyvnená vzdialenosťou presúvania pozornosti?
Metódy:Ako Exp. 1 s konšt. hlasom, ale trajektória pohybu cieľa obmedzená na susedné reproduktory.
Výsledok:Ako Exp. 1, ale predstih LEDky už nezlepšuje výkon
pauza medzi slovami (ms)
% s
práv
nych
odp
oved
í
STATICKÉ
DYNAMICKÉ
DYNAMICKÉ S PREDSTIHOM
23
Doplnkové exp. 1a-c: ZhrnutieZlepšenie selektivity priestorovej pozornosti dosiahnuté
zafixovaním polohy cieľa nie je možné prisúdiť výlučne:
a) náročnosti úlohy odfiltrovať susedné maskovače, ktoré sú potenciálne zameniteľné s cieľom;
b) možnosti pripraviť sa na smer, z ktorého príde cieľ;
c) tomu, že pozornosť netreba presúvať ďaleko.
Dôležitá je možnosť kontinuálne počúvať cieľový hlas z jedného miesta.
Best, Shinn-Cunningham, Ozmeral, Kopčo (2010). JASA 127 (6), EL258-EL264 .
Experiment 2: Localizing a speech target
in a multitalker mixture
25
Introduction
Spatial separation of sources enhances speech perception
In complex environments (e.g., with multiple talkers), spatial perception also important for “sorting” acoustic scene into objects and focusing attention on sources of interest (Brungart et al 2001; Freyman et al 1999; Kidd et al 2005; Best et al 2007; Shinn-Cunningham 2008)
Relatively few studies actually measured localization of speech in a multitalker environment (Yost et al., 1996; Hawley et al.1999; Drullman and Bronkhorst 2000; Brungart et al. 2006)
26
Experiment and GoalsStudy horizontal localization of speech in a multitalker environment
Question 1: How does presence of maskers influence localization performance?
Evaluate the effect of maskers on RMS errors in localization responses. Separate effect of detection on localization errors.
Question 2: Is performance affected by a priori knowledge / uncertainty about distribution of masker locations?
Compare performance when masker distribution fixed vs. varied from trial to trial.
Hypotheses: 1. Masker location uncertainty will hurt performance.2. A priori information will eliminate some of the loss, in particular if a simple strategy can be employed to use it.
27
Setup and masker patterns
Pattern 1 Pattern 3 Pattern 5Pattern 4Pattern 2
Room:approx. 3 m x 5 m
Speakers:
only presenting targets
presenting targets andmaskers (see panel b)presenting targets andmaskers (see panel b)
28
MethodsStimuli:
Target: word “two” spoken by a female talkerMaskers: 4 different monosyllabic words,
spoken by 4 male talkers (all longer than target)Target-to-Masker energy ratios: 0 dB or -5 dB
Task: Subjects pointed head to perceived target locationSubjects asked to indicate location only if target heard (5 catch trials with no target per block to monitor
obedience)
Conditions (separate blocks):- Control: No masker- Fixed: Masker pattern fixed across block of trials- Mixed: Masker pattern randomly chosen for each trial
29
Detection
Detection worse at lower TMR, similar in both uncertainty conditions
0 dB -5 dB0
5
10
15
20
25
False Alarm Rate
Pe
rce
nt (
ou
t of 5
ca
tch
tria
ls p
er
blo
ck)
N = 7
TMR0 dB -5 dB
0
5
10
15
20
25
Miss Rate
TMR
Pe
rce
nt
FixedMixed
30
Localization: Control
Good performance with no maskers
All effects of maskers plotted re. control performance on following slides
31
Average across patterns
Detrimental effect of maskers is strong, both for fixed and mixed conditions.
Averaged across patterns and target locations, a priori knowledge helps slightly, by approximately 20%.
32
Average across patterns
When looking only at off-masker locations, a priori knowledge helps dramatically (by 36%)
33
Average across patterns
When looking only at on-masker locations, a priori knowledge has no effect (or hurts performance)
34
Interim SummaryPresence of maskers hurts performance (H1 confirmed), even after accounting for lower detectability.
A priori knowledge of masker locations influences target talker localizability:
- Improving performance at locations from which (the subject knows) no masker can come
- Not affecting (or worsening) performance at locations from which (the subject knows) maskers will come (H2 partially confirmed)
Possible mechanism: - Redistribution of processing resources - “incorrect” strategy: focusing only on off-masker locations
Next, analyze patterns separately to gain more insight into behavior re. H2.
35
Raw Data
Complex effect of target location, masking pattern, uncertainty and TMR
-50 0 500
10
20
Sta
nd
ard
De
via
tion
[°]
-50 0 50
-50 0 50
TMR 0 dB
-50 0 50
-50 0 50
FixedMixed
-50 0 500
10
20
-50 0 50
-50 0 50
TMR -5 dB
Target Azimuth [°]-50 0 50
-50 0 50
36
Analysis of Patterns
A priori information helps for off-masker targets - in almost all patterns- at both TMRs (more at -5 dB)
A priori information can hurt for on-masker targets, mainly for patterns 1 and 2
Overall, effects large for Patts 1 & 2, small for Patt 5.
Complexity of pattern limits use of a priori information.
37
Exp 2: Summary1. Mixture has complex effects on localization performance
- generally, it increases localization errors, even after detection errors are eliminated- effect depends on masker pattern, location of target re. maskers, and TMR
2. A priori information about the distribution of speech maskers modulates the effect of masking:
- reducing it (as expected)- but sometimes increasing it (unexpected)
3. These modulatory effects are - likely to be due to change in strategy / assignment of resources:
focusing on off-masker locations in fixed condition- most useful when a priori information can be simply applied (simple patterns)- least useful when a priori information cannot be simply applied (complex patterns)
Kopčo N, Best V, Carlile S (2010). Journal of the Acoustical Society of America, 127, 1450-1457
38
Exp 2a: Hearing Impairment
Q: Is the effect of complex masker mixture similar for Hearing-Impaired listeners?
Methods:As in Exp. 2, but only the Mixed condition.
Result:HI listeners performance only affected in mixture (re. normal hearing listeners)
Best, Carlile, Kopčo, van Schaik (2011) J of the Acoust Soc of Am, 129, EL210-EL215
39
Celkové zhrnutie
Predošlé štúdie ukázali, že vplyv pozornosti a apriórnej informácie je v jednoduchých situáciách (napr. keď sluchová scéna pozostáva len z jedného hovoriaceho a jedného maskovacieho zdroja zvuku) malý:- pri porozumení reči, aj- pri lokalizácii zdrojov zvuku.
V zložitých situáciách (napr. keď hovorí naraz 5 ľudí):- je schopnosť zamerať priestorovú pozornosť veľmi
dôležitá pre porozumenie reči (Exp. 1)- človek využíva apriórne informácie na voľbu
stratégie (nie vždy optimálnej) pre lokalizáciu hovoriaceho (Exp. 2).
Gin Best, Erol Ozmeral, Barbara Shinn-Cunningham
Hearing Research Center, Boston University
Simon Carlile
University of Sydney
Beáta Tomoriová, Ľuboš Hládek, Rudolf Andoga
Katedra kybernetiky a UI, TU Košice
Finančná podpora:
Human Frontiers Science Program,
US National Institutes of Health, US National Science Foundation,
US National Academy of Sciences, VEGA
Spolupracovníci a podpora
Aktuálne projekty
Na TU Košice:Contextual Plasticity in Sound Localization (US NIH)
V spolupráci s Boston University, Harvard Medical School/MGH, UC Riverside:Perceptual and cross-modal learning in auditory distance perception (Marie Curie Project, 7FP EU)
Viac info: http://pcl.tuke.sk, http://cns.bu.edu/~kopco