Učenje i viši kognitivni procesi 6. Učenje, III Deo: Hernstejnov zakon slaganja, lančani režimi i Fantinova teorija redukcije odlaganja (DRT)

UČENJE I VIŠI KOGNITIVNI PROCESI Prolećni semestar 2013. Predavač: Goran S. Milovanović

Predavanje 6b UČENJE – Deo III: Instrumentalno učenje – vežbe

Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 2

REŽIMI POTKREPLJENJA Hernstejnov zakon slaganja (engl. Matching law)

Ričard Hernstejn (1930 – 1994), Skinerov student na Harvardu: proučava izborno ponašanje Paralelni režimi potkrepljenja: organizam može da emituje više različitih reakcija (npr. postoji nekoliko poluga za pritiskanje) od kojih svaka potkrepljuje po sopstvenom režimu potkrepljenja.

kljucanje dugmeta A

kljucanje dugmeta B

VI 2 minuta VI 1 minut

U intervalu od 2 minuta, dugme A potkrepljuje jednom, a dugme B – 2 puta. Šta golub treba da čini? Hernstejn, 1961 – evo šta golubovi čine:

kljucanje dugmeta A

kljucanje dugmeta B

~ 33% vremena ~ 67% vremena

Hernstejnov zakon slaganja:

odnos rata reakcija = odnos rata potkrepljenja

Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 3

USLOVNO POTKREPLJENJE Uspostavljanje uslovnog (sekundarnog) potkrepljenja

Primarni potkrepljivač

Arbitrarni stimulus

Podiže ratu reakcije R

kontingencija Arbitrarni stimulus

Podiže ratu reakcije R

= uslovni potkrepljivač

I faza

II faza


USLOVNO POTKREPLJENJE Faktori koji utiču na efikasnost uslovnog potkrepljenja

1. Frekvencija sa kojom je arbitrarni stimulus uparen sa primarnim potkrepljivačem. Outor, 1960: pokazuje da preferencija ka određenom sekundarnom potkrepljivaču raste sa kontingencijom između njega i primarnog potkrepljenja, ali u jednom trenutku dostiže maksimum bez obzira na dalji rast kontingencije.

2. Varijabilnost u davanju primarnog potkrepljenja sa kojim se uslovni potkrepljivač uparuje: ptice

će pokazati preferenciju za (i) sekundarni potkrepljivač koji je vezan za primarno potkrepljenje varirano kroz više različitih režima potkrepljenja, nego za (ii) sekundarni potkrepljivač koji je vezan za primarno potkrepljenje dato u jednom režimu potkrepljenja. Eksperimentalna studija Edmunda Fantina, 1967:

• sekundarni potkrepljivač + primarno potkrepljenje na FR1 u 50% vremena i FR99 u drugih 50% vremena je preferiran u odnosu na

• sekundarni potkrepljivač + primarno potkrepljenje na FR50 sve vreme. • Eksperimentalne životinje pokazuju sklonost ka riziku u izbornom ponašanju. • Fantino je Hernstejnov student (a Hernstejn je bio Skinerov student).


USLOVNO POTKREPLJENJE Faktori koji utiču na efikasnost uslovnog potkrepljenja

3. Operacije uspostavljanja primarnog potkrepljivača će uticati na efikasnost uslovnog potkrepljivača

Npr. ptica će reagovati na svetlo koje najavljuje da je kljucanjem moguće dobiti hranu intenzivnije ako je motivisana (gladna) kada je učila reakciju kljucanja nego ako nije. 4. Odlaganje primarnog potkrepljivača će uticati na efikasnost uslovnog potkrepljivača Npr. ukoliko svetlo označava početak perioda u kome reakcija kljucanja dovodi do hrane, ali se potkrepljenje odlaže, što je to odlaganje veće to će svetlo biti manje efikasno kao uslovni, sekundarni potkrepljivač.

Sekundarno potkrepljenje omogućava lančanje reakcija

SD – crveno svetlo R – kljucanje dugmeta SC – paljenje plavog svetla + hrana

SD – plavo svetlo R – kljucanje dugmeta na FR60 reakcija SC – paljenje zelenog svetla

SD – zeleno svetlo R – kljucanje dugmeta na FI60 sekundi SC – paljenje crvenog svetla


USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory)

Studije izbornog ponašanja Paralelni režimi u lančanju reakcija (Concurrent-Chaining)

VIt VIt

T1 T2

Primarno potkrepljenje


Inicijalni linkovi: faza izbora VIt = VIt (dva ista režima varijabilnog intervala),

npr. oba su VI10 sec.

Terminalni linkovi: faza ishoda T1 i T2 su neka dva različita režima potkrepljenja

• U fazi izbora, davanje reakcije na bilo koje od dva SD pod istim režimom potkrepljenja vodi ka različitim režimima T1 i T2 u terminalnim linkovima.

• U zavisnosti od toga koji režim potkrepljenja, T1 ili T2, eksperimentalna životinja preferira, pri sledećem izlaganju inicijalnim linkovima emitovaće više reakcija ka SD koje je asocirano sa preferiranim režimom u fazi ishoda.

L R

Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6b 6b


Studije izbornog ponašanja Paralelni režimi u lančanju reakcija (Concurrent-Chaining): Fantino, 1969.

Inicijalni linkovi: faza izbora VIt = VIt (dva ista režima varijabilnog intervala),

npr. oba su VI10 sec.

Terminalni linkovi: faza ishoda T1 i T2 su neka dva različita režima potkrepljenja

• U fazi izbora, davanje reakcije na bilo koje od dva SD pod istim režimom potkrepljenja vodi ka različitim režimima T1 i T2 u terminalnim linkovima.

• U zavisnosti od toga koji režim potkrepljenja, T1 ili T2, eksperimentalna životinja preferira, pri sledećem izlaganju inicijalnim linkovima emitovaće više reakcija ka SD koje je asocirano sa preferiranim režimom u fazi ishoda.



VIt = VIt (dva ista režima varijabilnog intervala)

• T – ukupno prosečno vreme do primarnog potkrepljenja mereno od početka faze izbora • tL – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku L („levi); npr. u VI60 sec. režimu, tL = 60, u VI25 sec. režimu, tL = 25, itd. • tR – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku R („desni“). • Edmund Fantino, 1969:

Neka su T1 i T2 takođe VI režimi (različiti!)

VIt VIt

T1 T2



L R


USLOVNO POTKREPLJENJE Fantinova teorija redukcije odlaganja (Delay Reduction Theory) – modifikacija Skvajers & Fantino, 1971.

• Levi član jednačine: odnos broja reakcija na jedan i drugi diskriminativni stimulus u fazi izbora (isto kao u Hernstajnovom zakonu slaganja).

• Desni član jednačine: • RfL – ukupna rata primarnog potkrepljenja za L („levi“) diskriminativni stimulus • RfR – ukupna rata primarnog potkrepljenja za R („desni“) diskriminativni stimulus

• uvođenje ovih članova poštuje prethodno ustanovljenu pravilnost vezanu za efekat frekvencije primarnog potkrepljenja na intenzitet uslovnog potkrepljivača

• T – ukupno prosečno vreme do primarnog potkrepljenja mereno od početka faze izbora

• tL – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku L („levi); npr. u VI60 sec. režimu, tL = 60, u VI25 sec. režimu, tL = 25, itd.

• tR – koliko je u proseku odlaže primarno potkrepljenje na terminalnom linku R („desni“) • (T – tX) – kolika je razlika između ukupnog prosečnog vremena do potrekpljenja T i

prosečnog odlaganja potkrepljenja tX na nekom terminalnom linku X – što je ovaj član veći, to je na odgovarajućem terminalnom linku potkrepljenje manje odloženo.


USLOVNO POTKREPLJENJE Značaj uslovnog potkrepljenja

Ljudsko složeno individualno i socijalno ponašanje nije uvek nagrađeno biološki primarnim nagradama tj. primarnim potkrepljenjem. Problem: na koji način je onda ljudsko ponašanje kontrolisano potkrepljenjem? Generalizovani uslovni potkrepljivači nastaju kada se uslovni potkrepljivač asocira za više različitih primarnih potkrepljivača, npr:

• gest odobravanja kod ljudi... • posvećena pažnja... • znakovi naklonosti... • novac.

generalizovana socijalna potkrepljenja


DISKRIMINACIJA I GENERALIZACIJA Diskriminativno operantno uslovljavanje (Skiner)

crveno svetlo

Postoji određeni stimulus, realizovan u Skinerovoj kutiji, koji je znak da će određena reakcija biti potkrepljena. SD – diskriminatorni stimulus Oznake (najčešće): SD – R će biti potkrepljena

SΔ – R neće biti potkrepljena

SD R SR Shema diskriminativnog

operantnog uslovljavanja

SD – diskriminativni stimulus

R – operantna reakcija

SR – operantni stimulus (potkrepljenje)

SΔ R ⌐SR


DISKRIMINACIJA I GENERALIZACIJA Gradijent generalizacije

Pitanje: ukoliko diskriminativno operantno uslovimo goluba na SD = 580nm, da li će on pokazati R ukoliko promenimo diskriminativni stimulus, npr. na SD = 550nm?601nm? 750nm? Rodžer Šepard: kako odrediti skup stimulusa koji imaju iste posledice kao određeni stimulus čije su posledice već poznate (problem određivanja konsekvencijalnog regiona)? Kada treba da generalizujemo, koliko široko? Problem empirijske indukcije: učenje shvaćeno kao problem matematičke statistike.

Gradijent generalizacije u eksperimentu Gutmana i Kališa, 1956.


DISKRIMINACIJA I GENERALIZACIJA Diskriminacija: fenomen pomeranja vrha

Eksperiment Hensona, 1959. Kontrolna grupa Diskriminativni stimulus SD = 550 nm potkrepljeno Eksperimentalna grupa Diskriminativni stimulus SD = 550 nm potkrepljeno Diskriminativni stimulus SΔ = 555 nm nepotkrepljeno Fenomen pomeranja vrha: gradijent generalizacije se „pomera od“ SΔ i postaje uži, specifičniji (peak shift phenomenon).


DISKRIMINACIJA I GENERALIZACIJA Diskriminacija

Dženkins i Harison, 1962.

Kontrolna grupa Diskriminativni stimulus ton SD = 1000Hz potkrepljeno (hrana) Eksperimentalna grupa Diskriminativni stimulus ton SD = 1000Hz potkrepljeno (hrana) Diskriminativni stimulus SΔ = 950Hz nepotkrepljeno Test R na rasponu 300 do 3500Hz. Diskriminacija: gradijent generalizacije postaje uži, specifičniji.

Education

Učenje i viši kognitivni procesi 6. Učenje, III Deo: Hernstejnov zakon slaganja, lančani režimi i Fantinova teorija redukcije odlaganja (DRT)