Upload
gay
View
40
Download
0
Embed Size (px)
DESCRIPTION
Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja. Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu Milica Ga š i ć. Siže. Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje - PowerPoint PPT Presentation
Citation preview
1
Dijalog izmedju računara i čoveka kao delimično primetan Markovljev proces odlučivanjaGrupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu
Milica Gašić
Siže
Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje
Markovljev proces odlučivanja Delimicno primetan Markovljev proces odlučivanja
Dijalog kao delimicno primetan Markovljev proces odlučivanja Hidden Information State sistem Treniranje sistema za dijalog Evaluacija Zaključak
2
Motivacija
Sistem za dijalog Omogućava komunikaciju uz pomoć govora Intuitivan za korišćenje Otporan na buku
Primeri Pomoćni servisi banaka, Info-centri, rezervacije letova...
Izgradnja sistema za dijalog Jednostavna Bazirana na podacima Da omogućava poboljšanje sistema tokom korisćenja
3
Elementi sistema za dijalog
4
MENADŽERDIJALOGA
RAZUMRVANJE GOVORA
GENERISANJE GOVORA
AUTOMATSKIPREPOTNAVAČ
GOVORA
SEMANTIČKIDEKODER
SINTETIZATORGOVORA
GENERATORPRIRODNOG
JEZIKA
Akcija korisnika u formi govora
Akcija korisnika u formi teksta
Akcija korisnika u formi semantičkih celina
Akcija sistema u formi tekstaAkcija sistema u
formi govora
Akcija sistema u formi semantičkih celina
Menadžer Dijaloga
Proizvodi akciju sistema na osnovu akcije korisnika
5
Standardni pristup Statistički pristupIzbor akcije Predefinisana
pravilaUči optimalnu akciju
Izvor znanja Ekspertsko znanje Uči iz interakcijeKorišćenjem postaje bolje
Ne Da
Upravljanje greškom
- Eksplicitno- Posebno pravilo za gresku u svakom pojedinačnom slučaju
- Implicitno- Modeliranjem dijaloga kao delimično primetan Markovljev proces odlučivanja
Potkrepljeno učenje Reinforcement Learning Sutton and Barto 1998
Cilj: izvršavati akcije koje vode maksimalnoj ukupnoj nagradi Učenje kratkoročnih akcija koje vode dugoročnoj nagradi
6
Potkrepljeno učenjeReinforcement learning
Nadzirano učenjeSupervised learning
Učenje iz interakcije Učenje po primeru
Omogućava planiranje Omogućava imitaciju
Agent je u nekom stanju Kada izvrši akciju prelazi
u novo stanje i od okoline dobije nagradu
Agent
Okolina
stanjeakcijanagrada
novo stanje
Markovljev proces odlučivanja Markov decission process (MDP)
Model za rešavanje problema potkrepljenog učenja Pretopstavka: novo stanje u kome je agent zavisi samo od
prethodnog stanja i predzete akcije
7
rt+1
st st+1
nagrada
akcija
stanje
novo stanje
at
Dinamika modela Tranziciona
verovatnoca Očekivana
kratkoročna nagrada
Belmanova jednačina optimalnosti
Polisa funkcija koja daje akciju za svako stanje Funcija vrednosti stanja za datu polisu je očekivana dugoročna
nagrada koja se dobija tom polisom
Belmanova jednačina daje optimalnu funkciju vrednosti
Aproksimacije Poznata dinamika modela Nepoznata dinamika modela
8
Delimično primetan Markovljev proces odlučivanjaPartially observable Markov Decission Process (POMDP)
Sta ako stanje u kome je agent nije moguće u portpinosti opaziti već samo postoji neka obzervacija, korumpirana bukom
Polisa je funkcija koja za trenutnu raspodelu stanja daje akciju
9
ot+1
Dinamika modela Tranziciona
verovatnoća Obzervaciona
verovatnoća Očekivana
kratkoročna nagrada
ot
rt+1
st st+1
nagrada
akcija
skriveno stanje
novo stanje
atobzervacija nova
obzervacija
10
Dijalog kao delimicno primetan Markovljev proces odlučivanja
o ¢o
r′
au
us
ds
a’¢
us′
ds′
u
ms ¢msstanje
obzervacija
nagrada
akcijamašine
istorija
dijalogaakcija
korisnika
cilj
korisnika
nova obzervacija
novo stanje
am
11
u
Dijalog kao delimicno primetan Markovljev proces odlučivanja
o ¢o
a’au
us
dsus’
ds’
r’a
Kako do sistema za dijalog za realni problem
Skup stanja se sastoji od svakog mogućeg korisnikovog cilja, svake moguće korisnikove akcije i svake moguće istorije dijaloga
12
Hidden Information State (HIS) sistem Young et al 2009
Sistem izgradjen za rešavanje realnog problema Domen: Turističke informacije o hotelima, restoranima,
pabovima u Kembridžu (preko 500 entiteta) Baziran je na delimično primetnom Markovljevom procesu
odlučivanja Aproksimacije
Ažurira raspodelu samo na N stanja sa najvećom verovatnocom
Učenje se izvršava na redukovanom prostoru
13
Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 14
Razumevanje govora
1. HI I’M LOOKING FOR INEXPENSIVE RESTAURANTS2. HI I’M LOOKING FOR INEXPENSIVE RESTAURANT3. HI I’M LOOKING FOR EXPENSIVE RESTAURANTS
4. I'M LOOKING FOR AN RESTAURANTS5. I'M LOOKING FOR EXPENSIVE RESTAURANT
6. I'M LOOKING FOR AN RESTAURANT…
UA1: inform(type=restaurant, pricerange=cheap)UA2: inform(type=restaurant, pricerange=expensive)
15
entity
Cilj korisnika – Predstavljen particijama
UA1: inform(type=restaurant, pricerange=cheap)
pricerange
cheap
restaurant
entityentity
restaurant
Prema ontologiji
domena
16
restaurant
entity
Cilj korisnika – Prestavljen particijama
UA2: inform(type=restaurant, pricerange=expensive)
pricerangerestaurant
entity
cheap
entity
restaurant
entity
pricerange
expensive
17
Istorija dijaloga
restaurant pricerange
entity
cheap
restaurant
entity entity
pricerange
expensive
entity
restaurant
Dodati infomacije iz istorije
Konsultovati Bazu Podataka
DB match DB matchDB match DB match
18
Raspodela N najverovatnijih hipoteza
restaurant pricerange
entity
cheap
UA1
DB match
restaur.
entity
pricera.
expens.
UA2
DB match
entity
restaur.
UA1
DB
entity
restau.
UA2
type
DA1
entity
UA1
ent
UA2
19
Selekcija akcije
.
Raspodela N hipoteza
SA: confirm(type=restaurant, pricerange=cheap)CONFIRM
Redukovani prostor
20
nova
akcija
Treniranje sa Simulatorom Korisnika u usloviama buke
Redukovani prostor
stanje
nova
akcija
novo stanje
Simulator imitira ponašanje korisnika
Simulator imitira gresku koja se javlja pri prepoznavanju govora
Menadžer uči kroz interakciju sa simulatorim
Greška se inkrementalno povećava tokom učenja
100.000 dijaloga za optimalnu polisu
nova
akcija
nova
akcija
nova
akcija
nova
akcija
nagrada
21
Rezultati na Simuliranom korisniku
Procenat uspeha (%)
Stopa konfuzije(%)
0 5 10 15 20 25 30 35 40 45
95
90
85
80
75
70
65
60
55
HIS-POMDP
MDP
22
Rezultati sa pravim korsnicima u uslovima buke
Domen: Turističke informacije 36 učesnika kojima je engleski maternji jezik Veštački je dodata buka sa autoputa Semantička greška 25.2%
Sistem %Uspešnih dijaloga
Std. dev.
MDP 65.74 4.93
HIS-POMDP 78.70 4.25
23
Zaključak i budući rad
Arhitektura statističkog sistema za dijalog Hidden Information State sistem za rešavanje realnog
problema zasnovan na delimično primetnom Markovljevom procesu odlučivanja
Rezultati pokazuju otpornost na buku i na simulatoru i na pravim korisnicima
Buduci rad: učenje od pravih korisnika i adaptacije
24
Hvala
Veb strana Grupe za dijalog:http://mi.eng.cam.ac.uk/research/dialogue/
Moja veb strana:http://mi.eng.cam.ac.uk/~mg436/
Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 25
Dijalog kao delimično prepoznatljiv Markovljev proces odluke
Raspodela stanja
polisa
Očekivananagrada
Optimialna polisa
akt korisnika
akt sistema
ažuritati
Reinforcement
learning
Razumevanje govora
GenerisanjeGovora
Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 26
Q1. State – Summary Space Mapping
Grounding info Hypothesis status
Matching with DB Partition status
Top Hypothesis prob
Next Hypothesis prob
User Act
Heuristics
Heuristics
restaurant pricerange
entity
cheap
UA1
DB match
Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 27
Q2. Summary Action – Action Mapping
CONFIRM restaurant pricerange
entity
cheap
UA1
DB match
SA: confrm(type=restaurant, pricerange=cheap)
Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 28
Q3. Q-learning
Belief is heuristically mapped to summary state space
Q-learning on discretised summary state space – grid points
Exploitation – following the current best policy
Exploration – taking a random action