Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

1

Dijalog izmedju računara i čoveka kao delimično primetan Markovljev proces odlučivanjaGrupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu

Milica Gašić

Siže

Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje

Markovljev proces odlučivanja Delimicno primetan Markovljev proces odlučivanja

Dijalog kao delimicno primetan Markovljev proces odlučivanja Hidden Information State sistem Treniranje sistema za dijalog Evaluacija Zaključak

2

Motivacija

Sistem za dijalog Omogućava komunikaciju uz pomoć govora Intuitivan za korišćenje Otporan na buku

Primeri Pomoćni servisi banaka, Info-centri, rezervacije letova...

Izgradnja sistema za dijalog Jednostavna Bazirana na podacima Da omogućava poboljšanje sistema tokom korisćenja

3

Elementi sistema za dijalog

4

MENADŽERDIJALOGA

RAZUMRVANJE GOVORA

GENERISANJE GOVORA

AUTOMATSKIPREPOTNAVAČ

GOVORA

SEMANTIČKIDEKODER

SINTETIZATORGOVORA

GENERATORPRIRODNOG

JEZIKA

Akcija korisnika u formi govora

Akcija korisnika u formi teksta

Akcija korisnika u formi semantičkih celina

Akcija sistema u formi tekstaAkcija sistema u

formi govora

Akcija sistema u formi semantičkih celina

Menadžer Dijaloga

Proizvodi akciju sistema na osnovu akcije korisnika

5

Standardni pristup Statistički pristupIzbor akcije Predefinisana

pravilaUči optimalnu akciju

Izvor znanja Ekspertsko znanje Uči iz interakcijeKorišćenjem postaje bolje

Ne Da

Upravljanje greškom

- Eksplicitno- Posebno pravilo za gresku u svakom pojedinačnom slučaju

- Implicitno- Modeliranjem dijaloga kao delimično primetan Markovljev proces odlučivanja

Potkrepljeno učenje Reinforcement Learning Sutton and Barto 1998

Cilj: izvršavati akcije koje vode maksimalnoj ukupnoj nagradi Učenje kratkoročnih akcija koje vode dugoročnoj nagradi

6

Potkrepljeno učenjeReinforcement learning

Nadzirano učenjeSupervised learning

Učenje iz interakcije Učenje po primeru

Omogućava planiranje Omogućava imitaciju

Agent je u nekom stanju Kada izvrši akciju prelazi

u novo stanje i od okoline dobije nagradu

Agent

Okolina

stanjeakcijanagrada

novo stanje

Markovljev proces odlučivanja Markov decission process (MDP)

Model za rešavanje problema potkrepljenog učenja Pretopstavka: novo stanje u kome je agent zavisi samo od

prethodnog stanja i predzete akcije

7

rt+1

st st+1

nagrada

akcija

stanje

novo stanje

at

Dinamika modela Tranziciona

verovatnoca Očekivana

kratkoročna nagrada

Belmanova jednačina optimalnosti

Polisa funkcija koja daje akciju za svako stanje Funcija vrednosti stanja za datu polisu je očekivana dugoročna

nagrada koja se dobija tom polisom

Belmanova jednačina daje optimalnu funkciju vrednosti

Aproksimacije Poznata dinamika modela Nepoznata dinamika modela

8

Delimično primetan Markovljev proces odlučivanjaPartially observable Markov Decission Process (POMDP)

Sta ako stanje u kome je agent nije moguće u portpinosti opaziti već samo postoji neka obzervacija, korumpirana bukom

Polisa je funkcija koja za trenutnu raspodelu stanja daje akciju

9

ot+1

Dinamika modela Tranziciona

verovatnoća Obzervaciona

verovatnoća Očekivana

kratkoročna nagrada

ot

rt+1

st st+1

nagrada

akcija

skriveno stanje

novo stanje

atobzervacija nova

obzervacija

10

Dijalog kao delimicno primetan Markovljev proces odlučivanja

o ¢o

r′

au

us

ds

a’¢

us′

ds′

u

ms ¢msstanje

obzervacija

nagrada

akcijamašine

istorija

dijalogaakcija

korisnika

cilj

korisnika

nova obzervacija

novo stanje

am

11

u

Dijalog kao delimicno primetan Markovljev proces odlučivanja

o ¢o

a’au

us

dsus’

ds’

r’a

Kako do sistema za dijalog za realni problem

Skup stanja se sastoji od svakog mogućeg korisnikovog cilja, svake moguće korisnikove akcije i svake moguće istorije dijaloga

12

Hidden Information State (HIS) sistem Young et al 2009

Sistem izgradjen za rešavanje realnog problema Domen: Turističke informacije o hotelima, restoranima,

pabovima u Kembridžu (preko 500 entiteta) Baziran je na delimično primetnom Markovljevom procesu

odlučivanja Aproksimacije

Ažurira raspodelu samo na N stanja sa najvećom verovatnocom

Učenje se izvršava na redukovanom prostoru

13

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 14

Razumevanje govora

1. HI I’M LOOKING FOR INEXPENSIVE RESTAURANTS2. HI I’M LOOKING FOR INEXPENSIVE RESTAURANT3. HI I’M LOOKING FOR EXPENSIVE RESTAURANTS

4. I'M LOOKING FOR AN RESTAURANTS5. I'M LOOKING FOR EXPENSIVE RESTAURANT

6. I'M LOOKING FOR AN RESTAURANT…

UA1: inform(type=restaurant, pricerange=cheap)UA2: inform(type=restaurant, pricerange=expensive)

15

entity

Cilj korisnika – Predstavljen particijama

UA1: inform(type=restaurant, pricerange=cheap)

pricerange

cheap

restaurant

entityentity

restaurant

Prema ontologiji

domena

16

restaurant

entity

Cilj korisnika – Prestavljen particijama

UA2: inform(type=restaurant, pricerange=expensive)

pricerangerestaurant

entity

cheap

entity

restaurant

entity

pricerange

expensive

17

Istorija dijaloga

restaurant pricerange

entity

cheap

restaurant

entity entity

pricerange

expensive

entity

restaurant

Dodati infomacije iz istorije

Konsultovati Bazu Podataka

DB match DB matchDB match DB match

18

Raspodela N najverovatnijih hipoteza


entity

cheap

UA1

DB match

restaur.

entity

pricera.

expens.

UA2

DB match

entity

restaur.

UA1

DB

entity

restau.

UA2

type

DA1

entity

UA1

ent

UA2

19

Selekcija akcije

.

Raspodela N hipoteza

SA: confirm(type=restaurant, pricerange=cheap)CONFIRM

Redukovani prostor

20

nova

akcija

Treniranje sa Simulatorom Korisnika u usloviama buke

Redukovani prostor

stanje

nova

akcija

novo stanje

Simulator imitira ponašanje korisnika

Simulator imitira gresku koja se javlja pri prepoznavanju govora

Menadžer uči kroz interakciju sa simulatorim

Greška se inkrementalno povećava tokom učenja

100.000 dijaloga za optimalnu polisu

nova

akcija

nova

akcija

nova

akcija

nova

akcija

nagrada

21

Rezultati na Simuliranom korisniku

Procenat uspeha (%)

Stopa konfuzije(%)

0 5 10 15 20 25 30 35 40 45

95

90

85

80

75

70

65

60

55

HIS-POMDP

MDP

22

Rezultati sa pravim korsnicima u uslovima buke

Domen: Turističke informacije 36 učesnika kojima je engleski maternji jezik Veštački je dodata buka sa autoputa Semantička greška 25.2%

Sistem %Uspešnih dijaloga

Std. dev.

MDP 65.74 4.93

HIS-POMDP 78.70 4.25

23

Zaključak i budući rad

Arhitektura statističkog sistema za dijalog Hidden Information State sistem za rešavanje realnog

problema zasnovan na delimično primetnom Markovljevom procesu odlučivanja

Rezultati pokazuju otpornost na buku i na simulatoru i na pravim korisnicima

Buduci rad: učenje od pravih korisnika i adaptacije

24

Hvala

Veb strana Grupe za dijalog:http://mi.eng.cam.ac.uk/research/dialogue/

Moja veb strana:http://mi.eng.cam.ac.uk/~mg436/

http://mi.eng.cam.ac.uk/research/dialogue/

http://mi.eng.cam.ac.uk/~mg436/


Dijalog kao delimično prepoznatljiv Markovljev proces odluke

Raspodela stanja

polisa

Očekivananagrada

Optimialna polisa

akt korisnika

akt sistema

ažuritati

Reinforcement

learning

Razumevanje govora

GenerisanjeGovora


Q1. State – Summary Space Mapping

Grounding info Hypothesis status

Matching with DB Partition status

Top Hypothesis prob

Next Hypothesis prob

User Act

Heuristics

Heuristics


entity

cheap

UA1

DB match


Q2. Summary Action – Action Mapping

CONFIRM restaurant pricerange

entity

cheap

UA1

DB match

SA: confrm(type=restaurant, pricerange=cheap)


Q3. Q-learning

Belief is heuristically mapped to summary state space

Q-learning on discretised summary state space – grid points

Exploitation – following the current best policy

Exploration – taking a random action

Documents

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja