28
1 Dijalog izmedju računara i čoveka kao delimično primetan Markovljev proces odlučivanja Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu Milica Gašić

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

  • Upload
    gay

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja. Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu Milica Ga š i ć. Siže. Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje - PowerPoint PPT Presentation

Citation preview

Page 1: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

1

Dijalog izmedju računara i čoveka kao delimično primetan Markovljev proces odlučivanjaGrupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu

Milica Gašić

Page 2: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Siže

Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje

Markovljev proces odlučivanja Delimicno primetan Markovljev proces odlučivanja

Dijalog kao delimicno primetan Markovljev proces odlučivanja Hidden Information State sistem Treniranje sistema za dijalog Evaluacija Zaključak

2

Page 3: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Motivacija

Sistem za dijalog Omogućava komunikaciju uz pomoć govora Intuitivan za korišćenje Otporan na buku

Primeri Pomoćni servisi banaka, Info-centri, rezervacije letova...

Izgradnja sistema za dijalog Jednostavna Bazirana na podacima Da omogućava poboljšanje sistema tokom korisćenja

3

Page 4: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Elementi sistema za dijalog

4

MENADŽERDIJALOGA

RAZUMRVANJE GOVORA

GENERISANJE GOVORA

AUTOMATSKIPREPOTNAVAČ

GOVORA

SEMANTIČKIDEKODER

SINTETIZATORGOVORA

GENERATORPRIRODNOG

JEZIKA

Akcija korisnika u formi govora

Akcija korisnika u formi teksta

Akcija korisnika u formi semantičkih celina

Akcija sistema u formi tekstaAkcija sistema u

formi govora

Akcija sistema u formi semantičkih celina

Page 5: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Menadžer Dijaloga

Proizvodi akciju sistema na osnovu akcije korisnika

5

Standardni pristup Statistički pristupIzbor akcije Predefinisana

pravilaUči optimalnu akciju

Izvor znanja Ekspertsko znanje Uči iz interakcijeKorišćenjem postaje bolje

Ne Da

Upravljanje greškom

- Eksplicitno- Posebno pravilo za gresku u svakom pojedinačnom slučaju

- Implicitno- Modeliranjem dijaloga kao delimično primetan Markovljev proces odlučivanja

Page 6: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Potkrepljeno učenje Reinforcement Learning Sutton and Barto 1998

Cilj: izvršavati akcije koje vode maksimalnoj ukupnoj nagradi Učenje kratkoročnih akcija koje vode dugoročnoj nagradi

6

Potkrepljeno učenjeReinforcement learning

Nadzirano učenjeSupervised learning

Učenje iz interakcije Učenje po primeru

Omogućava planiranje Omogućava imitaciju

Agent je u nekom stanju Kada izvrši akciju prelazi

u novo stanje i od okoline dobije nagradu

Agent

Okolina

stanjeakcijanagrada

novo stanje

Page 7: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Markovljev proces odlučivanja Markov decission process (MDP)

Model za rešavanje problema potkrepljenog učenja Pretopstavka: novo stanje u kome je agent zavisi samo od

prethodnog stanja i predzete akcije

7

rt+1

st st+1

nagrada

akcija

stanje

novo stanje

at

Dinamika modela Tranziciona

verovatnoca Očekivana

kratkoročna nagrada

Page 8: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Belmanova jednačina optimalnosti

Polisa funkcija koja daje akciju za svako stanje Funcija vrednosti stanja za datu polisu je očekivana dugoročna

nagrada koja se dobija tom polisom

Belmanova jednačina daje optimalnu funkciju vrednosti

Aproksimacije Poznata dinamika modela Nepoznata dinamika modela

8

Page 9: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Delimično primetan Markovljev proces odlučivanjaPartially observable Markov Decission Process (POMDP)

Sta ako stanje u kome je agent nije moguće u portpinosti opaziti već samo postoji neka obzervacija, korumpirana bukom

Polisa je funkcija koja za trenutnu raspodelu stanja daje akciju

9

ot+1

Dinamika modela Tranziciona

verovatnoća Obzervaciona

verovatnoća Očekivana

kratkoročna nagrada

ot

rt+1

st st+1

nagrada

akcija

skriveno stanje

novo stanje

atobzervacija nova

obzervacija

Page 10: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

10

Dijalog kao delimicno primetan Markovljev proces odlučivanja

o ¢o

r′

au

us

ds

a’¢

us′

ds′

u

ms ¢msstanje

obzervacija

nagrada

akcijamašine

istorija

dijalogaakcija

korisnika

cilj

korisnika

nova obzervacija

novo stanje

am

Page 11: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

11

u

Dijalog kao delimicno primetan Markovljev proces odlučivanja

o ¢o

a’au

us

dsus’

ds’

r’a

Page 12: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Kako do sistema za dijalog za realni problem

Skup stanja se sastoji od svakog mogućeg korisnikovog cilja, svake moguće korisnikove akcije i svake moguće istorije dijaloga

12

Page 13: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Hidden Information State (HIS) sistem Young et al 2009

Sistem izgradjen za rešavanje realnog problema Domen: Turističke informacije o hotelima, restoranima,

pabovima u Kembridžu (preko 500 entiteta) Baziran je na delimično primetnom Markovljevom procesu

odlučivanja Aproksimacije

Ažurira raspodelu samo na N stanja sa najvećom verovatnocom

Učenje se izvršava na redukovanom prostoru

13

Page 14: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 14

Razumevanje govora

1. HI I’M LOOKING FOR INEXPENSIVE RESTAURANTS2. HI I’M LOOKING FOR INEXPENSIVE RESTAURANT3. HI I’M LOOKING FOR EXPENSIVE RESTAURANTS

4. I'M LOOKING FOR AN RESTAURANTS5. I'M LOOKING FOR EXPENSIVE RESTAURANT

6. I'M LOOKING FOR AN RESTAURANT…

UA1: inform(type=restaurant, pricerange=cheap)UA2: inform(type=restaurant, pricerange=expensive)

Page 15: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

15

entity

Cilj korisnika – Predstavljen particijama

UA1: inform(type=restaurant, pricerange=cheap)

pricerange

cheap

restaurant

entityentity

restaurant

Prema ontologiji

domena

Page 16: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

16

restaurant

entity

Cilj korisnika – Prestavljen particijama

UA2: inform(type=restaurant, pricerange=expensive)

pricerangerestaurant

entity

cheap

entity

restaurant

entity

pricerange

expensive

Page 17: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

17

Istorija dijaloga

restaurant pricerange

entity

cheap

restaurant

entity entity

pricerange

expensive

entity

restaurant

Dodati infomacije iz istorije

Konsultovati Bazu Podataka

DB match DB matchDB match DB match

Page 18: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

18

Raspodela N najverovatnijih hipoteza

restaurant pricerange

entity

cheap

UA1

DB match

restaur.

entity

pricera.

expens.

UA2

DB match

entity

restaur.

UA1

DB

entity

restau.

UA2

type

DA1

entity

UA1

ent

UA2

Page 19: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

19

Selekcija akcije

.

Raspodela N hipoteza

SA: confirm(type=restaurant, pricerange=cheap)CONFIRM

Redukovani prostor

Page 20: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

20

nova

akcija

Treniranje sa Simulatorom Korisnika u usloviama buke

Redukovani prostor

stanje

nova

akcija

novo stanje

Simulator imitira ponašanje korisnika

Simulator imitira gresku koja se javlja pri prepoznavanju govora

Menadžer uči kroz interakciju sa simulatorim

Greška se inkrementalno povećava tokom učenja

100.000 dijaloga za optimalnu polisu

nova

akcija

nova

akcija

nova

akcija

nova

akcija

nagrada

Page 21: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

21

Rezultati na Simuliranom korisniku

Procenat uspeha (%)

Stopa konfuzije(%)

0 5 10 15 20 25 30 35 40 45

95

90

85

80

75

70

65

60

55

HIS-POMDP

MDP

Page 22: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

22

Rezultati sa pravim korsnicima u uslovima buke

Domen: Turističke informacije 36 učesnika kojima je engleski maternji jezik Veštački je dodata buka sa autoputa Semantička greška 25.2%

Sistem %Uspešnih dijaloga

Std. dev.

MDP 65.74 4.93

HIS-POMDP 78.70 4.25

Page 23: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

23

Zaključak i budući rad

Arhitektura statističkog sistema za dijalog Hidden Information State sistem za rešavanje realnog

problema zasnovan na delimično primetnom Markovljevom procesu odlučivanja

Rezultati pokazuju otpornost na buku i na simulatoru i na pravim korisnicima

Buduci rad: učenje od pravih korisnika i adaptacije

Page 24: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

24

Hvala

Veb strana Grupe za dijalog:http://mi.eng.cam.ac.uk/research/dialogue/

Moja veb strana:http://mi.eng.cam.ac.uk/~mg436/

Page 25: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 25

Dijalog kao delimično prepoznatljiv Markovljev proces odluke

Raspodela stanja

polisa

Očekivananagrada

Optimialna polisa

akt korisnika

akt sistema

ažuritati

Reinforcement

learning

Razumevanje govora

GenerisanjeGovora

Page 26: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 26

Q1. State – Summary Space Mapping

Grounding info Hypothesis status

Matching with DB Partition status

Top Hypothesis prob

Next Hypothesis prob

User Act

Heuristics

Heuristics

restaurant pricerange

entity

cheap

UA1

DB match

Page 27: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 27

Q2. Summary Action – Action Mapping

CONFIRM restaurant pricerange

entity

cheap

UA1

DB match

SA: confrm(type=restaurant, pricerange=cheap)

Page 28: Dijalog izmedju računara i čoveka  kao delimi čno primetan Markovljev proces odlučivanja

Milica Gašić et al. Training and Evaluation of HIS System, SigDial08 28

Q3. Q-learning

Belief is heuristically mapped to summary state space

Q-learning on discretised summary state space – grid points

Exploitation – following the current best policy

Exploration – taking a random action