I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je ﬂuent koji nije spomenut neto can (laˇ

I122 Osnove umjetne inteligencije

Tema: Klasicno planiranje. Planiranje uz nepouzdanost.

7.1.2016.

predavac: Darija Markovic asistent: Darija Markovic

www.fizika.unios.hr/oui/

P 1Klasicno planiranje Planiranje uz nepouzdanost

1 Klasicno planiranje

2 Planiranje uz nepouzdanost

I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 2/29




Klasicno planiranje

• pretpostavljamo da je okruzenje u kojem radimo jednoagentno,potpuno vidljivo, deterministicko i staticko

• za prikazivanje svijeta koristimo faktorizirani prikaz znanja: stanjesvijeta predstavljamo pomocu skupa varijabli

• za to koristimo jezik poznat pod imenom PDDL (eng. Planningdomain definition language) uz pomocu kojeg definiramo problemepretrazivanja: pocetno stanje, akcije koje se mogu provoditi uodredenom stanju, rezultat primjene akcija i testiranje cilja

• svako stanje je predstavljeno konjukcijom fluent (temeljni,bezfunkcijski atomi)

• koristi se semantika baza podataka: pretpostavka zatvorenog svijetaznaci da je fluent koji nije spomenut netocan (lazan), te imamopretpostavku o jedinstvenosti imena





Klasicno planiranje

• akcije se opisuju skupom shema akcija kojima se eksplicitno opisujufunkcije “Akcija(s)” i “Rezultat(s, a)”

• skup temeljnih (bez varijabli) akcija moze se predstaviti jednomshemom akcije

• shema se sastoji od imena akcije, liste svih varijabli koje se koriste ushemi, preduvjeta i efekata

• shema akcije se pretvara u logicke recenice uz pretpostavku da susve varijable univerzalno kvantificirane, te proizvoljno pridruzujemovrijednosti koje pridruzujemo varijablama

• kazemo da je akcija a primjenjiva u stanju s ako s zadovoljava svepreuvjete

• pocetno stanje se definira kao konjukcija fluenata• ciljevi se opisuju konjukcijom pozitivnih ili negativnih fluenata.

Problem je rijesen kada nademo niz akcija koje za rezultat imajustanje koji sadrzi sve fluente cilja (a mozda i jos neke dodatne)





Primjer 1.

Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)

∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))

Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)

∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))





Primjer 1.


∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))

Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)

∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))





Primjer 2. Transporta zrakoplovnog tereta

Pocetno stanje(Na(c1, ZLO) ∧ Na(c2, ZLP) ∧ Na(p1, ZLO)∧ Na(p2, ZLP) ∧ Teret(c1) ∧ Teret(c2)∧ Zrakoplov(p1) ∧ Zrakoplov(p2)∧ ZracnaLuka(ZLO) ∧ ZracnaLuka(ZLP))

Ciljno stanje(Na(c1, ZLP) ∧ Na(c2, ZLO))

Akcija(Utovariti(c, p, a),Preduvjeti: Na(c, a) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)

∧ ZracnaLuka(a)Efekti: ¬Na(c, a) ∧ U(c, p))

Akcija(Istovariti(c, p, a),Preduvjeti: U(c, p) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)

∧ ZracnaLuka(a)Efekti: ¬U(c, p) ∧ Na(c, a))


∧ ZracnaLuka(do)

Efekti: ¬ Na(p, od) ∧ Na(p, do))





Primjer 2. Transporta zrakoplovnog tereta

Plan koji daje rjesenje transportnog problema je sljedeci niz akcija

[Utovariti(c1,p1,ZLO), Letjeti(p1,ZLO,ZLP), Istovariti(c1,p1,ZLP),Utovariti(c2,p2,ZLP), Letjeti(p2,ZLP,ZLO), Istovariti(c2,p2,ZLO)]





Zadatak 1. Problem rezervne gume

Cilj je ispravnu rezervnu gumu propisno montirati na osovinu automobila,pri cemu je pocetno stanje ono s tockom s probusenom gumom na osovinii ispravnim u prtljazniku. Napisite PDDL opis problema i navedite baremjedno rjesenje.





Klasicno planiranje

• algoritmi planiranja mogu se promatrati kao algoritmi pretrazivanjaprostora

• na najopcenitijem nivou dijelimo ih na progresije (pretrazivanjeunaprijed) i regresije (pretrazivanje unatrag)

• kod planiranja unaprijed, razmatramo moguce efekte akcija, dok sekod pretrazivanja unatrag pitamo koja bi akcija dovela do zeljenogrezultata

• i kod planiranje je moguce koristiti heuristike; npr. jedna od mogucihheuristika bi bila ona koja zanemaruje preduvjete problema

• racun situacija: koristenje zakljucivanja logike prvog reda u svrhuplaniranja





Vrijeme, raspored i sredstva

• klasicno planiranje govori o tome sto napraviti i u kojem redosljedu,no ne kaze nista o vremenu: koliko dugo se akcija izvodi ili kada seizvodi

• s tim dijelom se bavi rasporedivanje

• u stvarnom svijetu postoje brojna ogranicenja s resursima kojamoramo zadovoljiti (broj osoblja, ista osoba ne moze u jednomtrenutku biti na vise mjesta i sl.)

• ukoliko problemi planiranja sadrze vremensko ogranicenje iogranicenje resursa, tada moramo koristiti drugaciji pristup

• problem dijelimo na dvije faze planiranja: prvo se provede klasicnoplaniranje, a zatim rasporedivanje

• takoder se koristi viserazinsko (hijerarhijsko) planiranje: planiramo naapstraktnom nivou, a u trenutku kada se sama akcija treba izvestiradimo odredena profinjenja plana





1 Klasicno planiranje

2 Planiranje uz nepouzdanost





Planiranje uz nepouzdanost

• ukoliko su rezultati akcija stohasticki koristit cemo Markovljeveprocese odlucivanja (MPO)

MPO su definirani s:

• skupom stanja s: S

• skupom akcija a: A

• funkcijom prijelaza T (s, a, s′)• vjerojatnostima da a iz s vodi u s′, tj. P (s′|s, a)• takoder se naziva model ili dinamika

• funkcijom nagrade R(s, a, s′)• ponekad je to samo R(s) ili R(s′)

• pocetnim stanjem

• ponekad i zavrsnim stanjem











• pretpostavka je da ishodi akcije ovise samo o trenutnom stanju, a ne io proslim stanjima

• u deterministickim okruzenjima trazili smo niz akcija iz pocetnog dociljnog stanja

• kod MPO trazimo optimalnu strategiju (politiku) π∗ : S → A• strategija π za svakom stanju pridruzuje akciju• optimalna strategija je ona koja maksimizira ocekivanu dobit, ukoliko

ju pratimo• eksplicitna strategija definira refleksnog agenta





Primjer 3. Optimalna strategija





Primjer 4. Trkaci automobil

• skup stanja: { Hladan, Topal, Pregrijan }• skup akcija: { polako, brzo}• nagrada je dvostruka ukoliko se ide brzo






• uobicajeno je preferirati nagrade (dobit) koje se dobiju odmah uodnosu na one koje se dobiju kasnije

• vrlo cesto se uzima da vaznost nagrada opada eksponencijalno

• faktor umanjenja 0 < γ ≤ 1

• optimalna vrijednost (dobit, korisnost) stanja s: V ∗(s) ocekivanadobit ukoliko se pocinje u stanju s i djeluje optimalno

• q-vrijednost q-stanja (s, a): Q∗(s, a) ocekivana dobit ukoliko se ustanju s napravi akcija a i nakon toga djelujemo optimalno

• optimalna strategija: π∗(s) optimalna akcija u stanju s






V ∗(s) = maxa

Q∗(s, a)

Q∗(s, a) =∑s′

T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]

V ∗(s) = maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]





Iteracija vrijednosti

• zapocinjemo s V0(s) = 0, tj. pretpostavljamo da je ocekivana dobit 0

• ako nam je poznat Vk(s), odradimo jedan sloj expectimax

Vk+1(s)← maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γVk(s′)]





Primjer 5. Trkaci automobil 2

Odredite vrijednost V2(s) za MPO iz Primjera 4.





Iteracija vrijednosti

konvergencija?

• ako je stablo maksimalne dubini M , tada je VM tocna vrijednostoptimalne dobiti

• u slucaju ako je γ < 1: u k−tom koraku Vk i Vk+1 se razlikuju zamaksimalno γkmax |R| pa s povecanjem k vrijednosti konvergiraju





Ocjena (procjena) strategije

• za odabranu strategiju π trebamo odrediti V π(s)

V π(s) =∑s′

T (s, π(s), s′)[R(s, π(s), s′) + γV π(s′)]

• odredivanje vrijednosti V π(s) radimo na sljedeci nacin

V π0 (s) = 0V πk+1(s)←

∑s′ T (s, π(s), s

′)[R(s, π(s), s′) + γV πk (s

′)]





Izvod strategije

• strategiju vidimo iz q-vrijednosti

π∗(s) = arg maxa

Q∗(s, a)

• iteracija strategija: za odabranu strategiju πi odredimo vrijednosti uzpomoc ocjene strategije

V πik+1(s)←

∑s′

T (s, πi(s), s′)[R(s, πi(s), s

′) + γV πik (s′)]

• nakon toga radimo poboljsanje kako bi dobili bolju strategiju uzpomoc izvoda strategija

π∗i+1(s) = arg maxa

∑s′

T (s, a, s′)[R(s, a, s′) + γV πi(s′)]





Zadatak 1.

Razmotrimo sljedecu mrezu:

Na raspolaganju imamo akcije lijevo (←) i desno (→) koje su 100%uspjesne. Dodatno u polju “a” imamo na raspolaganju akciju izlaz (exit)koja je takoder uvijek uspjesna i donosi nagradu 10. Analogno u polju “e”imamo na raspolaganju akciju izlaz (exit) koja je takoder uvijek uspjesna idonosi nagradu 1.

(a) Uz faktor umanjenja γ = 1 odredite sljedece vrijednosti: V0(d),V1(d), V2(d), V3(d), V4(d) i V5(d).

(b) Uz faktor umanjenja γ = 0.9 za istu mrezu, odredite sljedecevrijednosti: V ∗(a), V ∗(b), V ∗(c), V ∗(d) i V ∗(e).





Zadatak 2.

Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.

s a s′ T (s, a, s′) R(s, a, s′)

A − B 0.6 2

A − C 0.4 2

A + C 1 1

B − A 0.2 −2B − C 0.8 −2B + A 0.8 1

B + C 0.2 1

C − A 0.6 2

C − B 0.4 0

C + A 0.4 2

C + B 0.6 0





Zadatak 2.

Pretpostavimo da nakon k iteracija imamo sljedece vrijednosti za Vk:

Vk(A) Vk(B) Vk(C)

2.540 1.920 2.000

(a) Odredite Vk+1(C).

(b) Pretpostavimo da nakon konvergencije dobijemo sljedece vrijednosti:

V ∗(A) V ∗(B) V ∗(C)

3.324 2.601 2.717

Izracunajte Q∗(C,+) i Q∗(C,−). Koja je optimalna akcija u stanjuC?





Zadatak 3. Ocjena strategije

Razmotrimo mrezu iz zadatka 1.

(a) Uz γ = 1, odredite vrijednost za strategiju π1:

(b) Uz γ = 1, odredite vrijednost za strategiju π2:

(c) Uz γ = 0.9, odredite vrijednost za strategiju π3:

(d) Kako bi izgledalo poboljsanje strategije π3?





Zadatak 4. Izvod strategije

Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.

s a s′ T (s, a, s′) R(s, a, s′)

A − B 0.6 0

A − C 0.4 −1A + B 0.2 −2A + C 0.8 −1B − A 0.4 2

B − C 0.6 1

B + A 0.8 2

B + C 0.2 −2C − A 1 1

C + A 0.2 1

C + B 0.8 0





Zadatak 4. Izvod strategije

Procjenjujemo sljedecu strategiju π:

A B C

− + +

Nakon k koraka imamo sljedecu procjenu:

V πk (A) V π

k (B) V πk (C)

0 1.060 0.640

(a) Izracunajte V πk+1(B).

(b) Pretpostavimo da nakon konvergencije imamo sljedecu tablicu:

V π(A) V π(B) V π(C)

0.150 1.335 0.749

Izracunajte Qπ(B,+) i Qπ(B,−). Koji bi bio izbor akcije u stanjuB ukoliko odredujemo poboljsanje strategije π?



Documents

I122 Osnove umjetne inteligencije - mathos.unios.hr · koristi se semantika baza podataka: pretpostavka zatvorenog svijeta znaˇci da je ﬂuent koji nije spomenut neto can (laˇ