Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
I122 Osnove umjetne inteligencije
Tema: Klasicno planiranje. Planiranje uz nepouzdanost.
7.1.2016.
predavac: Darija Markovic asistent: Darija Markovic
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
1 Klasicno planiranje
2 Planiranje uz nepouzdanost
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 2/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Klasicno planiranje
• pretpostavljamo da je okruzenje u kojem radimo jednoagentno,potpuno vidljivo, deterministicko i staticko
• za prikazivanje svijeta koristimo faktorizirani prikaz znanja: stanjesvijeta predstavljamo pomocu skupa varijabli
• za to koristimo jezik poznat pod imenom PDDL (eng. Planningdomain definition language) uz pomocu kojeg definiramo problemepretrazivanja: pocetno stanje, akcije koje se mogu provoditi uodredenom stanju, rezultat primjene akcija i testiranje cilja
• svako stanje je predstavljeno konjukcijom fluent (temeljni,bezfunkcijski atomi)
• koristi se semantika baza podataka: pretpostavka zatvorenog svijetaznaci da je fluent koji nije spomenut netocan (lazan), te imamopretpostavku o jedinstvenosti imena
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 3/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Klasicno planiranje
• akcije se opisuju skupom shema akcija kojima se eksplicitno opisujufunkcije “Akcija(s)” i “Rezultat(s, a)”
• skup temeljnih (bez varijabli) akcija moze se predstaviti jednomshemom akcije
• shema se sastoji od imena akcije, liste svih varijabli koje se koriste ushemi, preduvjeta i efekata
• shema akcije se pretvara u logicke recenice uz pretpostavku da susve varijable univerzalno kvantificirane, te proizvoljno pridruzujemovrijednosti koje pridruzujemo varijablama
• kazemo da je akcija a primjenjiva u stanju s ako s zadovoljava svepreuvjete
• pocetno stanje se definira kao konjukcija fluenata• ciljevi se opisuju konjukcijom pozitivnih ili negativnih fluenata.
Problem je rijesen kada nademo niz akcija koje za rezultat imajustanje koji sadrzi sve fluente cilja (a mozda i jos neke dodatne)
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 4/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Primjer 1.
Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)
∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))
Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)
∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 5/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Primjer 1.
Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)
∧ ZracnaLuka(do)Efekti: ¬ Na(p, od) ∧ Na(p, do))
Akcija(Letjeti(p1, ZLO, ZLP),Preduvjeti: Na(p1, ZLO) ∧ Zrakoplov(p1) ∧ ZracnaLuka(ZLO)
∧ ZracnaLuka(ZLP)Efekti: ¬ Na(p1, ZLO) ∧ Na(p1, ZLP))
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 5/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Primjer 2. Transporta zrakoplovnog tereta
Pocetno stanje(Na(c1, ZLO) ∧ Na(c2, ZLP) ∧ Na(p1, ZLO)∧ Na(p2, ZLP) ∧ Teret(c1) ∧ Teret(c2)∧ Zrakoplov(p1) ∧ Zrakoplov(p2)∧ ZracnaLuka(ZLO) ∧ ZracnaLuka(ZLP))
Ciljno stanje(Na(c1, ZLP) ∧ Na(c2, ZLO))
Akcija(Utovariti(c, p, a),Preduvjeti: Na(c, a) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)
∧ ZracnaLuka(a)Efekti: ¬Na(c, a) ∧ U(c, p))
Akcija(Istovariti(c, p, a),Preduvjeti: U(c, p) ∧ Na(p, a) ∧ Teret(c) ∧ Zrakoplov(p)
∧ ZracnaLuka(a)Efekti: ¬U(c, p) ∧ Na(c, a))
Akcija(Letjeti(p, od, do),Preduvjeti: Na(p, od) ∧ Zrakoplov(p) ∧ ZracnaLuka(od)
∧ ZracnaLuka(do)
Efekti: ¬ Na(p, od) ∧ Na(p, do))
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 6/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Primjer 2. Transporta zrakoplovnog tereta
Plan koji daje rjesenje transportnog problema je sljedeci niz akcija
[Utovariti(c1,p1,ZLO), Letjeti(p1,ZLO,ZLP), Istovariti(c1,p1,ZLP),Utovariti(c2,p2,ZLP), Letjeti(p2,ZLP,ZLO), Istovariti(c2,p2,ZLO)]
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 7/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 1. Problem rezervne gume
Cilj je ispravnu rezervnu gumu propisno montirati na osovinu automobila,pri cemu je pocetno stanje ono s tockom s probusenom gumom na osovinii ispravnim u prtljazniku. Napisite PDDL opis problema i navedite baremjedno rjesenje.
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 8/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Klasicno planiranje
• algoritmi planiranja mogu se promatrati kao algoritmi pretrazivanjaprostora
• na najopcenitijem nivou dijelimo ih na progresije (pretrazivanjeunaprijed) i regresije (pretrazivanje unatrag)
• kod planiranja unaprijed, razmatramo moguce efekte akcija, dok sekod pretrazivanja unatrag pitamo koja bi akcija dovela do zeljenogrezultata
• i kod planiranje je moguce koristiti heuristike; npr. jedna od mogucihheuristika bi bila ona koja zanemaruje preduvjete problema
• racun situacija: koristenje zakljucivanja logike prvog reda u svrhuplaniranja
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 9/29
www.fizika.unios.hr/oui/
P 1Klasicno planiranje Planiranje uz nepouzdanost
Vrijeme, raspored i sredstva
• klasicno planiranje govori o tome sto napraviti i u kojem redosljedu,no ne kaze nista o vremenu: koliko dugo se akcija izvodi ili kada seizvodi
• s tim dijelom se bavi rasporedivanje
• u stvarnom svijetu postoje brojna ogranicenja s resursima kojamoramo zadovoljiti (broj osoblja, ista osoba ne moze u jednomtrenutku biti na vise mjesta i sl.)
• ukoliko problemi planiranja sadrze vremensko ogranicenje iogranicenje resursa, tada moramo koristiti drugaciji pristup
• problem dijelimo na dvije faze planiranja: prvo se provede klasicnoplaniranje, a zatim rasporedivanje
• takoder se koristi viserazinsko (hijerarhijsko) planiranje: planiramo naapstraktnom nivou, a u trenutku kada se sama akcija treba izvestiradimo odredena profinjenja plana
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 10/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
1 Klasicno planiranje
2 Planiranje uz nepouzdanost
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 11/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Planiranje uz nepouzdanost
• ukoliko su rezultati akcija stohasticki koristit cemo Markovljeveprocese odlucivanja (MPO)
MPO su definirani s:
• skupom stanja s: S
• skupom akcija a: A
• funkcijom prijelaza T (s, a, s′)• vjerojatnostima da a iz s vodi u s′, tj. P (s′|s, a)• takoder se naziva model ili dinamika
• funkcijom nagrade R(s, a, s′)• ponekad je to samo R(s) ili R(s′)
• pocetnim stanjem
• ponekad i zavrsnim stanjem
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 12/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Planiranje uz nepouzdanost
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 13/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Planiranje uz nepouzdanost
• pretpostavka je da ishodi akcije ovise samo o trenutnom stanju, a ne io proslim stanjima
• u deterministickim okruzenjima trazili smo niz akcija iz pocetnog dociljnog stanja
• kod MPO trazimo optimalnu strategiju (politiku) π∗ : S → A• strategija π za svakom stanju pridruzuje akciju• optimalna strategija je ona koja maksimizira ocekivanu dobit, ukoliko
ju pratimo• eksplicitna strategija definira refleksnog agenta
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 14/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Primjer 3. Optimalna strategija
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 15/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Primjer 4. Trkaci automobil
• skup stanja: { Hladan, Topal, Pregrijan }• skup akcija: { polako, brzo}• nagrada je dvostruka ukoliko se ide brzo
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 16/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Planiranje uz nepouzdanost
• uobicajeno je preferirati nagrade (dobit) koje se dobiju odmah uodnosu na one koje se dobiju kasnije
• vrlo cesto se uzima da vaznost nagrada opada eksponencijalno
• faktor umanjenja 0 < γ ≤ 1
• optimalna vrijednost (dobit, korisnost) stanja s: V ∗(s) ocekivanadobit ukoliko se pocinje u stanju s i djeluje optimalno
• q-vrijednost q-stanja (s, a): Q∗(s, a) ocekivana dobit ukoliko se ustanju s napravi akcija a i nakon toga djelujemo optimalno
• optimalna strategija: π∗(s) optimalna akcija u stanju s
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 17/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Planiranje uz nepouzdanost
V ∗(s) = maxa
Q∗(s, a)
Q∗(s, a) =∑s′
T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]
V ∗(s) = maxa
∑s′
T (s, a, s′)[R(s, a, s′) + γV ∗(s′)]
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 18/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Iteracija vrijednosti
• zapocinjemo s V0(s) = 0, tj. pretpostavljamo da je ocekivana dobit 0
• ako nam je poznat Vk(s), odradimo jedan sloj expectimax
Vk+1(s)← maxa
∑s′
T (s, a, s′)[R(s, a, s′) + γVk(s′)]
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 19/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Primjer 5. Trkaci automobil 2
Odredite vrijednost V2(s) za MPO iz Primjera 4.
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 20/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Iteracija vrijednosti
konvergencija?
• ako je stablo maksimalne dubini M , tada je VM tocna vrijednostoptimalne dobiti
• u slucaju ako je γ < 1: u k−tom koraku Vk i Vk+1 se razlikuju zamaksimalno γkmax |R| pa s povecanjem k vrijednosti konvergiraju
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 21/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Ocjena (procjena) strategije
• za odabranu strategiju π trebamo odrediti V π(s)
V π(s) =∑s′
T (s, π(s), s′)[R(s, π(s), s′) + γV π(s′)]
• odredivanje vrijednosti V π(s) radimo na sljedeci nacin
V π0 (s) = 0V πk+1(s)←
∑s′ T (s, π(s), s
′)[R(s, π(s), s′) + γV πk (s
′)]
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 22/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Izvod strategije
• strategiju vidimo iz q-vrijednosti
π∗(s) = arg maxa
Q∗(s, a)
• iteracija strategija: za odabranu strategiju πi odredimo vrijednosti uzpomoc ocjene strategije
V πik+1(s)←
∑s′
T (s, πi(s), s′)[R(s, πi(s), s
′) + γV πik (s′)]
• nakon toga radimo poboljsanje kako bi dobili bolju strategiju uzpomoc izvoda strategija
π∗i+1(s) = arg maxa
∑s′
T (s, a, s′)[R(s, a, s′) + γV πi(s′)]
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 23/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 1.
Razmotrimo sljedecu mrezu:
Na raspolaganju imamo akcije lijevo (←) i desno (→) koje su 100%uspjesne. Dodatno u polju “a” imamo na raspolaganju akciju izlaz (exit)koja je takoder uvijek uspjesna i donosi nagradu 10. Analogno u polju “e”imamo na raspolaganju akciju izlaz (exit) koja je takoder uvijek uspjesna idonosi nagradu 1.
(a) Uz faktor umanjenja γ = 1 odredite sljedece vrijednosti: V0(d),V1(d), V2(d), V3(d), V4(d) i V5(d).
(b) Uz faktor umanjenja γ = 0.9 za istu mrezu, odredite sljedecevrijednosti: V ∗(a), V ∗(b), V ∗(c), V ∗(d) i V ∗(e).
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 24/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 2.
Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.
s a s′ T (s, a, s′) R(s, a, s′)
A − B 0.6 2
A − C 0.4 2
A + C 1 1
B − A 0.2 −2B − C 0.8 −2B + A 0.8 1
B + C 0.2 1
C − A 0.6 2
C − B 0.4 0
C + A 0.4 2
C + B 0.6 0
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 25/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 2.
Pretpostavimo da nakon k iteracija imamo sljedece vrijednosti za Vk:
Vk(A) Vk(B) Vk(C)
2.540 1.920 2.000
(a) Odredite Vk+1(C).
(b) Pretpostavimo da nakon konvergencije dobijemo sljedece vrijednosti:
V ∗(A) V ∗(B) V ∗(C)
3.324 2.601 2.717
Izracunajte Q∗(C,+) i Q∗(C,−). Koja je optimalna akcija u stanjuC?
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 26/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 3. Ocjena strategije
Razmotrimo mrezu iz zadatka 1.
(a) Uz γ = 1, odredite vrijednost za strategiju π1:
(b) Uz γ = 1, odredite vrijednost za strategiju π2:
(c) Uz γ = 0.9, odredite vrijednost za strategiju π3:
(d) Kako bi izgledalo poboljsanje strategije π3?
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 27/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 4. Izvod strategije
Razmotrimo sljedeci dijagram prijelaza, funkciju prijelaza i funkcijunagrade za MPO. Faktor umanjenja je γ = 0.5.
s a s′ T (s, a, s′) R(s, a, s′)
A − B 0.6 0
A − C 0.4 −1A + B 0.2 −2A + C 0.8 −1B − A 0.4 2
B − C 0.6 1
B + A 0.8 2
B + C 0.2 −2C − A 1 1
C + A 0.2 1
C + B 0.8 0
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 28/29
www.fizika.unios.hr/oui/
P 2Klasicno planiranje Planiranje uz nepouzdanost
Zadatak 4. Izvod strategije
Procjenjujemo sljedecu strategiju π:
A B C
− + +
Nakon k koraka imamo sljedecu procjenu:
V πk (A) V π
k (B) V πk (C)
0 1.060 0.640
(a) Izracunajte V πk+1(B).
(b) Pretpostavimo da nakon konvergencije imamo sljedecu tablicu:
V π(A) V π(B) V π(C)
0.150 1.335 0.749
Izracunajte Qπ(B,+) i Qπ(B,−). Koji bi bio izbor akcije u stanjuB ukoliko odredujemo poboljsanje strategije π?
I122 Osnove umjetne inteligencije Klasicno planiranje. Planiranje uz nepouzdanost. 29/29