Autonomni Sistemi i Masinsko Ucenje-Seminarski Rad

Универзитет у Београду - Машински факултет

Семинарски рад из предмета

„Аутономни системи и машинско учење“

Тема:

Прилог развоју новог емпиријског управљачког системабазираног на елементима машинског учења

ојачавањем и принципима емпиријског управљања

Докторске студије

Професор: Др Зоран МиљковићСтудент: Марко Митић Бр. индекса: D5/09

Београд, новембар 2010.

Аутономни системи и машинско учењеМарко М. Митић - Семинарски рад

Садржај:

Номенклатура .....................................................................................3

1. Увод ………………………………………………………………………4

2.Динамичко програмирање и машинско учење ојачавањем……...5

2.1 Марковљев процес одлучивања .………….…..…………………………5

2.2 Збирна оцена стања система, стратегија доношења одлука и функција вредности ...………….………………………..………………..7

2.3 Учење ојачавањем: основне поставке и алгоритми…………….……10

2.3.1 Q алгоритам машинског учења ојачавањем…………………..……….11

3. Систем емпиријског управљања ………………………………13

3.1 Увод...…………………………………......…………………..……………..13

3.1.1 Емпиријски процес………………………………………………………….14

3.2 Алгоритам емпиријског управљања……………….……………………15

4. Систем емпиријског управљања интелигентног мобилног робота – дискусија и експериментална поставка…....................18

4.1 Дискусија……………………………………………………………………18

4.2 Експериментална поставка система емпиријског управљања.......21

4.3 Верификација предложеног концепта система емпиријског управљања на LEGO Mindstorms NXT конфигурацији мобилног

робота...................................................................................................25

5. Закључак и правци будућих истраживања……….……...….......…….31

6. Литература…………………………………........…………….………………….33

2


Номенклатура

- вероватноћа прелаза стања

- оцена стања

- вектор стања у тренутку t

- вектор одлука у тренутку t

- збирна оцена стања

- стратегија доношења одлука

- оптимална стратегија

- фактор скалирања

- вредносна функција уређеног пара стање-одлука

- вредносна функција стања

- параметар учења

- подобност трагова

- растојање између робота и циљне позиције

- пречник круга дефинисаног око циљне позиције

- растојање од робота до препреке

- минимално растојање које дефинише пројектант

- пречник круга дефинисаног око препреке

- Болцманова густина расподеле

Т – константа

- брзина мобилног робота

- трајање једне итерације

- укупан број итерација

3


1. Увод

Све већи захтеви за убрзањем проиводних процеса и константним порастом квалитета производа неминовно су довели у питање одрживост класичних система управљања. Захтеви великог броја пројектаната односе се на повећање флексибилности при извршавању појединих задатака, заједно са имплементацијом могућности адаптивног понашања интелигентних агената. Истраживање и развој у оквиру интелигентних технолошких система усмерени су ка пројектовању управљачких система који имају могућност разумевања процеса у окружењу, и сходно томе могућност одабира најбољег могућег понашања. Овај семинарски рад уводи концепт емпиријског управљања у процес пројектовања управљачког система мобилног робота.

Рад је организован у шест целина.

У уводу је дат преглед семинарског рада у кратким цртама.

Друго поглавље обухвата основе динамичког програмирања, као базу машинског учења обучавањем. Кроз примере уведени су термини Марковљевог процеса одлучивања, као и елементи Q алгоритма учења ојачавањем.

Треће поглавље се односи на увођење основних термина емпиријског управљања, као и стратегије емпиријског управљања. Дато је објашњење епиријског процеса, као и система код којих је овај процес заступљен. Детаљно је представљен развијени алгоритам емпиријског управљања, чија је основна идеја коришћена у каснијем пројектовању емпиријског система мобилног робота.

У четвртом поглављу представљена је дискусија и експериментална поставка система емпиријског управљања мобилног робота. Приказан је поступак пројектовања са аспекта имплементације алгоритма емпиријског управљања у постојећи Q алгоритам машинског учења ојачавањем. Наведени су услови који су поступком пројектовања задовољени, као и параметри алгоритма управљања који су усвојени сходно уведеном задатку – заобилажењу препрека приликом навигације мобилног робота у технолошком окружењу.

Пето поглавље презентује закључак са основним резултатима истраживања и назначеним правцима будућих истраживања.

У последњем, шестом одељку, дат је списак коришћене литературе.

4


2. Динамичко програмирање и машинско учење ојачавањем

У оквиру овог поглавља семинарског рада дате су основе динамичког програмирања (енгл. Dynamic Programming) које представља базу једног од типова машинског учења - учења ојачавањем (енгл. Reinforcement learning). Најпре је објашњен поступак математичке репрезентације вектора стања система, вектора одлука односно поступака, тзв. наградне функције (енгл. Reward function), као и вектора одзива система. Ради прецизног одређивања понашања интелигентног агента, уведени су појмови вредносне итерације (енгл. Value iteration) и итерације стратегије (енгл. Policy iteration) приликом доношења појединачних одлука. У најкраћим цртама представљени су алгоритми учења ојачавањем са примерима њихове примене, закључно са предностима односно манама сваког алгоритма понаособ. Посебан акценат дат је увођењу појмова тзв. Q-алгоритма машинског учења ојачавањем (енгл. Q-learning), јер ће он имати важну улогу при успостављању експерименталне стратегије за изабрани интелигенти агент – мобилни робот. Препоручена литература која детаљно описује појмове, алгоритме, и математичке нотације из области динамичког програмирања и учења ојачавањем, означена је са [2] и [21] у реферисаној литератури, следствено.

2.1 Марковљев процес одлучивања (енгл. Markov decision process)

У теорији динамичког програмирања, вектор стања система представљен је као скуп дискретизованих података. Ова дискретизована стања међусобно су повезана путем управљачких одлука и вероватноће прелаза из тренутног у наредно, односно следеће дефинисано стање. У неком стању (s) могуће је извршити неколико управљачких одлука. Свака од тих одлука резултира прелазом тренутног стања у неко од могућих наредних стања дефинисаних посматраном акцијом. Свако наредно стање достигнуто је са одређеном вероватноћом, која се најчешће означава са P. Сматраће се да је систем стационаран, односно да се вероватноће прелаза стања из тренутног у наредно не мењају са временом.Дакле, вероватноћа прелаза стања математички се може формулисати као:

, (2.1)

где је са S означен вектор окружења (енгл. Еnvironment) који садржи сва могућа тренутна и наредна стања, s и s’, а са А вектор могућих одлука, који се састоји од елемената означених са .

5


Оваква репрезентација вектора стања подлеже такозваном Марковљевом процесу одлучивања (МПО), [4,6]. Марковљев процес одлучивања подразумева Марковљево правило [22] (енгл. Markov property), које имплицира да наредно стање зависи само од тренутног стања и примењене одлуке

. На наредној слици графички је представљен МПО за случај стохастичког,

односно детерминистичког система, респективно.

а) б)

Слика 2.1: Марковљев процес одлучивања:а) Стохастички систем б) Детерминистички систем

Детерминистички систем може бити подложан специјалном типу МПО у коме све вероватноће прелаза стања имају вредност нула или један.

Крајњи циљ интелигентног агента – мобилног робота је да достигне одређено, крајње тј. жељено стање (енгл. Final state), или да, понављајући пролази кроз одређени низ стања. Ово се обезбеђује тако што се сваком стању у коме се мобилни робот нађе додељује извесна нумеричка вредност – наградна вредност или оцена стања (енгл. Reward). Оцена стања представља кључ у тумачењу ваљаности одлука интелигентног агента, и она, поред вредности вероватноће прелаза стања, представља једину величину коју непосредно одређује пројектант система. Оцена стања се може математички формулисати као:

(2.2)

односно у случају детерминистичког система:

(2.3)

Како оцена стања у тренутку , , зависи само од одабране акције у

тренутку , и претходног стања , оцена тренутног стања се може одредити

сходно претходном стању. Функција којом се одређује оцена на основу одабране акције интелигентног агента, претходног стања, тј. стања у тренутку

и вероватноће прелаза стања, назива се функција оцене стања или наградна функција (енгл. Reward function). У најчешћем броју случајева оцена стања (награда), позната и под називом „сигнал ојачаног учења“ (енгл.

6

Циљ


Reinforcement signal), има две могуће вредности: „казнену“ вредност (негативан број) у случају неуспешног понашања интелигентног агента, и „наградну“ вредност (ненегативан број) у случају позитивно одабране акције и одговарајућег жељеног тренутног стања. На слици 2.2 приказан је систем са дискретизованим стањима и одговарајућим оценама тих стања. Позитивна „наградна“ вредност се добија једино у случају да се агент налази у жељеном крајњем стању.

Слика 2.2: Функција оцене стања – наградна функција (енгл. Reward)

2.2 Збирна оцена стања система, полиса (стратегија) доношења одлука, и функција вредности

Када интелигенти агент – мобилни робот мора да оствари жељено стање или када је неопходно да остане у оквирима одговарајућег броја стања, потребно је одредити низ прелаза стања. Приликом дефинисања матрице прелаза стања пожељно је у пројектантски процес укључити и дугорочно добијену оцену стања. Другим речима, на будуће стање система битно могу утицати и посредно добијене вредности оцене стања из прошлости. Збирна оцена стања, почевши од тренутка до неког крајњег тренутка , износи:

(2.4)

Понекад није могуће применити овакав модел за израчунавање збирне оцене стања, на пример, услед непознавања века трајања, односно времена експлоатације интелигентог агента – мобилног робота. Стога, уводи се тзв. бесконачни низ (енгл. Infinite horizon) оцена стања према једначини:

(2.5)

Пошто су будуће оцене стања (награде стања) мање поуздане, односно мање важне у односу на оцене у блиској будућности, увешће се фактор скалирања . Опсег дозвољених вредности фактора скалирања је између нула и један. Логично, ако има вредност један, све награде (оцене) будућих стања се

7

1


третирају подједнако, док у случају да је разматра се само тренутна оцена стања. Једначина (2.5) се тада може написати као:

(2.6)

Иако је систем односно окружење мобилног робота познато у смислу вероватноће прелаза стања, интелигентни агент (мобилни робот) у потпуности не зна које акције је најбоље изабрати у ком тренутном стању. Најпожељније акције најпре морају бити научене, након чега се могу интегрисати у систем управљања који ће моћи да обезбеди поновљивост тих одлука до одређеног степена успешности. Ово се постиже додељивањем вредности (мапирањем) вероватноће прелаза стања, оцене стања и одлука, одговарајућем стању из вектора могућих стања применом стратегије gоношења оgлука , на основу тренутних информација о систему. Једноставније речено, стратегијом се може сматрати програм који упућује агента на најповољнију акцију у сваком тренутном стању. На слици 2.3 графички је приказана стратегија доношења одлука за систем који има 18 могућих стања.

Слика 2.3: Стратегија доношења одлука

Ради добијања оптималне стратегије (која је јединствена и најповољнија), тренутна стратегија је срачуната преко вредносне функције (енгл. Value function), или . Пошто се вероватноћа прелаза стања не мења са временом, оптимална стратегија се такође може сматрати временски непроменљивом. Два типа вредносних функција, вредносна функција стања (енгл. state-value function) и вредносна функција уређеног пара одлука-стање (енгл. action-value function) за посматрану стратегију , означене су у следећим изразима са и , респективно:

(2.7)

(2.8)

8


где је са означана очекивана вредност , са скуп вероватноћа прелаза

(одлука и стања), а са скуп очекиваних вредности „ојачања“.

Разлика између новоуведених вредносних функција је та што се функција

односи само на вектор стања, док се вредносна функција односи и на

вектор стања и на вектор одлука. Вредносна функција стања се може

сматрати вредносном функцијом пара одлука-стање за неко

посматрано стање и акцију одрећеном стратегијом доношења одлука:

(2.9)

У случају да је стратегија доношења одлука стохастичке природе, важиће формулација:

(2.10)

За оптималну (најповољнију) стратегију доношења одлука збирна оцена стања (енгл. Return) је максимална могућа. Другим речима, да би се збирна

оцена стања била највећа, неопходно је да функција вредности има

оптималну вредност. Ово је могуће обезбедити селектовањем стратегије, а самим тим и одлука, које максимизују вредносну функцију на основу тренутних информација о систему. Оптимална вредносна функција је одређена према једначинама (2.11) и (2.12):

(2.11)

(2.12)

Како би се остварило оптимално понашање интелигентног агента-мобилног робота, у општем случају стратегија доношења одлука односно вредносна функција треба да буде унапређена. То се постиже помоћу алгоритама итерације стратегије (енгл. Policy iteration) и итерације вредносне функције (енгл. Value iteration) коју су детаљно објашњени у [6]. Овде су наведени финални облици једначина, (2.13) и (2.14):

(2.13)

(2.14)

9

Вектор стања

Интелигентни агент-мобилни робот

Награда

Одлука


2.3. Учење ојачавањем: основне поставке и алгоритми

Учење ојачавањем представља вид машинског учења у коме интелигентни агент учи на основу емпиријских података добијених из окружења у коме се налази. Интеракцијом са окружењем агенту се, за одређени скуп дефинисаних одлука, додељује тзв. оцена или награда стања, којом се процењује успешност изведене акције, односно успешност жељеног понашања интелигентног агента у извршању одређеног унапред дефинисаног задатка. Систем за учење (енгл. Learning system) у овиру управљачког система добија емпиријске податке о стању агента (мобилног робота) помоћу постојећих сензора, и на основу тог скупа података доноси одлуку о следећој акцији која ће бити имплементирана [22]. Крајњи циљ агента је да приликом извршавања одређеног задатка сакупи што већи број награда (оцена стања), чиме се аутоматски постиже његово најбоље могуће понашање сходно тренутној ситуацији (стању) кроз коју пролази [16].

У најчешћем броју случава, окружење интелигентног агента се моделира тако да подлеже Марковљевом процесу одлучивања, који имплицира Марковљево правило (енгл. Markov property). На слици 2.4 приказан је дијграм основног модела учења ојачавањем.

Слика 2.4: Основни модел учења ојачавањем

Појмови као што су алгоритам тренутне разлике (енгл. Temporal Diference -

) који успоставља разлику између збира тренутне оцене стања и

вредносне функције или , односно подобност трагова (енгл. Eligibility Traces) детаљно су наведени у [22], тако да се овде дају само обриси њихове употребе преко израза (2.15):

(2.15)

где је са означена подобност трагова – тренутни запис појављивања

одређеног догађаја. Ажурирање овог податка врши се према изразу:

(2.16)

10

Технолошко окружење


Према [6] постоји неколико критеријума за прецизно дефинисање карактеристика реалног система и према њима треба усвојити критеријуме за дефинисање система са аспекта машинског учења ојачавањем. Они су таксативно наведени према табели 2.1.

Табела 2.1: Најбитније особине реалног-живог система са инжењерског аспекта пројектовања

1. Континуални простор стања2. Континуални простор одлука3. Понашање у реалном времену4. Непозанавање окружења односно особина система

Систем управљања коришћењем машинског учења путем обучавања, мора да садржи карактеристике које су наведене у табели 2.2. Детаљно објашњење критеријума машинског учења за овакав систем управљања дат је у [6].

Табела 2.2: Карактеристике система управљања (са аспекта пројектовања) применом концепта машинског учења

ојачавањем

1. Непостојање прецизног модела система2. Генерализација вектора стања3. Генерализација вектора одлука4. Континуитет успешног понашања5. Одабир одговарајуће акције6. Оцена тренутног стања7. Оцена вредносне функције8. Прилагодљива стратегија доношења одлука

У наставку овог поглавља представљен је Q алгоритам учења (енгл. Q-learning) као један од најчешће примењиваних у области машинског учења ојачавањем.

2.3.1. Q алгоритам машинског учења ојачавањем

Q алгоритам машинског учења први је увео Ваткинс (Watkins) 1989. године [25,26]. Касније, овај алгоритам је проширен помоћу алгоритма тренутне разлике - . Једначина (2.17) показује ажурирање вредносне функције пара стање-одлука помоћу Q алгоритма машинског учења ојачавањем:

(2.17)

У [24], Ваткинс је показао да под одређеним условима вредносна функција уређеног пара стање-одлука увек конвергира ка њеној оптималној

вредности, и то са вероватноћом 1, односно стопроцентно. Q алгоритам машинског учења ојачавањем увек учи тзв. похлепну стратегију (енгл. Greedy

11


policy) која, као што је већ речено, конвергира ка оптималној стратегији доношења одлука према тренутним информацијама о систему.

За случај да вектор одлука и/или вектор стања није дискретан, развијено је неколико додатака првој поставци Q алгоритма машинског учења ојачавањем, од којих се издваја посебно дато у [7].

Псеудо код Q алгоритма машинског учења представљен је у табели 2.3.

Табела 2.3: Псеудо код Q алгоритма машинског учења

Иницијализација вредносне функције QОдређивање тренутног стањаСрачунавање оптималне акцијеКретање агента према одређеној (најбољој) акцијиОдређивање новог стања и оцене новог стања

Ажурирање вредносне функције Q:

Ново стање постаје тренутно стање

Остали алгоритми машинског учења ојачавањем, као што су SARSA, AHC (енгл. Adaptive Heuristic Critic, или енгл. Actor-Tutor learning) и други, нису предмет овог семинарског рада, а детаљно су дати у [11,22,23].

12


3. Систем емпиријског управљања

У оквиру овог поглавља у кратким цртама представљен је емпиријски управљачки алгоритам, као и појам емпиријског управљања уопште. Таксативно су наведена правила које сваки систем емпиријског управљања мора испуњавати како би правилно процесирао прикупљене сензорске информације из окружења. Истакнуте су главне предности оваквог вида управљања, са примерима где се они могу користити. Од препоручене литературе издваја се [3], као и [12,14] где је показана експериментална примена концепта емпиријског управљања на примеру робота вертикалне зглобне конфигурације.

3.1 Увод

Филозофске поставке емпиријског управљања инспирисане су природом и њеним сложеним процесима. Сходно понашању бића у природи која интутивно осећају које понашање је најповољније сходно датим условима и постављеном задатку, теорија емпиријског управљања указује на неопходност адаптивног понашања машина у раду. Самоодрживо понашање интелигентних агената, који своји будући рад занивају на оцени успешности извршавања прописаног задатка у прошлости, крајњи је циљ емпријског концепта пројектовања система управљања. Овакви управљачки системи инспирисани природним процесима, према [3], називају се „природни“ системи управљања (енгл. Natural computers). Три основне функције оваквих система дате су у табели 3.1.

Табела 3.1: Три функције „природних“ система

Природни систем прави селекцију могућих одлука, односно могућег дејства у природном окружењуПриродни систем прати које су акције извршене успешноПриродни систем поново одабира акцију у зависности од стеченог искуства

Већина „природних“ система управљања се понаша у складу са особинама индивидуалне јединке у природи. Особине појединца (јединке) приликом извршавања аутомномног понашања наведене су у табели 3.2.

Табела 3.2: Особине јединке (појединца)

Појединац може иницирати одговарајућу акцијуПојединац може спознати сопствено постојањеПојединац може мењати стање на основу догађаја из окружењаПојединац поступа по унутрашњем моделу одлучивањаПојединац може деловати сам, без спољашње помоћи односно спољашњег подстицаја

A posteriori стечено искуство емпиријске машине је неопходан елемент интелигентног понашања. Емпиријско, односно природно стечено знање, је потребно машинама - интелигентним агентима у расуђивању, везано за то које

13


су будуће акције пожељне у њиховом окружењу [3]. У наставку поглавља дате су основне поставке емпиријског процеса, самоучећег система управљања у развоју емпиријског управљачког система, како би се сажето описао концепт емпиријске управљачке стратегије.

3.1.1 Емпиријски процес

У великом броју случајева није лако предвидети која је одлука неопходна за успешно извршавање одређеног типа задатка. Најефикаснији метод у превазилажењу овог проблема лежи у омогућавању машини (агенту) да учи на основу искуства из реалног окружења, а затим и у препознавању и симултаномрешавању проблема који произилазе из окружења. Овакав процес истраживања окружења, запажања, односно „разумевања“ догађаја у њему, као и примене успешног понашања, према [3] се назива емпиријски процес. Са инжењерске тачке гледишта, емпиријски процес се може описати сходно елементима датим у табели 3.3.

Табела 3.3: Елементи емпиријског процеса

Предвиђање излаза на основу нивоа поузданости за сваки улазно-излазни уређени парПокушај остваривања изабраног излазаПоређење оствареног излаза са предвиђеним излазомУ случају подударања оствареног и предвиђеног излаза, меморисаће се скуп управљачких одлука и модел предвиђањаУколико се не може остварити конзистентност у спровођењу управљачких одлука при извршавању задатка, треба одбацити тренутни модел предвиђања а затим усвојити нови који је боље успостављен

Једна од најбитнијих поставки везаних за емпиријско управљање је та да емпиријски систем мора самостално да учи током процеса истраживања окружења. У том процесу је неопходно да систем „испроба“ неку од могућих одлука, као што то чине системи у природи. Целокупан процес учења се може посматрати као скуп позитивних награда стања, у смислу да управљачки систем мора да научи погодно деловање односно акцију, уз истовремено одбацивање оне акције која се не може извести или која није најповољнија за тренутно стање система.

За разлику од система који се обучава поступком машинског учења ојачавањем (нпр. Q-учењем), систем емпиријског управљања има могућност „памћења“ претходно изведених одлука, што је у директној вези са будућим понашањем система. На тај начин систем учи кроз низ изведених одлука које су га довеле у

тренутно стање тако да, за разлику од Q-учења управљачког система које бира тренутно најповољнију акцију на основу ранијег искуства, емпиријско управљање омогућава меморисање комплетног редоследа одлука које су систем довеле у тренутно стање. Такав приступ машинском учењу има највише

14


сличности са тзв. природним системима. Емпиријски систем се, према [3], мора састојати од пет основних елемената наведених у табели 3.4.

Табела 3.4: Елементи емпиријског система

Сензорска информација из окружењаАктуатори у функцији остваривања промене стања Поступак мерења извршене акцијеУправљачки систем за праћење и меморисање успешно изведених одлукаТехнолошко окружење које садржи информације неопходне за правилно функционисање управљачког система

Произвољни скуп задатака који се поставља пред систем емпиријског управљања може бити извршен у случају да је он пројектован да решава три основна проблема наведених у табели 3.5. У [12,14] представљена је емпиријска управљачка стратегија за индустријски робот који учи, а која се базира на овим „једноставним“ принципима.

Табела 3.5: Емпиријска управљачка стратегија

Покушај остваривања захтеваног понашања према датим условимаОдређивање успешности остварене акцијеОстваривање понашања које има највећу вероатноћу успешности приликом изврашавања постављног задатка у реалним условима

Овај приступ сличан је процесима тестирања и упоређивања метода и резултата који су заступљени у инжењерству. Он такође представља основу емпиријског управљачког алгоритма који представља базу доношења одлука и машинског учења сваког емпиријског система.

3.2 Алгоритам емпиријског управљања

Четири општа правила алгоритма емпиријског управљања наведена су таксативно у табели 3.6, [14]:

Табела 3.6 Општа правила алгоритма емпиријског управљања (према [14])

15


Ова једноставна правила омогућавају развој, еволуцију, и успешно понашање свих систем емпиријског управљања. Блок дијаграм емпиријског управљачког алгоритма, преузет из [14], представљен је у наставку.

Слика 3.1: Блок дијаграм алгоритма емпиријског управљања

16


Детаљан опис свих подсистема представљених на слици 3.1 дат је у [14]. Из тог разлога овде се скраћено наводи њихова функција и редослед извршавања процеса у њима.

Блок сензорског улаза представља најбољу почетну позицију за детаљан опис овог алгоритма. Специфично улазно стање је представљено овим блоком на почетку прелазног циклуса. У наредном блоку у којем се прима улазно стање, емпиријски управљачки систем одређује одабрани излаз базиран на нивоу поузданости који он остварује за сва могућа излазна стања према доведеном улазу, при чему се снижава ниво поузданости одабраног односа улаз/излаз [3]. Након извесног временског кашњења , управљачки систем покушава да

оствари одабрано излазно стање. Додатно време је након тога неопходно, како би се актуатори робота довели у одговарајућу позицију. Тако, након још једног

временског кашњења, , управљачки систем мери стварни, остварени излаз, а

затим обезбеђује пораст нивоа поузданости оцењеног изланог стања за дато улазно стања у посматраном прелазу стања.

Окружење и/или остали фактори могу, али и не морају, да утичу на остваривање одговарајућег излазног стања у току периода реализације акције односно жељеног понашања. Такође, окружење и остали спољашњи утицаји успостављају унутрашња тј. сопствена кашњења за време сваког прелаза стања и приликом довођења наредног улазног стања у емпиријски управљачки систем. Цео поступак се понавља све до тренутка појаве успешног аутономног понашања интелигентне машине за дати постављени технолошки задатак.

Алгоритам емпиријског управљања базира се на сличности са познатим Хебовим правилом (енгл. Hebb rule), које је уграђено у паралелне дистрибутивне системи као што су вештачке неуронске мреже. Међутим, алгоритам емпиријског управљања подразумева да машина најпре покуша да оствари излазно стање на основу улазних вредности што резултује у стицању негативне промене у нивоу поузданости (негативне оцене стања) за дати улазно-излазни пар. Подразумева се такође, одређено временско кашњење у процесу мерења улазне величине стања путем сензора и иницијализације вектора излаза емпиријског управљачког система. Према наведеном алгоритму, излазној величини стања је дата позитивна оцена (енгл. Positive Reinforcement)

једино ако је она извршена у оквирима временско прописаних кашњења, и

.

Описани алгоритам емпиријског управљања има широку примену при концепцијском пројектовању управљачких система, нарочито у оним случајевима где је неопходна „реакција“ околине на одређени излаз из система. Детаљније описани примери, као што су емпиријски пројектован термостат, моторно возило са емпиријским управљачким системом и сл., разматрани су у литератури означеној под [3].

17


4. Систем емпиријског управљања интелигентног мобилног робота – дискусија и експериментална

поставка

Ово поглавље детаљно разматра примену концепта емпиријског управљања и класе машинског учења ојачавањем – Q учења на мобилни робот у технолошком окружењу. Описана је примена новоуведеног система емпиријског управљања приликом остваривања задатка мобилног робота – избегавање препрека у технолошком окружењу. Наведене су предности оваквог управљачког система над системима добијених пројектовањем путем класичне теорије аутоматског управљања. Показана је предност оваквог система над системима који обухватају управљачке подсистеме обучене искључиво применом машинског учења ојачавањем. На крају је извршена анализа могућих побољшања у виду имплементације вештачких неуронских мрежа у описани управљачки систем.

4.1 Дискусија

Највећа предност оваквог приступа пројектовању будућег управљачког система огледа се у томе да приликом истраживања технолошког окружења интелигентном агенту није потребан математички модел средине у којој се налази. Другим речима, мобилном роботу у технолошком окружењу познат је само скуп одлука и могућих стања у којима се налази током кретања, за разлику од конвенционалних метода у којима је за кретање робота неопходно имати алгоритам претраге, као и модел окружења у погодном облику, како би постојала могућност срачунавања најкраће путање од почетне до крајње позиције приликом извршавања постављеног задатка. Битно је истаћи и да није потребно моделирити динамику система управљања, што је врло значајно јер је у највећем броју случајева то нелинеаран проблем. Управо овакав начин пројектовања система омогућава робустност у погледу извршавања постављеног задатка и у случајевима када је, услед динамичких промена у окружењу, постављени задатак делимично измењен.

Најпре ће се сходно једначини (2.17) представити правило ажурирања

вредносне функције уређеног пара стање - одлука , према [19]:

(4.1)

где је:

- тренутно стање

- одлука која се примењује у тренутном стању

- наградна оцена након примењене акције

- процена успешности акције извршене у стању

- параметри учења

18


Метода која би помогла експлицитном одређивању параметара и , у општем случају, до данас није позната. Стога се ови параметри морају усвајати на основу ранијег искуства, и у односу на постављени задатак. У табели 4.1 представљен је опсег вредности параметара који су успостављени у највећем броју случајева.

Табела 4.1: Параметри учења

Параметар Опис Опсег вредности

параметар учења

фактор скалирања

Вектор стања мобилног робота се најчешће дефинише према постављеном задатку. Уколико се задатак интелигентог агента односи на заобилажење препрека у технолошком окружењу при кретању до неког циљног положаја, вектор стања мобилног робота се може усвојити према једначини 4.2, односно према тзв. брзинском моделу кретања, сходно [9].

(4.2)

где је са означена брзина робота, трајање сваке итерације током процеса учења, а укупан број итерација. На слици 4.1 симболички је представљен мобилни робот приликом истраживања окружења (сл.4.1а), као и одговарајуће понашање интелигентног агента сходно очитаним улазним величинама са сензора (сл.4.1б).

а) б)

Слика 4.1 Мобилни робот у технолошком окружењу: а) улазне сензорске информације

б) одабрана одлука сходно очитаним вредностима

Скуп стања у коме се мобилни робот налази (приликом истраживања окружења), према [9], може се усвојити на следећи начин:

19

препрека

препрекака

RИнфрацрвени зрак

Право

Скретање удесно

Скретањеулево


(4.3)

где су употребљене ознаке:

КС - крајње стањеСС - сигурно стањеНС - несигурно стањеПС - погрешно стање (колизија)

- растојање између робота и циљне позиције

- пречник круга дефинисаног око циљне позиције

- растојање од робота до препреке

- минимално растојање које дефинише пројектант

- пречник круга дефинисаног око препреке

Крајњим стањем сматра се стање у коме се робот налази када достигне циљну позицију. Сигурно и несигурно стање означавају стања мобилног робота у којима постоји мала односно велика вероватноћа да дође до колизије, респективно. Ова вероватноћа се рачуна на основу добијених сензорских информација. Погрешно стање означава стање у коме је дошло до судара између робота и препреке.

Вредносна оцена стања, R, може се према [9] дефинисати сходно следећем алгоритму:

- Оцена стања једнака је вредности -1 при прелазу из „сигурног стања“ у „несигурно стање“;

- Оцена стања једнака је вредности -1 при прелазу из „несигурног стања“ у „несигурно стање“, ако се интелигентни мобилни робот приближио препреци.

- Оцена стања једнака је вредности 0, при прелазу из несигурног стања“ у „несигурно стање“, ако се интелигентни мобилни робот удаљио од препреке.

- Оцена стања једнака је 2 при прелазу у „крајње стање“ (енгл. Winning State)- Оцена стања једнака је -2 при прелазу у „погрешно стање“ (енгл. Fail State)

Оцена стања (енгл. Reward) се, сходно овоме, може приказати у следећом облику:

(4.4)

20


где је са С означено тренутно стање мобилног робота, а стрелицом прелаз стања из тренутног у наредно.

У највећем броју случајава скуп могућих одлука нема више од пет чланова, како би време рачунања прелаза стања, односно време мировања робота у неком од тренутних стања било што краће. Према [9] скуп одлука има три члана:

- Померај унапред - Померај улево (под углом од 45 степени)- Померај удесно (под углом од 45 степени)

Критеријум по коме се бира одређена одлука из скупа одлука је општепознати Softmax алгоритам. Овај алгоритам познат је и као Болцманова распоgела, која се математички представља као:

(4.5)

где је са n означен укупан број одлука у простору могућих одлука. Скалар Т омогућава одређивање приоритета избора одлука у зависности од тренутка и фазе учења мобилног робота. Ова вредност се утврђује емпиријски, [8,16].

4.2 Експериментална поставка система емпиријског управљања

Емпиријски приступ пројектовању будућег управљачког система омогућава да

се вредносна функција пара одлука-стање, , одређује не само на

основу тренутно најбољег понашања мобилног робота, већ и на основу претходног низа успешно изведених одлука интелигентног агента. Овакав начин пројектовања има велику предност у односу на класичне теорије пројектовањасистема применом концепта машинског учења ојачавањем. Мобилни робот са овако пројектованим управљачким системом има могућност анализирања тренутног стања у коме се он налази са аспекта најбољег могућег избора акције, посматрано у односу на скуп претходно изведених одлука. Такође, он има могућност поређења раније меморисане успешно изведене акције са тренутно најбољом акцијом која се одређује помоћу Q алгоритма управљања.

За разлику од уобичајеног поступка обучавања робота, у коме се обучавање робота дели на тренинг фазу и тест фазу, мобилни робот са емпиријским управљачким системом истовремено спроводи обе фазе, континуално учећи и обављајући постављени задатак. Битно је напоменути да се податак о тренутном стању у свакој од итерација добија на основу сензорске информације. То значи да свака следећа одлука робота директно зависи од очитаних података са доступних сензора интелигентног агента - мобилног робота. Графички приказ новог емпиријског алгоритма обучавања мобилног робота представљен је на слици 4.2.

21


Слика 4.2 Емпиријски алгоритам обучавања помоћу Q функције машинског учења ојачавањем

Представљени алгоритам односи се на задатак заобилажења препрека приликом решавања проблема навигације мобилног робота. Емпиријски блок дијаграм обухвата претходно изведене акције са меморисаним степеном успешности, тако да он равноправно учествује у одлучивању о наредној акцији, односно наредног понашања интелигентног агента – мобилног робота. Након одређеног броја итерација који се, према [9,16], одређује експериментално, систем емпиријског управљања функционише по алгоритму који је представљен на слици 4.3.

22

Не

Повољно стање

Померање удесно, затим

унапред

Блок дијаграм система емпиријског управљања

Поређење могућег

померања лево/десно

Претходно изведене акције по вероватноћи успешности/Правила алгоритма емпријског

управљања

Одабир акције

Померање улево, затим

унапред

Наредно стање

Ажурирање Q вредности

Препрека?

Судар/Неповољно стање

Последња итерација

Померање унапред

Сигурно стање

ДаНе Промена оријентације

Почетак

Улазни подаци за циљ

Тренутно стање

Прелазно стање

Циљни положај

Не

Да

Крај

Да

Да

Судар/Неповољно стање

Повољно стањеПрепрека?

Одабир акције са

најбољом Q вредношћу

Крај

Померање удесно, затим

унапред Циљни положај

Наредно стање

Померање улево, затим

унапред

Промена оријентације

Не Да

Поређење са дугорочном стратегијом/правилима емпиријског управљања

Померање унапред

Поређење вредности померања улево/удесно

са меморисаним вредностима из Q табеле

Почетак

Улазни подаци за циљ

Тренутно стање

Сигурно стање

Не


Слика 4.3 Емпиријски алгоритам управљања мобилног робота са обученом Q функцијом машинског учења ојачавањем

За разлику од алгоритма датог на слици 4.2, овакав алгоритам обухвата већ научену Q функцију, односно већ меморисане најбоље (оптималне) акције мобилног робота за прелазак из трентног у наредно стање. Емпиријски блок, као и у претходном случају, учествује у одабиру најбоље акције позивајући се на меморисани низ одлука које су довеле мобилни робот у тренутно стање.

У наставку је дат матлаб код (у скраћеном облику) за рачунање Q итерације (енгл. Q iteration) у оквиру израчунавања Q функције машинског учења ојачавањем.

23


% Performing Q-iteration

% init Q-function, histories etc. Q = zeros(N,M); run = 0; Qh = cell(maxiter+1, 1); % also allow for theta_0 Qh{1} = Q; % save theta_0 on the stats deltah = NaN(maxiter+1, 1); i = 1;

dispx('Performing Q-iteration...'); t = cputime; conv = 0; while i <= maxiter && ~conv, % main loop % update Q-function Q = R + gamma .* reshape(max(Q(F, :), [], 2), N, M); % store Q-function Qh{i+1} = Q;

% compute max absolute difference deltah(i+1) = max(max(abs(Q - Qh{i}))); conv = deltah(i+1) < eps; % update stats run = run + (cputime - t); % start counting time again, increment counter t = cputime; i = i + 1; end; % while not converged and allowed more iterations % output optimal param and Q-iteration varargout = {Q};

Матрица Q, као што се може видети из кода, у случају великог броја стања, постаје матрица чије димензије често превазилазе могућности софтверских пакета у којима се она програмира. Стога, логично се намеће решење која ће значајно смањити димензионалност матрице за произвољно велики вектор стања, односно вектор одлука. Такво решење огледа се у употреби вештачких неуронских мрежа (ВНМ) [13,14], у којима ће се вршити запис уређеног пара

стање-одлука, . У доступној литератури не постоји критеријум избора

ВНМ која даје најбоље разултате при пресликавању улазног скупа података (x)

у вредносну функцију . Пошто је ово релативно нов приступ

пројектовању матрице , ВНМ са својим карактеристикама у већини

случајева олакшава задатак пројектовања управљачког система. Између осталог, [7,8], посебно се издваја истраживање о употреби ВНМ са динамичком

(променљивом) структуром при пројектовању матрице за решавање

проблема навигације мобилног робота и симултаног заобилажења препрека. Као што је наведено у [16], осим решења проблема димензионалности ове матрице, ВНМ са динамичком структуром аутоматски врши корекцију тежинских коефицијената, као и корекцију број неурона у скривеном слоју. Као један од

24


циљева будућих истраживања, намеће се употреба ВНМ са динамичком структуром и њена имплементација у развијени систем емпиријског управљања.

4.3 Верификација предложеног концепта система емпиријског управљања на LEGO Mindstorms NXT конфигурацији мобилног робота

За верификацију првог дела предложеног система емпиријског управљања одабрана је LEGO Mindstorms NXT конфигурација мобилног робота. Предложено решење конфигурације мобилног робота, са аспекта извршавања задатка заобилажења препрека приликом навигације, састоји се од два погонска точка, једног помоћног (задњег) точка, ултразвучног сензора који је постављен у хоризонталној равни, као и управљачке јединице која директно управља елементима система мобилног робота (слика 4.4.). Ултразвучни сензор такође се покреће помоћу серво мотора, код кога преносни однос обртног момента износи i=48.

Слика 4.4: Конфигурација мобилног робота LEGO Mindstorms NXT – поглед спреда

25


Слика 4.5: Конфигурација мобилног робота LEGO Mindstorms NXT – поглед одозго

Ултразвучни сензор врши очитавања на сваких 45 степени, укључујући и почетни положај, односно угао од нула степени гледано одозго. Добијена мерења смештају се у матрицу на основу које ће се касније вршити верификација избора одабране одлуке према меморисаним вредностима у Q матрици. Матрица Q се на почетку дефинише као празан скуп у којој ће се, као што је већ напоменуто, уписивати вредности добијене према изразу (4.1). Поредећи вредности претходног мерења и мерења у тренутном стању, наградна вредност која фигурише у изразу Q машинског учења је нешто модификована у односу на предходно дефинисан случај, и износи:

(4.6)

при чему означава тренутно стање мобилног робота, а његово

жељено, односно крајње стање. Са означен је вектор од 5 добијених вредности растојања мереним помоћу ултразвучног сензора у претходном стању, док је са означен вектор растојања у тренутном стању. Логично, наградна вредност дефинисана је према овим параметрима. Уместо предложеног брзинског модела кретања, у случају LEGO Mindstorms NXT мобилног робота применио се модел кретања на основу пређеног пута. У том случају стање мобилног робота ажурира се према (4.7):

26


(4.7)

где је:

-наредно стање

-елементи вектора стања у посматраном тренутку

-померање десног точка у једној итерацији

- померање левог точка у једној итерацији

-растојање између точкова

За вредности и (табела 4.1) узете су вредности 0.1 и 0.99 респективно, јер су оне дале најбоље резултате приликом лабораторијског рада. Стање мобилног робота одређено је тренутном координатом у односу на глобални, непокретни координатни систем, а наредно стање преко дефинисаног модела кретања.

Простор стања система дискретизован је како би се сложени проблем навигације додатно поједноставио. Дискретизација је извршена према могућем померању у вертикалном и хоризонталном правцу у једној итерацији.Свака итерација обухвата једну изабрану одлуку, кретање робота према одабраној одлуци, очитавање растојања са ултразвучног сензора, додељивање наградне вредности на основу добијених резултата и поређењем са претходно очитаним вредностима, као и ажурирање Q вредности у Q табели. Пошто је број итерација потребан за рачунање оптималне вредности функције одлука-стање веома велики – реда и до неколико милиона, развијена је симулација у којој се може проверити концепт Q машинског учења ојачавањем. У овом случају уведен је и појам епизоде (енгл. Episode) који у себи садржи и до две хиљаде итерација. Тиме је укупан процес обучавања Q функције нешто поједностављен, мада је број итерација и даље веома велики.

Развијена симулација не обухвата сензорски модел, и односи се на дисретизовано окружење са статичким препрекама. Добијени резултати показују да ни у случају 100 епизода, Q функција нема валидне вредности. Управо овај разлог наводи на коришћење веродостојне симулације система управљања, како би се реалном систему мобилног робота омогућили полазни подаци Q матрице при даљем обучавању, [5,16,20] Проблем представљен у симулацији описан је у [22].

27


Слика 4.5: Симулација алгоритма Q машинског учења ојачавањем

За мобилни робот усвојене конфигурације одабране су произвољне вредности стартне и циљне позиције. Усвојени сет одлука је исти као и на слици 4.1, односно робот се може кретати право, скретати лево под углом од 45 степени, као и скретати у десну страну под истим углом. Добијени резултати показују да је потребан број обучавајућих парова и даље веома велики да би се мобилни робот кретао оптималном путањом. Из тог разлога, након броја итерација који прелази „разумну“ меру, циклус обучавања је заустаљен. Такође, димензије матрице Q указују на неопходност примене вештачких неуронских мрежа(ВНМ), [14], као и развој симулације система са сензорским моделом робота, како би се учење у реалном времену постало једноставније и брже.

Резултати добијени обучавањем мобилног робота у технолошком окружењу (слика 4.6) и (слика 4.7), указују на ваљаност изабраног принципа у поступку навигације интелигентног агента. Добијени подаци указују на то да робот у свакој итерацији меморише очитане податке са ултразвучног сензора, и у складу са тим, ажурира Q вредност. Након довољног броја епизода, односно довољног броја итерација, са сигурношћу се може тврдити да ће робот имати аутономно понашање, као и особину адаптибилности на реалне услове. Прикупљање довољног броја података и имплеметација алгоритма у тзв. „тест“ фази, следећи су корак у истраживању и валидацији предложене методе пројектовања система управљања.

28


Слика 4.6: Добијени резултати након 11 епизода

Слика 4.7: Добијени резултати након 50 епизода

29


5. Закључак и правци будућих истраживања

У оквиру овог семинарског рада представљен је нови систем емпиријског управљања, коришћен за навигацију мобилног робота у технолошком окружењу. За разлику од конвенционалних метода, на овим основама се развија и пројектује будући управљачки систем који омогућава мобилном роботу да се прилагођава реалним условима, односно да учи током извршавања постављеног задатка. Захваљујући овоме, емпиријски управљачки систем имаће могућност адаптивног понашања, што је у случају реалних система од пресудне важности.

Структура развијеног система емпиријског управљања омогућава прилагођавање интелигентног агента – мобилног робота новонасталим околностима у технолошком окружењу. Другим речима, мобилни робот са овако дефинисаним будућим управљачким системом моћи ће да извршава постављени задатак при динамичким променама у окружењу, при томе не поседујући a priori информацију о положају статичких и других препрека у истом. Наведена особина је јако корисна при стохастичким условима рада мобилног робота, односно у случају честих промена положаја статичких препрека. Такође, опште коришћени алгоритми претраге овде немају употребу, с обзиром да мобилни робот директно учи путем интеракције са околином. Систем емпиријског управљања би требало да, у извесној мери, даје добре резултате при постојању и динамичких препрека у окружењу.

Основни резултати истраживања односе се на следеће целине:

1. Истраживање у оквиру области машинског учења ојачавањем и одабир погодног алгоритма за примену концепта емпиријског управљања. Моделовање система тако да подлеже правилима Марковљевог процеса одлучивања, који представља основу примене машинског учења ојачавањем. Избор задатка (заобилажење препрека у току навигације мобилног робота) који би најефикасније потврдио исправност изабраног концепта пројектовања будућег управљачког система. Развој Q алгоритма машинског учења у оквиру софтверског пакета Matlab.

2. Друга група истраживања односи се на имплементацију стратегије емпиријског управљања на развијени Q алгоритам машинског учења. Пројектовање вектора стања, односно вектора одлука има значајну улогу у одређивању степена успешности понашања мобилног робота. Имплементација брзинског модела кретања у погодном облику такође се може сматрати делом овог истраживања. Повезивање вектора стања и вектора одлука у једну целину која је пројектована на основу концепта емпиријског управљања, представља финални резултат ове групе истраживања.

У ову групу истраживања спада и имплементација алгоритма емпиријског система управљања за решавање проблема навигације мобилног робота LEGO Mindstorms NXT. На описан начин моделовани су главни елементи машинског учења ојачавањем и приказани су добијени експериментални резултати. Иако проблем заобилажења препрека није решен, прикупљени подаци указују на валидност предложеног емпиријског система управљања, као и на то да би са већим бројем сензорских података резултати навигације у технолошком

30


окружењу били прецизнији. Један од будућих корака у развоју овог дела истраживања односи се и на прикупљање већег броја података ради побољшања вредности вероватноће прелаза стања у Q табели.

Правци будућих истраживања односе се на следеће три групе:

Имплементација вештачке неуронске мреже (ВНМ) у циљу смањења времена прорачуна наредног стања мобилног робота. У том смислу, неопходно је постојећу Q функцију заменити ВНМ одговарајућег типа и структуре. Неопходно је размотрити могућност примене ВНМ са динамичком структуром како би се адаптивност постојећег управљачког система додатно повећала.

Имплементација камере као додатног сензора ради повећања успешности остварених одлука мобилног робота. Поређење постојећег система навигације са системом навигације заснованим на обради добијених информација од камере, и анализа могућности њихове заједничке примене кроз обједињени систем управљања.

Развој математичког модела вероватноће у оквиру система емпиријског управљања. Поређења са постојећим моделима сличне намене, уз анализу могућности њихове имплементације у процес пројектовања емпиријског управљачког система.

31


6. Литература

[1] Alpaydin, E., Introduction to Machine Learning, Second Edition, MIT Press, 2010.

[2] Bertsekas, P. D., Dynamic Programming and Optimal Control - 3rd Edition, Volume II, Chapter 6: Approximate Dynamic Programming, MIT Press, Last Edited - August 2010.

[3] Brown, R. A.., Machines That Learn – Based On the Principles of Empirical Control, Oxford University Press, 1994.

[4] Busoniu, L., Reinforcement Learning in Continuous State and Action Spaces, PhD Thesis, TUDelft, 2009.

[5] Carreras, M., Application of SONQL for real-time learning of robot behaviors, Robotics and Autonomous Systems, Vol. 53, No.8, 2007.

[6] Engel, J. M., Reinforcement learning applied to UAV helicopter control, Master Thesis, TUDelft, 2005.

[7] Gaskett, C., Q-Learning for Robot Control, PhD Thesis, The Australian National University, 2002.

[8] Huang, Q.-B., et al., Reinforcement Learning Neural Networks To The Problem Of Autonomous Mobile Robot Obstacle Avoidence, IEEE Proceedings on Machine Learning and Cybernetics, Vol.1, pp. 85-89, 2005.

[9] Jaradat, M.A., et al., Reinforcement based mobile robot navigation in dynamic environment, Robotics and Computer-Integrated Manufacturing, Vol 27., No.1, pp. 135-149, 2010.

[10] Kuzmin, V., Connectionist Q-Learning in Robot Control Task, Scientific Proceedings of Riga Technical University, 2002.

[11] Lewis, F. L., Neural Network Feedback Control: Work at UTA’s Automation and Robotics Research Institute, Journal of Intelligent and Robotic Systems, Vol. 48, pp. 513-522, 2007.

[12] Miljković, Z., Babić B., Empirical Control Strategy for Learning Industrial Robot, FME Transactions, Vol. 35, No. 1, pp. 1-8, 2007.

[13] Миљковић, З., Алексендрић Д., Вештачке неуронске мреже – Збирка задатака са изводима из теорије, Универзитет у Београду – Машински факултет, 2009.

[14] Миљковић, З., Системи вештачких неуронских мрежа у производним технологијама, Серија монографских дела Интелигентни технолошки системи (Уредник серије: Проф. др Владимир Милачић), Књига 8, Универзитет у Београду – Машински факултет, Београд, 2003.

32


[15] Moreno, D. L., et al., Making Use of Unelaborated Advice to Improve Reinforcement Learning: A Mobile Robotics Approach, in Proc. International Conference on Advances in Pattern Recognition (ICAPR). 2005, vol. 3686 of LNCS, pp. 89–98, Springer-Verlag.

[16] Moreno, D. L., et al., Using Prior Knowledge to Improve Reinforcement Learning in Mobile Robotics, In: TAROS, UK, 2004.

[17] Qiao, J., et al., Q-Learning Based on Dynamical Structure Neural Network for Robot Navigation in Unknown Environment, ISNN 2009 Proceedings of the 6th International Symposium on Neural Networks: Advances in Neural Networks - Part III, 2009.

[18] Russel, S., Norvig, P., Artifficial Inteligence: a Modern Approach, Third Edition, Prentice Hall, 2010.

[19] Siegwart, R., Nourbakish, I. R., Introduction to Autonomous Mobile Robots, MIT Press, 2004.

[20] Shi, C., et al., A local obstacle avoidance method for mobile robots in partially known environment, Robotics and Autonomous Systems, Volume 58, No. 5, pp. 425-434, 2010.

[21] Strosslin, T., Gerstner, W., Reinforcement learning in continuous state and action space, In: Artificial Neural Networks – ICANN, 2003.

[22] Sutton, R.S., Barto, A.G., Reinforcement Learning: An Introduction, MIT Press, 1998.

[23] Szepesvári, C., Algorithms for Reinforcement Learning, Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan Claypool Publisher, 2010.

[24] Vuković, N., Miljković, Z., New Hybrid Control Architecture for Intelligent Mobile Robot Navigation in a Manufacturing Environment, FME Transactions, Vol.37, No.1, 2009.

[25] Watkins, C., Learning from Delayed Rewards, PhD Thesis, King’s College, London, 1989.

[26] Watkins, C., Dayan P., Q-Learning, In: Machine Learning 8, Kluwer Academic Publishers, Boston, 1992.

[27] Zou, M.-A., Neural Networks for Mobile Robot Navigation: A Survey, Advances in Neural Networks – ISNN, 2006.

33

Documents

Autonomni Sistemi i Masinsko Ucenje-Seminarski Rad