Elavator Problem Learning Reinforcement

Embed Size (px)

Citation preview

  • 8/3/2019 Elavator Problem Learning Reinforcement

    1/7

    I n D . S . T o u r e t z k y , M . C . M o z e r , a n d M . E . H a s s e l m o , e d s . , A d v a n c e s i n N e u r a l

    I n f o r m a t i o n P r o c e s s i n g S y s t e m s 8 . M I T P r e s s , C a m b r i d g e M A , 1 9 9 6 .

    I m p r o v i n g E l e v a t o r P e r f o r m a n c e U s i n g

    R e i n f o r c e m e n t L e a r n i n g

    R o b e r t H . C r i t e s

    C o m p u t e r S c i e n c e D e p a r t m e n t

    U n i v e r s i t y o f M a s s a c h u s e t t s

    A m h e r s t , M A 1 3 - 4 6 1

    c r i t e s @ c s . u m a s s . e d u

    A n d r e w G . B a r t o

    C o m p u t e r S c i e n c e D e p a r t m e n t

    U n i v e r s i t y o f M a s s a c h u s e t t s

    A m h e r s t , M A 1 3 - 4 6 1

    b a r t o @ c s . u m a s s . e d u

    A b s t r a c t

    T h i s p a p e r d e s c r i b e s t h e a p p l i c a t i o n o f r e i n f o r c e m e n t l e a r n i n g ( R L )

    t o t h e d i c u l t r e a l w o r l d p r o b l e m o f e l e v a t o r d i s p a t c h i n g . T h e e l -

    e v a t o r d o m a i n p o s e s a c o m b i n a t i o n o f c h a l l e n g e s n o t s e e n i n m o s t

    R L r e s e a r c h t o d a t e . E l e v a t o r s y s t e m s o p e r a t e i n c o n t i n u o u s s t a t e

    s p a c e s a n d i n c o n t i n u o u s t i m e a s d i s c r e t e e v e n t d y n a m i c s y s t e m s .

    T h e i r s t a t e s a r e n o t f u l l y o b s e r v a b l e a n d t h e y a r e n o n s t a t i o n a r y

    d u e t o c h a n g i n g p a s s e n g e r a r r i v a l r a t e s . I n a d d i t i o n , w e u s e a t e a m

    o f R L a g e n t s , e a c h o f w h i c h i s r e s p o n s i b l e f o r c o n t r o l l i n g o n e e l e -

    v a t o r c a r . T h e t e a m r e c e i v e s a g l o b a l r e i n f o r c e m e n t s i g n a l w h i c h

    a p p e a r s n o i s y t o e a c h a g e n t d u e t o t h e e e c t s o f t h e a c t i o n s o f t h e

    o t h e r a g e n t s , t h e r a n d o m n a t u r e o f t h e a r r i v a l s a n d t h e i n c o m p l e t e

    o b s e r v a t i o n o f t h e s t a t e . I n s p i t e o f t h e s e c o m p l i c a t i o n s , w e s h o w

    r e s u l t s t h a t i n s i m u l a t i o n s u r p a s s t h e b e s t o f t h e h e u r i s t i c e l e v a t o r

    c o n t r o l a l g o r i t h m s o f w h i c h w e a r e a w a r e . T h e s e r e s u l t s d e m o n -

    s t r a t e t h e p o w e r o f R L o n a v e r y l a r g e s c a l e s t o c h a s t i c d y n a m i c

    o p t i m i z a t i o n p r o b l e m o f p r a c t i c a l u t i l i t y .

    1 I N T R O D U C T I O N

    R e c e n t a l g o r i t h m i c a n d t h e o r e t i c a l a d v a n c e s i n r e i n f o r c e m e n t l e a r n i n g ( R L ) h a v e

    a t t r a c t e d w i d e s p r e a d i n t e r e s t . R L a l g o r i t h m s h a v e a p p e a r e d t h a t a p p r o x i m a t e d y -

    n a m i c p r o g r a m m i n g ( D P ) o n a n i n c r e m e n t a l b a s i s . U n l i k e t r a d i t i o n a l D P a l g o -

    r i t h m s , t h e s e a l g o r i t h m s c a n p e r f o r m w i t h o r w i t h o u t m o d e l s o f t h e s y s t e m , a n d

    t h e y c a n b e u s e d o n l i n e a s w e l l a s o i n e , f o c u s i n g c o m p u t a t i o n o n a r e a s o f s t a t e

    s p a c e t h a t a r e l i k e l y t o b e v i s i t e d d u r i n g a c t u a l c o n t r o l . O n v e r y l a r g e p r o b l e m s ,

    t h e y c a n p r o v i d e c o m p u t a t i o n a l l y t r a c t a b l e w a y s o f a p p r o x i m a t i n g D P . A n e x a m p l e

    o f t h i s i s T e s a u r o ' s T D { G a m m o n s y s t e m ( T e s a u r o , 1 9 9 2 ; 1 9 9 4 ; 1 9 9 5 ) , w h i c h u s e d

  • 8/3/2019 Elavator Problem Learning Reinforcement

    2/7

    R L t e c h n i q u e s t o l e a r n t o p l a y s t r o n g m a s t e r s l e v e l b a c k g a m m o n . E v e n t h e b e s t h u -

    m a n e x p e r t s m a k e p o o r t e a c h e r s f o r t h i s c l a s s o f p r o b l e m s s i n c e t h e y d o n o t a l w a y s

    k n o w t h e b e s t a c t i o n s . E v e n i f t h e y d i d , t h e s t a t e s p a c e i s s o l a r g e t h a t i t w o u l d b e

    d i c u l t f o r e x p e r t s t o p r o v i d e s u c i e n t t r a i n i n g d a t a . R L a l g o r i t h m s a r e n a t u r a l l y

    s u i t e d t o t h i s c l a s s o f p r o b l e m s , s i n c e t h e y l e a r n o n t h e b a s i s o f t h e i r o w n e x p e r i e n c e s

    a n d d o n o t r e q u i r e a t e a c h e r t h a t c a n d i c t a t e t h e b e s t a c t i o n s . T h i s p a p e r d e s c r i b e s

    t h e a p p l i c a t i o n o f R L t o e l e v a t o r d i s p a t c h i n g , a n o t h e r p r o b l e m w h e r e c l a s s i c a l D P

    i s c o m p l e t e l y i n t r a c t a b l e . T h e e l e v a t o r d o m a i n p o s e s a n u m b e r o f d i c u l t i e s t h a t

    w e r e n o t p r e s e n t i n b a c k g a m m o n . I n s p i t e o f t h e s e c o m p l i c a t i o n s , w e s h o w r e s u l t s

    t h a t s u r p a s s t h e b e s t o f t h e h e u r i s t i c e l e v a t o r c o n t r o l a l g o r i t h m s o f w h i c h w e a r e

    a w a r e . T h e f o l l o w i n g s e c t i o n s d e s c r i b e t h e e l e v a t o r d i s p a t c h i n g d o m a i n , t h e R L

    a l g o r i t h m a n d n e u r a l n e t w o r k a r c h i t e c t u r e s t h a t w e r e u s e d , t h e r e s u l t s , a n d s o m e

    c o n c l u s i o n s .

    2 T H E E L E V A T O R S Y S T E M

    T h e p a r t i c u l a r e l e v a t o r s y s t e m w e e x a m i n e i s a s i m u l a t e d 1 { s t o r y b u i l d i n g w i t h

    4 e l e v a t o r c a r s ( L e w i s , 1 9 9 1 ; B a o e t a l , 1 9 9 4 ) . P a s s e n g e r a r r i v a l s a t e a c h o o r a r e

    a s s u m e d t o b e P o i s s o n , w i t h a r r i v a l r a t e s t h a t v a r y d u r i n g t h e c o u r s e o f t h e d a y .

    O u r s i m u l a t i o n s u s e a t r a c p r o l e ( B a o e t a l , 1 9 9 4 ) w h i c h d i c t a t e s a r r i v a l r a t e s f o r

    e v e r y 5 { m i n u t e i n t e r v a l d u r i n g a t y p i c a l a f t e r n o o n d o w n { p e a k r u s h h o u r . T a b l e 1

    s h o w s t h e m e a n n u m b e r o f p a s s e n g e r s a r r i v i n g a t e a c h o o r ( 2 { 1 ) d u r i n g e a c h

    5 { m i n u t e i n t e r v a l w h o a r e h e a d e d f o r t h e l o b b y . I n a d d i t i o n , t h e r e i s i n t e r { o o r

    t r a c w h i c h v a r i e s f r o m % t o 1 % o f t h e t r a c t o t h e l o b b y .

    T i m e 5 1 1 5 2 2 5 3 3 5 4 4 5 5 5 5

    R a t e 1 2 4 4 1 8 1 2 8 7 1 8 5 3 2

    T a b l e 1 : T h e D o w n { P e a k T r a c P r o l e

    T h e s y s t e m d y n a m i c s a r e a p p r o x i m a t e d b y t h e f o l l o w i n g p a r a m e t e r s : F l o o r t i m e

    ( t h e t i m e t o m o v e o n e o o r a t t h e m a x i m u m s p e e d ) : 1 . 4 5 s e c s ; S t o p t i m e ( t h e t i m e

    n e e d e d t o d e c e l e r a t e , o p e n a n d c l o s e t h e d o o r s , a n d a c c e l e r a t e a g a i n ) : 7 . 1 9 s e c s ;

    T u r n t i m e ( t h e t i m e n e e d e d f o r a s t o p p e d c a r t o c h a n g e d i r e c t i o n ) : 1 s e c ; L o a d t i m e

    ( t h e t i m e f o r o n e p a s s e n g e r t o e n t e r o r e x i t a c a r ) : r a n d o m v a r i a b l e f r o m a 2 t h

    o r d e r t r u n c a t e d E r l a n g d i s t r i b u t i o n w i t h a r a n g e f r o m . 6 t o 6 . s e c s a n d a m e a n

    o f 1 s e c ; C a r c a p a c i t y : 2 p a s s e n g e r s .

    T h e s t a t e s p a c e i s c o n t i n u o u s b e c a u s e i t i n c l u d e s t h e e l a p s e d t i m e s s i n c e a n y h a l l

    c a l l s w e r e r e g i s t e r e d , w h i c h a r e r e a l { v a l u e d . E v e n i f t h e s e r e a l v a l u e s a r e a p p r o x i -

    m a t e d a s b i n a r y v a l u e s , t h e s i z e o f t h e s t a t e s p a c e i s s t i l l i m m e n s e . I t s c o m p o n e n t s

    i n c l u d e 2

    1 8

    p o s s i b l e c o m b i n a t i o n s o f t h e 1 8 h a l l c a l l b u t t o n s ( u p a n d d o w n b u t t o n s

    a t e a c h l a n d i n g e x c e p t t h e t o p a n d b o t t o m ) , 2

    4 0

    p o s s i b l e c o m b i n a t i o n s o f t h e 4 c a r

    b u t t o n s , a n d 1 8

    4

    p o s s i b l e c o m b i n a t i o n s o f t h e p o s i t i o n s a n d d i r e c t i o n s o f t h e c a r s

    ( r o u n d i n g o t o t h e n e a r e s t o o r ) . O t h e r p a r t s o f t h e s t a t e a r e n o t f u l l y o b s e r v a b l e ,

    f o r e x a m p l e , t h e d e s i r e d d e s t i n a t i o n s o f t h e p a s s e n g e r s w a i t i n g a t e a c h o o r . I g -

    n o r i n g e v e r y t h i n g e x c e p t t h e c o n g u r a t i o n o f t h e h a l l a n d c a r c a l l b u t t o n s a n d t h e

    a p p r o x i m a t e p o s i t i o n a n d d i r e c t i o n o f t h e c a r s , w e o b t a i n a n e x t r e m e l y c o n s e r v a t i v e

    e s t i m a t e o f t h e s i z e o f a d i s c r e t e a p p r o x i m a t i o n t o t h e c o n t i n u o u s s t a t e s p a c e :

    2

    1 8

    1 2

    4 0

    1 1 8

    4

    1

    2 2

    s t a t e s .

    E a c h c a r h a s a s m a l l s e t o f p r i m i t i v e a c t i o n s . I f i t i s s t o p p e d a t a o o r , i t m u s t e i t h e r

    \ m o v e u p " o r \ m o v e d o w n " . I f i t i s i n m o t i o n b e t w e e n o o r s , i t m u s t e i t h e r \ s t o p

  • 8/3/2019 Elavator Problem Learning Reinforcement

    3/7

    a t t h e n e x t o o r " o r \ c o n t i n u e p a s t t h e n e x t o o r " . D u e t o p a s s e n g e r e x p e c t a t i o n s ,

    t h e r e a r e t w o c o n s t r a i n t s o n t h e s e a c t i o n s : a c a r c a n n o t p a s s a o o r i f a p a s s e n g e r

    w a n t s t o g e t o t h e r e a n d c a n n o t t u r n u n t i l i t h a s s e r v i c e d a l l t h e c a r b u t t o n s i n i t s

    p r e s e n t d i r e c t i o n . W e h a v e a d d e d t h r e e a d d i t i o n a l a c t i o n c o n s t r a i n t s i n a n a t t e m p t

    t o b u i l d i n s o m e p r i m i t i v e p r i o r k n o w l e d g e : a c a r c a n n o t s t o p a t a o o r u n l e s s

    s o m e o n e w a n t s t o g e t o n o r o t h e r e , i t c a n n o t s t o p t o p i c k u p p a s s e n g e r s a t a o o r

    i f a n o t h e r c a r i s a l r e a d y s t o p p e d t h e r e , a n d g i v e n a c h o i c e b e t w e e n m o v i n g u p a n d

    d o w n , i t s h o u l d p r e f e r t o m o v e u p ( s i n c e t h e d o w n { p e a k t r a c t e n d s t o p u s h t h e

    c a r s t o w a r d t h e b o t t o m o f t h e b u i l d i n g ) . B e c a u s e o f t h i s l a s t c o n s t r a i n t , t h e o n l y

    r e a l c h o i c e s l e f t t o e a c h c a r a r e t h e s t o p a n d c o n t i n u e a c t i o n s . T h e a c t i o n s o f t h e

    e l e v a t o r c a r s a r e e x e c u t e d a s y n c h r o n o u s l y s i n c e t h e y m a y t a k e d i e r e n t a m o u n t s o f

    t i m e t o c o m p l e t e .

    T h e p e r f o r m a n c e o b j e c t i v e s o f a n e l e v a t o r s y s t e m c a n b e d e n e d i n m a n y w a y s . O n e

    p o s s i b l e o b j e c t i v e i s t o m i n i m i z e t h e a v e r a g e w a i t t i m e , w h i c h i s t h e t i m e b e t w e e n

    t h e a r r i v a l o f a p a s s e n g e r a n d h i s e n t r y i n t o a c a r . A n o t h e r p o s s i b l e o b j e c t i v e i s

    t o m i n i m i z e t h e a v e r a g e s y s t e m t i m e , w h i c h i s t h e s u m o f t h e w a i t t i m e a n d t h e

    t r a v e l t i m e . A t h i r d p o s s i b l e o b j e c t i v e i s t o m i n i m i z e t h e p e r c e n t a g e o f p a s s e n g e r s

    t h a t w a i t l o n g e r t h a n s o m e d i s s a t i s f a c t i o n t h r e s h o l d ( u s u a l l y 6 s e c o n d s ) . A n o t h e r

    c o m m o n o b j e c t i v e i s t o m i n i m i z e t h e s u m o f s q u a r e d w a i t t i m e s . W e c h o s e t h i s

    l a t t e r p e r f o r m a n c e o b j e c t i v e s i n c e i t t e n d s t o k e e p t h e w a i t t i m e s l o w w h i l e a l s o

    e n c o u r a g i n g f a i r s e r v i c e .

    3 T H E A L G O R I T H M A N D N E T W O R K

    A R C H I T E C T U R E

    E l e v a t o r s y s t e m s c a n b e m o d e l e d a s d i s c r e t e e v e n t s y s t e m s , w h e r e s i g n i c a n t e v e n t s

    ( s u c h a s p a s s e n g e r a r r i v a l s ) o c c u r a t d i s c r e t e t i m e s , b u t t h e a m o u n t o f t i m e b e t w e e n

    e v e n t s i s a r e a l { v a l u e d v a r i a b l e . I n s u c h s y s t e m s , t h e c o n s t a n t d i s c o u n t f a c t o r

    u s e d i n m o s t d i s c r e t e { t i m e r e i n f o r c e m e n t l e a r n i n g a l g o r i t h m s i s i n a d e q u a t e . T h i s

    p r o b l e m c a n b e a p p r o a c h e d u s i n g a v a r i a b l e d i s c o u n t f a c t o r t h a t d e p e n d s o n t h e

    a m o u n t o f t i m e b e t w e e n e v e n t s ( B r a d t k e & D u , 1 9 9 5 ) . I n t h i s c a s e , r e t u r n s a r e

    d e n e d a s i n t e g r a l s r a t h e r t h a n a s i n n i t e s u m s , a s f o l l o w s :

    1

    X

    t = 0

    t

    r

    t

    b e c o m e s

    Z

    1

    0

    e

    r

    d

    w h e r e r

    t

    i s t h e i m m e d i a t e c o s t a t d i s c r e t e t i m e t r

    i s t h e i n s t a n t a n e o u s c o s t a t

    c o n t i n u o u s t i m e ( e . g . , t h e s u m o f t h e s q u a r e d w a i t t i m e s o f a l l w a i t i n g p a s s e n g e r s ) ,

    a n d c o n t r o l s t h e r a t e o f e x p o n e n t i a l d e c a y .

    C a l c u l a t i n g r e i n f o r c e m e n t s h e r e p o s e s a p r o b l e m i n t h a t i t s e e m s t o r e q u i r e k n o w l -

    e d g e o f t h e w a i t i n g t i m e s o f a l l w a i t i n g p a s s e n g e r s . T h e r e a r e t w o w a y s o f d e a l i n g

    w i t h t h i s p r o b l e m . T h e s i m u l a t o r k n o w s h o w l o n g e a c h p a s s e n g e r h a s b e e n w a i t i n g .

    I t c o u l d u s e t h i s i n f o r m a t i o n t o d e t e r m i n e w h a t c o u l d b e c a l l e d o m n i s c i e n t r e i n -

    f o r c e m e n t s . T h e o t h e r p o s s i b i l i t y i s t o u s e o n l y i n f o r m a t i o n t h a t w o u l d b e a v a i l a b l e

    t o a r e a l s y s t e m o n l i n e . S u c h o n l i n e r e i n f o r c e m e n t s a s s u m e o n l y t h a t t h e w a i t i n g

    t i m e o f t h e r s t p a s s e n g e r i n e a c h q u e u e i s k n o w n ( w h i c h i s t h e e l a p s e d b u t t o n

    t i m e ) . I f t h e P o i s s o n a r r i v a l r a t e f o r e a c h q u e u e i s e s t i m a t e d a s t h e r e c i p r o c a l o f

    t h e l a s t i n t e r { b u t t o n t i m e f o r t h a t q u e u e , t h e G a m m a d i s t r i b u t i o n c a n b e u s e d t o

    e s t i m a t e t h e a r r i v a l t i m e s o f s u b s e q u e n t p a s s e n g e r s . T h e t i m e u n t i l t h e n

    t h

    s u b s e -

    q u e n t a r r i v a l f o l l o w s t h e G a m m a d i s t r i b u t i o n 0 ( n

    1

    ) . F o r e a c h q u e u e , s u b s e q u e n t

    a r r i v a l s w i l l g e n e r a t e t h e f o l l o w i n g e x p e c t e d p e n a l t i e s d u r i n g t h e r s t b s e c o n d s a f t e r

    t h e h a l l b u t t o n h a s b e e n p r e s s e d :

  • 8/3/2019 Elavator Problem Learning Reinforcement

    4/7

    1

    X

    n = 1

    Z

    b

    0

    ( p r o b n

    t h

    a r r i v a l o c c u r s a t t i m e ) 1 ( p e n a l t y g i v e n a r r i v a l a t t i m e ) d

    =

    1

    X

    n = 1

    Z

    b

    0

    n

    n 1

    e

    ( n 0 1 ) !

    Z

    b

    0

    w

    2

    e

    ( w + )

    d w d =

    Z

    b

    0

    Z

    b

    0

    w

    2

    e

    ( w + )

    d w d :

    T h i s i n t e g r a l c a n b e s o l v e d b y p a r t s t o y i e l d e x p e c t e d p e n a l t i e s . W e f o u n d t h a t

    u s i n g o n l i n e r e i n f o r c e m e n t s a c t u a l l y p r o d u c e d s o m e w h a t b e t t e r r e s u l t s t h a n u s i n g

    o m n i s c i e n t r e i n f o r c e m e n t s , p r e s u m a b l y b e c a u s e t h e a l g o r i t h m w a s t r y i n g t o l e a r n

    a v e r a g e v a l u e s a n y w a y .

    B e c a u s e e l e v a t o r s y s t e m e v e n t s o c c u r r a n d o m l y i n c o n t i n u o u s t i m e , t h e b r a n c h i n g

    f a c t o r i s e e c t i v e l y i n n i t e , w h i c h c o m p l i c a t e s t h e u s e o f a l g o r i t h m s t h a t r e q u i r e

    e x p l i c i t l o o k a h e a d . T h e r e f o r e , w e e m p l o y e d a t e a m o f d i s c r e t e { e v e n t Q { l e a r n i n g

    a g e n t s , w h e r e e a c h a g e n t i s r e s p o n s i b l e f o r c o n t r o l l i n g o n e e l e v a t o r c a r . A n o t h e r a p -

    p l i c a t i o n u s i n g a t e a m o f Q { l e a r n i n g a g e n t s i s d e s c r i b e d i n ( M a r k e y , 1 9 9 4 ) . Q ( x a )

    i s d e n e d a s t h e e x p e c t e d i n n i t e d i s c o u n t e d r e t u r n o b t a i n e d b y t a k i n g a c t i o n a

    i n s t a t e x a n d t h e n f o l l o w i n g a n o p t i m a l p o l i c y ( W a t k i n s , 1 9 8 9 ) . B e c a u s e o f t h e

    v a s t n u m b e r o f s t a t e s , t h e Q { v a l u e s a r e s t o r e d i n f e e d f o r w a r d n e u r a l n e t w o r k s . T h e

    n e t w o r k s r e c e i v e s o m e s t a t e i n f o r m a t i o n a s i n p u t , a n d p r o d u c e Q { v a l u e e s t i m a t e s

    a s o u t p u t . W e h a v e t e s t e d t w o a r c h i t e c t u r e s . I n t h e p a r a l l e l a r c h i t e c t u r e , t h e a g e n t s

    s h a r e a s i n g l e n e t w o r k , a l l o w i n g t h e m t o l e a r n f r o m e a c h o t h e r ' s e x p e r i e n c e s a n d

    f o r c i n g t h e m t o l e a r n i d e n t i c a l p o l i c i e s . I n t h e f u l l y d e c e n t r a l i z e d a r c h i t e c t u r e , t h e

    a g e n t s h a v e t h e i r o w n n e t w o r k s , a l l o w i n g t h e m t o s p e c i a l i z e t h e i r c o n t r o l p o l i c i e s .

    I n e i t h e r c a s e , n o n e o f t h e a g e n t s h a v e e x p l i c i t a c c e s s t o t h e a c t i o n s o f t h e o t h e r

    a g e n t s . C o o p e r a t i o n h a s t o b e l e a r n e d i n d i r e c t l y v i a t h e g l o b a l r e i n f o r c e m e n t s i g n a l .

    E a c h a g e n t f a c e s a d d e d s t o c h a s t i c i t y a n d n o n s t a t i o n a r i t y b e c a u s e i t s e n v i r o n m e n t

    c o n t a i n s o t h e r l e a r n i n g a g e n t s .

    T h e a l g o r i t h m c a l l s f o r e a c h c a r t o s e l e c t i t s a c t i o n s p r o b a b i l i s t i c a l l y u s i n g t h e

    B o l t z m a n n d i s t r i b u t i o n o v e r i t s Q { v a l u e e s t i m a t e s , w h e r e t h e t e m p e r a t u r e i s l o w -

    e r e d g r a d u a l l y d u r i n g t r a i n i n g . A f t e r e v e r y d e c i s i o n , e r r o r b a c k p r o p a g a t i o n i s u s e d

    t o t r a i n t h e c a r ' s e s t i m a t e o f Q ( x a ) t o w a r d t h e f o l l o w i n g t a r g e t o u t p u t :

    Z

    t

    y

    t

    x

    e

    ( t

    x

    )

    r

    d + e

    ( t

    y

    t

    x

    )

    m i n

    b

    Q ( y b )

    w h e r e a c t i o n a i s t a k e n b y t h e c a r f r o m s t a t e x a t t i m e t

    x

    , t h e n e x t d e c i s i o n b y

    t h a t c a r i s r e q u i r e d f r o m s t a t e y a t t i m e t

    y

    , a n d r

    a n d a r e d e n e d a s a b o v e .

    e

    ( t

    y

    t

    x

    )

    a c t s a s a v a r i a b l e d i s c o u n t f a c t o r t h a t d e p e n d s o n t h e a m o u n t o f t i m e

    b e t w e e n e v e n t s . T h e l e a r n i n g r a t e p a r a m e t e r w a s s e t t o 1 o r 1 a n d w a s s e t

    t o 1 i n t h e e x p e r i m e n t s d e s c r i b e d i n t h i s p a p e r .

    A f t e r c o n s i d e r a b l e e x p e r i m e n t a t i o n , o u r b e s t r e s u l t s w e r e o b t a i n e d u s i n g n e t w o r k s

    f o r p u r e d o w n t r a c w i t h 4 7 i n p u t u n i t s , 2 h i d d e n s i g m o i d u n i t s , a n d t w o l i n e a r

    o u t p u t u n i t s ( o n e f o r e a c h a c t i o n v a l u e ) . T h e i n p u t u n i t s a r e a s f o l l o w s :

    1 8 u n i t s : T w o u n i t s e n c o d e i n f o r m a t i o n a b o u t e a c h o f t h e n i n e d o w n h a l l

    b u t t o n s . A r e a l { v a l u e d u n i t e n c o d e s t h e e l a p s e d t i m e i f t h e b u t t o n h a s

    b e e n p u s h e d a n d a b i n a r y u n i t i s o n i f t h e b u t t o n h a s n o t b e e n p u s h e d .

    1 6 u n i t s : E a c h o f t h e s e u n i t s r e p r e s e n t s a p o s s i b l e l o c a t i o n a n d d i r e c t i o n

    f o r t h e c a r w h o s e d e c i s i o n i s r e q u i r e d . E x a c t l y o n e o f t h e s e u n i t s w i l l b e o n

    a t a n y g i v e n t i m e .

  • 8/3/2019 Elavator Problem Learning Reinforcement

    5/7

    1 u n i t s : T h e s e u n i t s e a c h r e p r e s e n t o n e o f t h e 1 o o r s w h e r e t h e o t h e r c a r s

    m a y b e l o c a t e d . E a c h c a r h a s a \ f o o t p r i n t " t h a t d e p e n d s o n i t s d i r e c t i o n

    a n d s p e e d . F o r e x a m p l e , a s t o p p e d c a r c a u s e s a c t i v a t i o n o n l y o n t h e u n i t

    c o r r e s p o n d i n g t o i t s c u r r e n t o o r , b u t a m o v i n g c a r c a u s e s a c t i v a t i o n o n

    s e v e r a l u n i t s c o r r e s p o n d i n g t o t h e o o r s i t i s a p p r o a c h i n g , w i t h t h e h i g h e s t

    a c t i v a t i o n s o n t h e c l o s e s t o o r s .

    1 u n i t : T h i s u n i t i s o n i f t h e c a r w h o s e d e c i s i o n i s r e q u i r e d i s a t t h e h i g h e s t

    o o r w i t h a w a i t i n g p a s s e n g e r .

    1 u n i t : T h i s u n i t i s o n i f t h e c a r w h o s e d e c i s i o n i s r e q u i r e d i s a t t h e o o r

    w i t h t h e p a s s e n g e r t h a t h a s b e e n w a i t i n g f o r t h e l o n g e s t a m o u n t o f t i m e .

    1 u n i t : T h e b i a s u n i t i s a l w a y s o n .

    4 R E S U L T S

    S i n c e a n o p t i m a l p o l i c y f o r t h e e l e v a t o r d i s p a t c h i n g p r o b l e m i s u n k n o w n , w e m e a -

    s u r e d t h e p e r f o r m a n c e o f o u r a l g o r i t h m a g a i n s t o t h e r h e u r i s t i c a l g o r i t h m s , i n c l u d i n g

    t h e b e s t o f w h i c h w e w e r e a w a r e . T h e a l g o r i t h m s w e r e : S E C T O R , a s e c t o r { b a s e d

    a l g o r i t h m s i m i l a r t o w h a t i s u s e d i n m a n y a c t u a l e l e v a t o r s y s t e m s ; D L B , D y n a m i c

    L o a d B a l a n c i n g , a t t e m p t s t o e q u a l i z e t h e l o a d o f a l l c a r s ; H U F F , H i g h e s t U n a n -

    s w e r e d F l o o r F i r s t , g i v e s p r i o r i t y t o t h e h i g h e s t o o r w i t h p e o p l e w a i t i n g ; L Q F ,

    L o n g e s t Q u e u e F i r s t , g i v e s p r i o r i t y t o t h e q u e u e w i t h t h e p e r s o n w h o h a s b e e n

    w a i t i n g f o r t h e l o n g e s t a m o u n t o f t i m e ; F I M , F i n i t e I n t e r v i s i t M i n i m i z a t i o n , a r e -

    c e d i n g h o r i z o n c o n t r o l l e r t h a t s e a r c h e s t h e s p a c e o f a d m i s s i b l e c a r a s s i g n m e n t s t o

    m i n i m i z e a l o a d f u n c t i o n ; E S A , E m p t y t h e S y s t e m A l g o r i t h m , a r e c e d i n g h o r i z o n

    c o n t r o l l e r t h a t s e a r c h e s f o r t h e f a s t e s t w a y t o \ e m p t y t h e s y s t e m " a s s u m i n g n o n e w

    p a s s e n g e r a r r i v a l s . E S A u s e s q u e u e l e n g t h i n f o r m a t i o n t h a t w o u l d n o t b e a v a i l a b l e

    i n a r e a l e l e v a t o r s y s t e m . E S A / n q i s a v e r s i o n o f E S A t h a t u s e s a r r i v a l r a t e i n f o r m a -

    t i o n t o e s t i m a t e t h e q u e u e l e n g t h s . F o r m o r e d e t a i l s , s e e ( B a o e t a l , 1 9 9 4 ) . T h e s e

    r e c e d i n g h o r i z o n c o n t r o l l e r s a r e v e r y s o p h i s t i c a t e d , b u t a l s o v e r y c o m p u t a t i o n a l l y

    i n t e n s i v e , s u c h t h a t t h e y w o u l d b e d i c u l t t o i m p l e m e n t i n r e a l t i m e . R L p a n d

    R L d d e n o t e t h e R L c o n t r o l l e r s , p a r a l l e l a n d d e c e n t r a l i z e d . T h e R L c o n t r o l l e r s w e r e

    e a c h t r a i n e d o n 6 , h o u r s o f s i m u l a t e d e l e v a t o r t i m e , w h i c h t o o k f o u r d a y s o n a

    1 M I P S w o r k s t a t i o n . T h e r e s u l t s a r e a v e r a g e d o v e r 3 h o u r s o f s i m u l a t e d e l e v a t o r

    t i m e . T a b l e 2 s h o w s t h e r e s u l t s f o r t h e t r a c p r o l e w i t h d o w n t r a c o n l y .

    A l g o r i t h m A v g W a i t S q u a r e d W a i t S y s t e m T i m e P e r c e n t > 6 s e c s

    S E C T O R 2 1 . 4 6 7 4 4 7 . 7 1 . 1 2

    D L B 1 9 . 4 6 5 8 5 3 . 2 2 . 7 4

    B A S I C H U F F 1 9 . 9 5 8 4 7 . 2 . 7 6

    L Q F 1 9 . 1 5 3 4 4 6 . 6 . 8 9

    H U F F 1 6 . 8 3 9 6 4 8 . 6 . 1 6

    F I M 1 6 . 3 5 9 4 7 . 9 . 1 1

    E S A / n q 1 5 . 8 3 5 8 4 7 . 7 . 1 2

    E S A 1 5 . 1 3 3 8 4 7 . 1 . 2 5

    R L p 1 4 . 8 3 2 4 1 . 8 . 9

    R L d 1 4 . 7 3 1 3 4 1 . 7 . 7

    T a b l e 2 : R e s u l t s f o r D o w n { P e a k P r o l e w i t h D o w n T r a c O n l y

    T a b l e 3 s h o w s t h e r e s u l t s f o r t h e d o w n { p e a k t r a c p r o l e w i t h u p a n d d o w n t r a c ,

    i n c l u d i n g a n a v e r a g e o f 2 u p p a s s e n g e r s p e r m i n u t e a t t h e l o b b y . T h e a l g o r i t h m

  • 8/3/2019 Elavator Problem Learning Reinforcement

    6/7

    w a s t r a i n e d o n d o w n { o n l y t r a c , y e t i t g e n e r a l i z e s w e l l w h e n u p t r a c i s a d d e d

    a n d u p w a r d m o v i n g c a r s a r e f o r c e d t o s t o p f o r a n y u p w a r d h a l l c a l l s .

    A l g o r i t h m A v g W a i t S q u a r e d W a i t S y s t e m T i m e P e r c e n t > 6 s e c s

    S E C T O R 2 7 . 3 1 2 5 2 5 4 . 8 9 . 2 4

    D L B 2 1 . 7 8 2 6 5 4 . 4 4 . 7 4

    B A S I C H U F F 2 2 . 7 5 6 5 1 . 1 3 . 4 6

    L Q F 2 1 . 9 7 3 2 5 . 7 2 . 8 7

    H U F F 1 9 . 6 6 8 5 . 5 1 . 9 9

    E S A 1 8 . 5 2 4 5 . 1 . 5 6

    F I M 1 7 . 9 4 7 6 4 8 . 9 . 5

    R L p 1 6 . 9 4 7 6 4 2 . 7 1 . 5 3

    R L d 1 6 . 9 4 6 8 4 2 . 7 1 . 4

    T a b l e 3 : R e s u l t s f o r D o w n { P e a k P r o l e w i t h U p a n d D o w n T r a c

    T a b l e 4 s h o w s t h e r e s u l t s f o r t h e d o w n { p e a k t r a c p r o l e w i t h u p a n d d o w n t r a c ,

    i n c l u d i n g a n a v e r a g e o f 4 u p p a s s e n g e r s p e r m i n u t e a t t h e l o b b y . T h i s t i m e t h e r e i s

    t w i c e a s m u c h u p t r a c , a n d t h e R L a g e n t s g e n e r a l i z e e x t r e m e l y w e l l t o t h i s n e w

    s i t u a t i o n .

    A l g o r i t h m A v g W a i t S q u a r e d W a i t S y s t e m T i m e P e r c e n t > 6 s e c s

    S E C T O R 3 . 3 1 6 4 3 5 9 . 5 1 3 . 5

    H U F F 2 2 . 8 8 8 4 5 5 . 3 5 . 1

    D L B 2 2 . 6 8 8 5 5 . 8 5 . 1 8

    L Q F 2 3 . 5 8 7 7 5 3 . 5 4 . 9 2

    B A S I C H U F F 2 3 . 2 8 7 5 5 4 . 7 4 . 9 4

    F I M 2 . 8 6 8 5 5 3 . 4 3 . 1

    E S A 2 . 1 6 6 7 5 2 . 3 3 . 1 2

    R L d 1 8 . 8 5 9 3 4 5 . 4 2 . 4

    R L p 1 8 . 6 5 8 5 4 5 . 7 2 . 4 9

    T a b l e 4 : R e s u l t s f o r D o w n { P e a k P r o l e w i t h T w i c e a s M u c h U p T r a c

    O n e c a n s e e t h a t b o t h t h e R L s y s t e m s a c h i e v e d v e r y g o o d p e r f o r m a n c e , m o s t n o -

    t a b l y a s m e a s u r e d b y s y s t e m t i m e ( t h e s u m o f t h e w a i t a n d t r a v e l t i m e ) , a m e a s u r e

    t h a t w a s n o t d i r e c t l y b e i n g m i n i m i z e d . S u r p r i s i n g l y , t h e d e c e n t r a l i z e d R L s y s t e m

    w a s a b l e t o a c h i e v e a s g o o d a l e v e l o f p e r f o r m a n c e a s t h e p a r a l l e l R L s y s t e m . B e t -

    t e r p e r f o r m a n c e w i t h n o n s t a t i o n a r y t r a c p r o l e s m a y b e o b t a i n a b l e b y p r o v i d i n g

    t h e a g e n t s w i t h i n f o r m a t i o n a b o u t t h e c u r r e n t t r a c c o n t e x t a s p a r t o f t h e i r i n p u t

    r e p r e s e n t a t i o n . W e e x p e c t t h a t a n a d d i t i o n a l a d v a n t a g e o f R L o v e r h e u r i s t i c c o n -

    t r o l l e r s m a y b e i n b u i l d i n g s w i t h l e s s h o m o g e n e o u s a r r i v a l r a t e s a t e a c h o o r , w h e r e

    R L c a n a d a p t t o i d i o s y n c r a c i e s i n t h e i r i n d i v i d u a l t r a c p a t t e r n s .

    5 C O N C L U S I O N S

    T h e s e r e s u l t s d e m o n s t r a t e t h e u t i l i t y o f R L o n a v e r y l a r g e s c a l e d y n a m i c o p t i m i z a -

    t i o n p r o b l e m . B y f o c u s i n g c o m p u t a t i o n o n t o t h e s t a t e s v i s i t e d d u r i n g s i m u l a t e d

    t r a j e c t o r i e s , R L a v o i d s t h e n e e d o f c o n v e n t i o n a l D P a l g o r i t h m s t o e x h a u s t i v e l y

    s w e e p t h e s t a t e s e t . B y s t o r i n g i n f o r m a t i o n i n a r t i c i a l n e u r a l n e t w o r k s , i t a v o i d s

    t h e n e e d t o m a i n t a i n l a r g e l o o k u p t a b l e s . T o a c h i e v e t h e a b o v e r e s u l t s , e a c h R L

  • 8/3/2019 Elavator Problem Learning Reinforcement

    7/7

    s y s t e m e x p e r i e n c e d 6 , h o u r s o f s i m u l a t e d e l e v a t o r t i m e , w h i c h t o o k f o u r d a y s

    o f c o m p u t e r t i m e o n a 1 M I P S p r o c e s s o r . A l t h o u g h t h i s i s a c o n s i d e r a b l e a m o u n t

    o f c o m p u t a t i o n , i t i s n e g l i g i b l e c o m p a r e d t o w h a t a n y c o n v e n t i o n a l D P a l g o r i t h m

    w o u l d r e q u i r e . T h e r e s u l t s a l s o s u g g e s t t h a t a p p r o a c h e s t o d e c e n t r a l i z e d c o n t r o l

    u s i n g R L h a v e c o n s i d e r a b l e p r o m i s e . F u t u r e r e s e a r c h o n t h e e l e v a t o r d i s p a t c h i n g

    p r o b l e m w i l l i n v e s t i g a t e o t h e r t r a c p r o l e s a n d f u r t h e r e x p l o r e t h e p a r a l l e l a n d

    d e c e n t r a l i z e d R L a r c h i t e c t u r e s .

    A c k n o w l e d g e m e n t s

    W e t h a n k J o h n M c N u l t y , C h r i s t o s C a s s a n d r a s , A s i f G a n d h i , D a v e P e p y n e , K e v i n

    M a r k e y , V i c t o r L e s s e r , R o d G r u p e n , R i c h S u t t o n , S t e v e B r a d t k e , a n d t h e A N W

    g r o u p f o r a s s i s t a n c e w i t h t h e s i m u l a t o r a n d f o r h e l p f u l d i s c u s s i o n s . T h i s r e s e a r c h

    w a s s u p p o r t e d b y t h e A i r F o r c e O c e o f S c i e n t i c R e s e a r c h u n d e r g r a n t F 4 9 6 2 {

    9 3 { 1 { 2 6 9 .

    R e f e r e n c e s

    G . B a o , C . G . C a s s a n d r a s , T . E . D j a f e r i s , A . D . G a n d h i , a n d D . P . L o o z e . ( 1 9 9 4 )

    E l e v a t o r D i s p a t c h e r s f o r D o w n P e a k T r a c . T e c h n i c a l R e p o r t , E C E D e p a r t m e n t ,

    U n i v e r s i t y o f M a s s a c h u s e t t s , A m h e r s t , M A .

    S . J . B r a d t k e a n d M . O . D u . ( 1 9 9 5 ) R e i n f o r c e m e n t L e a r n i n g M e t h o d s f o r

    C o n t i n u o u s { T i m e M a r k o v D e c i s i o n P r o b l e m s . I n : G . T e s a u r o , D . S . T o u r e t z k y

    a n d T . K . L e e n , e d s . , A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s 7 , M I T

    P r e s s , C a m b r i d g e , M A .

    J . L e w i s . ( 1 9 9 1 ) A D y n a m i c L o a d B a l a n c i n g A p p r o a c h t o t h e C o n t r o l o f M u l t i s e r v e r

    P o l l i n g S y s t e m s w i t h A p p l i c a t i o n s t o E l e v a t o r S y s t e m D i s p a t c h i n g . P h D t h e s i s ,

    U n i v e r s i t y o f M a s s a c h u s e t t s , A m h e r s t , M A .

    K . L . M a r k e y . ( 1 9 9 4 ) E c i e n t L e a r n i n g o f M u l t i p l e D e g r e e { o f { F r e e d o m C o n t r o l

    P r o b l e m s w i t h Q u a s i - i n d e p e n d e n t Q - a g e n t s . I n : M . C . M o z e r , P . S m o l e n s k y ,

    D . S . T o u r e t z k y , J . L . E l m a n a n d A . S . W e i g e n d , e d s . , P r o c e e d i n g s o f t h e 1 9 9 3

    C o n n e c t i o n i s t M o d e l s S u m m e r S c h o o l . E r l b a u m A s s o c i a t e s , H i l l s d a l e , N J .

    G . T e s a u r o . ( 1 9 9 2 ) P r a c t i c a l I s s u e s i n T e m p o r a l D i e r e n c e L e a r n i n g . M a c h i n e

    L e a r n i n g 8 : 2 5 7 { 2 7 7 .

    G . T e s a u r o . ( 1 9 9 4 ) T D { G a m m o n , a S e l f { T e a c h i n g B a c k g a m m o n P r o g r a m , A c h i e v e s

    M a s t e r - L e v e l P l a y . N e u r a l C o m p u t a t i o n 6 : 2 1 5 { 2 1 9 .

    G . T e s a u r o . ( 1 9 9 5 ) T e m p o r a l D i e r e n c e L e a r n i n g a n d T D { G a m m o n . C o m m u n i c a -

    t i o n s o f t h e A C M 3 8 : 5 8 { 6 8 .

    C . J . C . H . W a t k i n s . ( 1 9 8 9 ) L e a r n i n g f r o m D e l a y e d R e w a r d s . P h D t h e s i s , C a m -

    b r i d g e U n i v e r s i t y .