Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

Embed Size (px)

Citation preview

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    1/6

    S Y N T A C T I C A N A L Y S I S O F N A T U R A L L A N G U A G E U S I N GL I N G U I S T I C R U L E S A N D C O R P U S - B A S E D P A T T E R . N S

    P a s i T a p a n a i n e n T i m o J ~ r v in e nRan k Xero x Res ea rch Cen t re

    G ren o b l e L ab o ra t o ryUn iversi ty of t Iels inki

    Research U ni t for C omp utat ional L inguist i csA b s t r a c t

    W e a r e c o n c e r n e d w i t h t h e s y n t a c t i c a n n o t a t i o no f u n r e s t r i c t e d t e x t . W e c o m b i n e a r u l e - b a s e da n a l y s i s w i t h s u b s e q u e n t e x p l o i t a t i o n o f e m p i r i -c a l d a t a . T h e r u l e ~ b as e d s u r f a c e s y n t a c t i c a n a l -y s e r l e a v e s s o m e a m o u n t o f a m b i g u i t y i n t h e o u t -p u t t h a t i s r e s o l v e d u s i n g e m p i r i c a l p a t te r n s . W eh a v e i m p l e m e n t e d a s y s t e m f o r g e n e r a t i n g a n da p p l y i n g c o r p u s - b a s ed p a t t e r n s . S o m c p a tt e r n sd e s c r i b e t h e m a i n c o n s t i t u e n t s i n t h e s e n t e n c ea n d s o m e t h e l o c a l c o n t e x t o f t h e e a c h s y n t a c -t i c f u n c t i o n . T h e r e a r e s e v e r a l ( p a r t l y ) r e d m l -t a n t p a t t e r n s , a n d t h e " p a t t e r n " p a r s e r s e l ec t sa n a l y s i s o f t h e s e n t e n c e t t m t m a t c h e s t h e s t r i c t e s tp o s s i b l e p a t t e r n ( s ) . T h e s y s t e m i s a p p l i e d to a ne x p e r i m e u t a l c o r p u s . W e p r e s e n t t h e re s u l t s a n dd i s c u s s p o s s ib l e r e f i n e m e n t s o f t h e m e t h o d f r o ma l i n g u i s t i c p o i n t o f v i e w .

    1 I N T R O D U C T I O NW e d i s cu s s s u r f a c e - s y n t a c t i c a n a l y s i s o f r u n n i n g t e x t .O u r p u r p o s e i s t o m a r k e a c h w o r d w i t h a s y n t a c t i ct a g . T h e t a g s d e n o t e s u b j e c t s , o b j e c t , m a i n v e r b s,a d v e r b i a l s , e tc . T h e y a r e li s t e d i n A p p e n d i x A .O u r m e t h o d i s r o u g h l y f o l lo w i n g A s s i g n t o e a c h w o r d a l l t h e p o s s i b le s y n t a c t i c t a g s . D i s a m b i g u a t e w o r d s a s m u c h a s p o s s ib l e u s in g li n -g u i s t i c i n f o r m a t i o n ( h a n d - c o d e d r u l e s ) . I l e r e w ea v o i d r i s k s ; w e r a t h e r l e a v e w o r d s a m b i g u o u s t h a n

    g u e s s w r o n g . U s e g l o b a l p a t t e r n s t o f o r m a l t e r n a t i v e s e n t e n c el ev e l read i n g s . Th o se a lt ern at iw~ " an a l y se s a re se -l e c t e d t h a t m a t c h t h e s t r i c t e s t g l o b a l p a t t e r n . [ f i td o e s n o t a c c e p t a n y o f t h e r e m a i n i n g r e a d i n g s, t h es e c o n d s t r i c t e s t p a t t e r n i s u s e d , a n d s o on . U s e lo c a l p a t t e r n s t o r a n k t h e r e m a i n i n g r e a d i n g s .T h e l o c a l p a t t e r n s c o n t a i n p o s s i b le c o n t e x t s f o r s y n -t a c t i c f u n c t i o n s . T h e r a n k i n g o f t h e r e a d in g s d e -p e n d s o n t h e l e n g t h o f t h e c o n t e x t s a s s o c i a t e d w i t ht h e s y n t a c t i c f u n c t i o n s o f t h e s e n t e c e .

    W e u s e b o t h l i n g u i s t i c k n o w l e d g e , r e p r e s e n t e d a sr u l e s , a n d e m p i r i c a l d a t a c o l l e c t e d f r o m t a g g e d c o r -p o r a . W e d e s c r i b e a n e w w a y t o c o l l e c t i n f o r m a t i o nf r o m a t a g g e d c o r p u s a n d a w a y t o a p p l y i t. I n t hi sp a p e r , w e ar e m a i n l y c o n c e r n e d w i t h e x p l o i t i n g t h ee m p i r i c a l d a t a a n d c o m b i n i n g t w o d i f f e r e n t k i n d s o fp a r s e r s .

    *This work was done whe n the author worked in theResearch U ni t for Compu tat iona l Linguist ics a t the Uni-versity of Itelsinki.

    O u r w o r k is b a s e d o n w o r k do n e w i t h E N G C G ,the Constraint Gra mm ar Parser of English [Kar l s -son, 1990; Karlsson, 1994; Karlsson e t a l . , 1994;V o u t i l a i n e n , 1 99 4] . I t i s a r u l e - h ~ e d t a g g e r a n ds u r f a c e - s y n t a c t i c p a r s e r t h a t m a k e s a v e r y s m a l l n u m -h e r o f er r o r s b u t l e a v es s o m e w o r d s a m b i g u o u s i . e. i tp r e f e r s a m b i g u i t y t o g u e s s i n g w r o n g . T h e m o r p h o l o g -i ca l p a r t -o f - sp eech a n a l y se r l eav es [Vo u t i l a i n en et al.,1 9 92 ] o n l y 0 .3 % o f a l l wo rd s i n ru n n i n g t ex t wi t h o u tt h e c o r r e c t a n a l y s is w h e n 3 - 6 % o f w o r d s s t il l h a v et wo o r In o re I an a l y ses .

    Vo n t i l a i n en , I l e i k k i l ' 5 . an d An t t i l a [1 9 9 2 ] rep o r t edt h a t t h e sy n t a c t i c an a l y se r l eav es : 3-3 .5 % o f wo rd sw i t h o u t t h e c o r r e c t s y n t a c t i c t a g , a n d 1 5 - 2 0 % o fw o r d s r e m a i n a m h i g u o s . C u r r e n t l y , t h e e r r o r r a t e h a sb e e n d e c r e a s e d t o 2 - 2 . 5 % a n d a m b i g u i t y r a t e t o 1 5 %b y T i rao J i i rv i n en [1 9 9 4 ] , wh o i s re sp o n s i b l e fo r t ag -g i n g a 2 00 m i l l i o n w o r d c o r p u s u s i n g I ' ] N G C G i n t h eBank of English p r o j e c t .

    A l t h o u g h t , t h e E N G C G p a r s e r w o r k s v e r y w e ll i np a r t - o f - s p e e c h t a g g i n g , t h e s y n t a c t i c d e s c r i p t i o n s a r es t i ll p r o b l e m a t i c . I n th e c o n s t r a i n t g r a m m a r f r a m e -w o r k , i t i s q u i te h a r d t o m a k e l i n g u i s ti c g e n e r a l i s a t i o n st h a t c a n b e a p p l i e d r e li a b l y . T o r e s o lv e t h e r e m a i n i n ga m b i g u i t y w e g e n e r a t e , b y u s in g a t a g g e d c o r p u s , ak n o w l e d g e - b a s e t h a t c o n t a i n s i n f o r m a t i o n a b o u t b o t ht h e g e n e r a l s tr u c t u r e o f t h e s e n t e n c es a n d t h e l o c a lc o n t e x t s o f t i m s y n t a c t i c t a g s . T h e g e n e r a l s t r u c t u r ec o n t a i n s i n f o r m a t i o n a b o u t w h e r e , f o r e x a m p l e , s u b -j e c t s , o b j e c t s a n d m a i n v e r b s a p p e a r a n d h o w t h e yf o l lo w o n e a n o t h e r . I t d o e s n o t p a y a n y a t t e n t i o n t ot h e i r p o t e n t i a l m o d i l i e r s . T h e m o d i f i e r - h e a d r e l a t i o n sa re re so l v ed b y u s i n g t h e l o ca l co n t ex t i . e . b y l o o k i n ga t w h a t k i n d s o f w o r d s t h e r e a r e i n th e n e i g h b o u r -h o o d .

    T h e m e t h o d i s r o b u s t i n t h e s e n se t h a t i t is a h l et o h an d l e v e ry l a rg e co rp o ra . Al t h o u g h ru le -b ~ m edp arse rs u su a l l y p e r l b r rn s l o wl y , 0 ro t i s n o t t h e ca .q ew i t h E N G C G . W i t h t h e E n g l i sh g r a m m a r , t h e C o n -s t r a i n t G r a n u n ; ~ r P a r s e r i m p l e m e n t a t i o n b y P a s i T a -p a n a i n e n a n a l y s e s 4 0 0 w o r d s 2 p e r s e c o n d o n a S p a r e -S t a t i o n 1 0 /: 30 . q ' h a t i s , o n e m i l l i o n wo rd s a re p ro -cessed i n ab o u t 4 0 m i n u t e s . ' l ' h e p a t t e rn p a rse r fo re m p i r i c a l p a t t e r n s r u n s s o m e w h a t s lo w e r , a b o u t 1 00w o r d s p e r s e c o n d .

    1But even then som e of ti le original ,xlternative analysesare removed'2InchMing all steps of preprocessing, morphologlcManalysis , d isambiguat ion and syntact ic analysis. Thespeed of morphological dis amb lguatio n alone exceeds 1000words per second.

    (,29

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    2/6

    2 K N O W L E D G E A C Q U I S I T I O NW e h a v e u s e d t w o s c h e m e s t o e x t r a c t k n o w l e d g e f r o mc o r p o ra . B o t h p r o d u c e r e a d a b l e p a t t e r n s t h a t c a n b ev e r i f i e d b y a l i n g u i s t . I n t h e f i r s t s c h e m e , s e n t e n c e sa r e h a n d l e d a s u n i t s a n d i n f o r m a t i o n a b o u t t h e s tr u c -t u r e o f t h e s e n t e n c e i s e x t r a c t e d . 0 n l y t h e m a i n c o n -s t i t u e n t s ( l i k e s u b j e c t , o b j e c t s ) o f t h e s e n t e n c e a r et r e a t e d a t t h i s s t a g e . T h e s e c o n d s c h e m e w o rk s w i t hl o c a l c o n t e x t a n d l o o k s o n l y a f ew w o r d s t o t h e r i g h ta n d t o t h e l e ft . I t i s u s e d t o r e s o l v e t h e n m d i f i e r - t , e a dd e p e n d e n c i e s i n t h e p h r a s e s .F i r s t , w e f o r m a n a x i s o f t h e se n t e n c e u s i n g s o m eg i v e n s e t o f s y n t a c t i c t a g s . W e c o l l ec t s e v e ra l l a y e rso f p a t t e r n s t h a t m a y b e p a r t l y r e d u n d a n t w i t h e ac ho t h e r . F o r i n s t a n c e , s i m p l i f y i n g a li t t le , w e c a n sa yt h a t a s e n t e n c e c a n b e o f t h e f o r m su b j e c l - - m a i nverb a n d t h e r e m a y b e o t h e r w o r d s b e f o r e a n d a f t e rt h e s u b j e c t a n d m a i n v e r b . W e m a y a l so s a y t h a ta s e n t e n c e c a n b e o f t h e f o r m su b j e c t - - m a i n v e rb- - o b j e c t . T h e l a t t e r i s t o t a l l y c o v e r e d b y t h e f o r m e rb e c a u s e t h e f o r m e r s t a t e m e n t d o e s n o t p r o h i b it t h ea p p e a r a n c e o f a n o b j e c t b u t d o e s n o t r e q u i r e i t e i t h e r .

    T h e r e d u n d a n t p a t t e r n s a r e c ol l ec t e d o n p u r p o se .D u r i n g p a r s i n g w e t r y t o f i n d t h e s t r i c t e s t f r a m e f o rt h e se n t e n c e . I f w e c a n n o t a p p l y s o m e p a t t e r n b e -c a u s e i t c o n f li c t s w i t h t h e s e n t e n c e , w e m a y u s e o t h e r ,p o s s i b l y m o r e g e n e r a l , p a t t e r n . F o r i n s t a n c e , a n a x ist h a t d e s c r i b e s a l l a c c e p t e d c o m b i n a t i o n s o f s u b j e c t ,o b j e c t s a n d m a i n v e r b s i n t h e s e n t e n c e , i s s t r i c t e rt h a n a n a x i s t h a t d e s c r i b e s a ll a c c e p t e d c o m b i n a t i o n so f s u b j e c t s a n d m a i n v e r b s.

    A f t e r a p p l y i n g t h e a x e s , t h e p a r s e r ' s o u t p u t i s us u -a l l y s t i l l a m b i g u o u s b e c a u s e a l l s y n t a c t i c t a g s a r e n o tt a k e n i n t o a c c o u n t y e t ( w e d o n o t h a n d l e , f o r i n s t a n c e ,d e t e r m i n e r s a n d a d j e c t i v e p r e m o d i f i e r s h e r e ) . T h e r e -m a i n i n g a m b i g u i t y is r e s o l v e d u s i n g l o c a l i n f o r m a t i o nd e r i v e d f r o m a c o r p u s . T h e s e c o n d p h a s e h a s a m o r ep r o b a b i l i s t i e f ia v o u r , a l t h o u g h n o a c t u a l p r o b a b i l i t i e sa r e c o m p u t e d . W e r e p r e s e n t i n f o r m a t i o n in a r e a d a b l ef o r m , w h e r e a l l p o s s i b l e c o n t e x t s , t h a t a r e c o m m o ne n o u g h , a r e l i s t e d f o r e a c h s y n t a c t i c t a g . T h e l e n g t ho f t h e c o n t e x t s m a y v a r y . T h e c o m m o n c o n t e x t s a r cl o n g e r t h a n t h e r a r e o n e s . I n p a r s i n g , w e tr y t o f in da m a t c h f o r e a c h w o r d i n a m a x i m a l l y l o n g c o n t e x t.B r ie f ly , t h e r e l a t i o n b e t w e e n t i m a x e s a n d t h e j o i n t si s f o l lo w i n g . T h e a x e s f o rc e s e n t e n c e s t o c o m p l y w i t ht h e e s t a b l i s h e d f r a m e s . I f m o r e t h a n o n e p o s s i b i l i t y i sf o u n d , t h e j o i n t s a r e u s e d t o r a n k t h e m .2 . 1 T h e s e n t e n c e a x i sI n t h i s s e c t io n w e p r e s e n t a n e w m e t h o d t o c o l l e c ti n f o r m a t i o n f r o m a t a g g e d c o r p u s . W e d e f in e a n e wc o n c e p t , a se n t e n c e a x i s . T h e s e n t e n c e a x i s is a p a t -t e r n t h a t d e s c r i b e s t h e s e n t e n c e s t r u c t u r e a t a n a p -p r o p r i a t e l e v e l . W e u s e i t t o s e l e c t a g r o u p o f p o s s i b l ea n a l y s e s fo r t h e s e n t e n c e . I n o u r i m p l e m e n t a t i o n , w ef o r m a g r o u p o f s e n t e n c e a x e s a n d t h e p a r s e r s e l e c t s,u s i n g t h e a x e s , t h o s e a n a l y s e s o f t h e s e n t e n c e t h a tm a t c h a l l o r a s m a n y a s p o s s i b l e s e n t e n c e a x e s .

    W e d e f i n e t h e s e n t e n c e a x i s i n t h e f o l l o w i n g w ay .L e t S b e a s e t o f s e n t e n c e s a n d T a, s e t o f s y n t a c t i ct a g s . T h e se n t e n c e a x i s o f S a c c o r d i n g t o t a g s T s h o w st h e o r d e r o f a p p e a r a n c e o f a n y t a g i n T f o r e v e r y s en -t e n c e i n S .

    I t e re , w e w i l l d e m o n s t r a t e t h e u s a g e o f a s e n t e n c ea x i s w i t h o n e s e n t e n c e . I n o u r r e a l a p p l i c a t i o n w e ,o f c o u rs e , u s e m o r e t e x t t o b u i l d u p a d a t a b a s e o fs e n t e n c e a x e s . C o n s i d e r t h e f o l l o w i n g s e n t e n c e a

    I S U B J w o u l d _ + F A U X V a l s o _ A D V Li n c r e a s e _ - F M A I N V c h il d N N > benefiLOBa ,g i v e _ - F M A I N V s o m e _ Q N > h e lp O B Jt 0 _ A I ) V L t h e 1 )N > c a r _ N N > i n d u s t r y < Pa nd C C r e l a x _ - F M A I N V r ~ ,l es O B ag o v e r n i n g _ < N O M - F M A i N V Ioc al A N >a v t h o r i t y _ N N > c a p i t a l _ A N > r e e e i p t s O B J ,a l I o w i n g _ - F M A I N V c o u n c i l s S U B J/ o _ I N F M A I { K > s p e n d _ - F M A I N V m o r e A D V L .

    T h e a x i s a c c o r d i n g t o t h e m a n u a l l y d e f i n e d se t T ={ S U B J + F A U X V + F M A I N V }

    is . . S U B J + F A U X V . . . S U B J . . .

    w h i c h s h o w s w h a t o r d e r t h e e l e m e n t s o f s e t T a p -p e a r i n t h e s e n t e n c e a b o v e , a n d w h e r e t h r e e ( l o t sm e a n t h a t t h e r e m a y b e s o m e t h i n g b e t w e e n w o r d s,e .g . + F A U X V i s n o t f o l l o w e d ( i n t t f is c ~ e ) i m m e d i -a t e l y b y S U B J . W h e n w e h a v e m o r e t h a n o ne . s e n -t e n c e , t t m a x i s c o n t a i n s m o r e t h a n o n e p o s s i b le o r d e rf o r t h e e l e m e n t s o f se t T .

    T h e a x i s w e h a v e e x t r a c t e d i s q u i t e g e n e r a l. I t d e -f in e s t h e o r d e r i n w h i c h t h e f i n i t e v e rb s a n d s u b j e c t si n t h e se n t e n c e m a y o c c u r b u t i t d o e s n o t s ay a n y t h i n ga b o u t n m d l n i t e v e r b s i n th e se n t e n c e . N o t i c e t h a t t h es e c o n d s u b j e c t i s n o t a c t u a l l y t t , e s u b j e c t o f t h e fi -n i t e c l au s e , b u t t h e s u b j e c t o f n o n t i n i t e c o n s t r u c t i o ncounci l s to spend more . T h i s i s i n c o n v e n i e n t , a n d aq u e s t i o n a r i s e s w h e t h e r t h e r e s h o u l d b e a s p e c i f i c t a gt o m a r k s u h j e c t s o f t h e n o n l l n i t e cl a u se s . V o u t i l a i n e na n d T a p a n a i n c n [ 19 93 ] a r g u e d t h a t t h e r i c h e r s e t o ft a g s c o u l d m a k e p a r s i n g m o r e a c c u r a t e i n a ru l e - b a s e ds y s t e m . I t m a y b e t r u e h e . r e a s w e l l .

    W e c a n a l s o s p e c if y a n a x i s f o r v e r b s o f t h e s e n t e n c e .' F h u s t h e a x i s a c c o r d i n g t o t i m s e t

    { + F A U X V + F M A I N V- F M A I N V I N F M A I { ,K > }

    is. . . . kF A U X V . . . . . F M A I N V . . . . . F M A I N V. . . . F M A I N V . . . . . F M A I N V . , . I N F M A R , K >- F M A I N V . .

    T h e n o n l i n i t e v e r b s o c c u r i n t h i s a x i s f o u r t i m e s ona f t e r a n o t h e r . W e d o n o t w a n t j u s t t o l i s t h o w m a n yt i m e s a n o n l l n i t e v e r b m a y o c c u r ( o r o c c u r s i n a c o r-p u s ) i n t h i s k i n d o f p o s i t i o n , s o w e c l e a r l y n e e d s o m eg e n e r a l i s a t i o n s .

    T h e f u n d a m e n t a l ru l e o f g e n e ra l i sa t i o n t h a t w e u s e di s t h e f o ll o w i ng : A n y t h i n g t h a t i s r e p e a t e d m a y b er e p e a t e d a n y n u m b e r o f t i m e s .

    W e m a r k t h i s u s i n g l )r a c k e ts a n d a p l u s s i g n. T h eg e n e r a l i s e d a x i s f o r t h e a b o v e a x i s i s . . + F A U X V [ . . . . F M A I N V ] + . . I N I , ' M A R K > - F M A I N V . . .a T h e t a g s e t is a d a p t e d f r o m t h e C o n s t r a i n t G r a m m a ro f E n g l i sh a s it i s . I t i s mo r e ex ten s iv e th an co mm o n lyu s ed in t ag g ed co r p o r a p r o j ec t s ( s ee Ap p en d ix A) .

    6 3 0

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    3/6

    We can also repeat longer sequences, for instance theset

    { --FMAINV

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    4/6

    I t e x t . II w o r d s ] a m b i g u i t y r a t e I e r r or r a t e ]bb l 1734 ' 12 .4 % 2 .4 %bb2 1674 14 .2 % 2 .8 %1599 18.6 % 1.6 %wsj " 2309 16 .2 % 2 .9 %

    ] . t o t a l l ] 7 3 1 6 I 1 5. 3 % ] 2 . 2 % - 1F i g u r e 1 : T e s t c o r p o r a a f t e r s y n t a c t i c a l a n a ly s i s o fE N G C G .

    3 E X P E R I M E N T S W I T H R E LC O R P O R

    I n f o r m a t i o n c o n c e r n i n g t h e a x e s w a s a c q u i r e d f r o m am a n u a l l y c h e c k e d a n d f u l l y d i s a m b i g u a t e d c o r p u s 5 o fa b o u t 3 0 , 0 0 0 w o r d s a n d 1 , 30 0 s e n t e n c e s . L o c a l c o n -t e x t i n f o r m a t i o n w a s d e r i v e d f r o m c o r p o r a t h a t w e r ea n a l y s e d b y E N G C G . W e g e n e r a te d t h r ee d i f fe r en tp a r s e r s u s i n g t h r e e d i f f e r e n t c o r p o r a 6 . E a c h c o r p u sc o n t a i n s a b o u t 1 0 m i l l i o n w o r d s .F o r e v a l u a t i o n w e u s e d f o u r t e s t s a m p l e s ( i n F i g -u r e 1 ) . T h r e e o f t h e m w e r e ta k e n f r m n c o r p o r a t h a tw e u s e d t o g e n e r a t e t h e p a r s e r s a n d o n e i s a n a d d i -t i o n a l s a m p l e . T h e s a m p l e s t h a t a r e n a m e d bbl , todaya n d w s j b e l o n g t o t h e c o r p o r a f r o m w h i c h t h r e e d i f -f e r e n t j o i n t p a r s e r s , c a l l e d B B 1 , T O D A Y a n d W S Jr e s p e c t i v e l y , w e r e g e n e r a t e d . S a m p l e bb~ i s t h e ad d i -t i o n a l s a m p l e t h a t i s n o t u s e d d u r i n g d e v e l o p m e n t o ft h e p a r s e r s .T h e a m b i g u i t y r a t e t e l l s u s h o w m u c h a m b i g u i t y i sl e f t a f t e r E N G C G a n a l y s i s , i .e . h o w m a n y w o r d s s t i llh a v e o n e o r m o r e a l t e r n a t i v e s y n t a c t i c t a g s . T h e e r r o rr a t e s h o w s u s h o w m a n y s y n t a c t i c e r r o r s E N G C G h a sm a d e w h i l e a n a l y s i n g t h e t e x t s . N o t e t h a t t h e a m b i -g u i t y d e n o t e s t h e a m o u n t o f w o r k t o b e d o n e , a n d t h ee r r o r r a t e d e n o t e s t h e n u m b e r o f e r r o r s t h a t a l r e a d ye x i s t i n t h e i n p u t o f o u r p a r s e r .A l l t h e s a m p l e s w e r e a n a l y s e d w i t h e a c h g e n e r a t e dp a r s e r ( i n F i g u r e 2 ) . T h e i d e a i s t o f in d o u t a b o u tt h e e f f e c t s o f d i ff e r e n t t e x t t y p e s o n t h e g e n e r a t i o no f t h e p a r s e r s . T h e p r e s e n t m e t h o d i s a p p l i e d t o r e -d u c e t h e s y n t a c t i c a m b i g u i t y t o z e ro . S u c c e ss r a t e sv a r i a t e f r o m 8 8 . 5 % t o 9 4 . 3 % i n d i t f e r e n t s a m p l e s .T h e r e i s m a x i m a l l y a 0. 5 p e r c e n t a g e p o i n t s d i f fe r e n c ei n t h e s u c c e s s r a t e b e t w e e n t h e p a r s e r s w h e n a p p l i e dt o th e s a m e d a t a . A p p l y i n g a p a r s e r t o a s a m p l e f r o mt h e s a m e c o r p u s o f w h i c h i t w a s g e n e r a t e d d o e s n o tg e n e r a l l y s h o w b e t t e r r e s u l t s .S o m e o f t h e d i s t i n c ti o n s l e f t o p e n b y E N G C G m a yn o t b e s t r u c t u r a l l y r e s o l v a b l e ( s e e [ K a r ls s o n et al.,1 9 94 ]) . A case i n p o i n t i s t h e p rep o s i t i o n a l a t t ach -m e n t a m b i g u i t y , w h i c h a l o n e r e p r e s e n t s a b o u t 2 0 %o f t h e a m b i g u i t y in t h e E N G C G o u t p u t . T h e p r o p e rw a y t o d e a l w i t h i t i n th e C G f r a m e w o r k i s p r o b a b l yu s i n g l e x i c a l i n f o r m a t i o n .T h e r e f o r e , a s l o n g a s t h e r e s t i l l i s s t r u c t u r a l l y u n -r e s o l v a b l e a m b i g u i t y i n t h e E N G C G o u t p u t , a c e r-t a i n a m o u n t o f p r o c e s s i n g b e f o r e t h e p r e s e n t s y s t e m

    SOonsist ing of 15 ind ividual texts from the B ank o fEnglish project [J~ .rv inen, 1994]. The texts were chosento cover a varie ty of text types but due to smal l s ize andintui t ive sampl ing i t cannot be t ru ly representat ive.6We use here To day newsp aper, The t" ,conomist -k Wal lSt reet Journal and Bri t i sh Books.

    _T_Text ~ s e r s[ r i B 1 . I T O D Y~ ~ 92 .5% [ 9 2 ~

    %__1 91.9-W-oF i g u r e 2 : O v e r a l l p a r s i n g s u c ce s s r a t e i n s y n t a c t i c a l l ya m d y s e d s a m p l e s

    m i g h t i m p r o v e t h e r e s u l ts c o n s i d e r a b ly , e . g . , c o n v e r t -i n s s t r u c t u r a l l y u n r e s o l v a b l e s y n t a c t i c t a g s t o a s i n g l eu n d e rsp e c i f i ed t ag . [ ,' or i n s t an ce , re so l v i n g p rep o s i -t i on a l a t t a c h m e n t a m b i g u i t y b y o th e r m e a n s w o u l di r u p r o v e t h e s u c c e ss r a t e o f th e c u r r e n t s y s t e m t o9 0 .5 % - 9 5 .5 % . I n t h e w s j s a m p l e t tL e i m p r o v e m e n two u l d b e a s m u ch a . s 2 .0 p e rcen t ag e p o i n t s .Th e d i f fe ren ces b e t ween su ccess ra t e s i n d i f fe ren ts a m p l e s a r e p a r t l y e x p l a i n e d b y t i l e e r r o r t y p e s t h a ta r e c h a r a c t e r i s ti c o f t h e s a m p l e s . F o r e x a m p l e , i nt h e W al l S t ree t Journa l a d v e r b i a l s o f t i m e a r e e a s i l yp a r s e d e r r o n e o u s l y . T h i s m a y c a u s e a n a c c u m u l a t i o ne f fec t , ms h ap p en s i n t i l e fo l l o wi n g sen t en ce

    M A N A G T u e s d a y s a i d f i s c a l 1 9 8 9 n e t i n c o m ero se 2 5 % an d sa i d it , wi l l ra ise i t s d i v i d en d fo rl he year ended June 30 b y a b o u t t h e s a m ep e r c e n t a g e .T i l e p h r a s e t he year ended June 30 g e t s t h e an a l y s i s

    t h e _ D N > y e a r _ N N > e n d e d _ A N >J u n e _ N N > 3 0 _ < Pwh i l e t h e co r rec t (o r wan t ed ) re su l t i s

    l h e D N > y e a r _ < P e n d e d _ < N O M - F M A I N VJ u n e _ A D V L 3 0 < N O MD i f f e r e n t k in d o f e r r o r s a p p e a r i n t e x t bb wh i ch co n -t a i n s i n c o m p l e t e s e n t e n c e s . T h e p a r s e r p r e f e r s c o m -p l e t e sen t en ces an d p ro d u ces e r ro rs i n sen t en ces l i k e

    T h e r e w ~ s P r o v e n c e i n m i d - a u t u m n . Gold Zints.A i r s o s e r e n e y o u c o u l d l o o k o u t o v e r t h e s e a f o rt en s o f m i l e s . R ehab i l i t a l i on wa lks w i t h h i ma l o n g t i m w o o d l a n d l)aths.

    T h e e r r o r s a r e : gold t ints i s parsed a .s s v b j e e l - m a i nverb ~s well ~m r 'ehabi l ilation walks, and air i s an a l y sed,a s a m a i n v e r b, O t h e r w o r d s h a v e t h e a p p r o p r i a t ean a l y ses .T h e s t r i c t s e q u e n t i a l i t y o f m o r p h o l o g i c a l a n d s y n -t a c t i c a n a l y s i s in E N G C G d o e s n o t a ll o w t h e u s e o fs y n t a c t i c i n f o r m a t i o n i n m o r p h o l o g i c a l d i s a m b i g u a -t i o n . T h e p r e s e n t m e t h o d m a k e s i t p o s s i b le t o p r u n et h e r e m a i n i n g m o r p h o l o g i c a l a m b i g u i t ie s , i .e . d o s o m ep a r t - o f - s p e e c h ta g g i n g . M o r p h o l o g i c a l a m b i g u i t y re -m a i n s u n r e s o N e d i f t h e c h o s e n s y n t a c t i c t a g i s p r e s e n ti n t w o o r m o r e m o r p h o l o g i c a l r e a d in g s o f th e s a m ew o r d . M o r p h o l o g i c a l a m b i g u i t y 7 i s r e d u c e d c l o s e t oz e r o ( a b o u t 0 . 3 % i n a ll t h e s a m p l e s t o g e t h e r ) a n d t h eo v e r a l l s u c c es s r a t e o f E N G C G + o u r p a t t e r n p a r s e ri s 9 8 .7 %.

    r After EN GC G the amoun t of nmrphologic ' ,d am bigui tyin the test da ta was 2 .9 %, wi th au error ra te o f 0.4 %.

    6 3 2

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    5/6

    4 C O N C L U S I O NW e d i s c u s se d c o m b i n i n g a l i n g u i s t i c r u l e - b a s e d p a r s e ra n d a c o r p u s - b a s e d e m p i r i c a l p a r s e r . W e d i v i d e t h ep a r s i n g p r o c e s s i n t o t w o p a r t s : a p p l y i n g l i n g u i s ti c i n -f o r m a t i o n a n d a p p l y i n g c o r p u s - b a s e d p a t te r n s . T h el i ngui s t i c ru l es a re regar ded ms more re l i ab l e t han t hec o r p u s - b a s e d g e n e r a l i s a t i o n s . T h e y a r e t h e r e f o r e a p -p l i ed f i r s t .The i dea i s t o use re l i ab l e l i ngui s t i c i n format i on asl ong as i t is poss i b l e . Af t e r cer t a i n phase i t comesh a r d e r a n d h a r d e r t o m a k e n e w l i n g u i s ti c c o n s t r a i n t st o e l i m i n a t e th e r e m a i n i n g a m b i g u i t y . T h e r e f o r e w eu s e c o r p u s - b a s e d p a t t e r n s t o d o t h e r e m a i n i n g d i s -a n d ) i g u a t i o n . T h e o v e r a l l s u c c es s r a t e o f t h e c o m -b i n a t i o n o f t h e l i n g u i s t i c r u l e - b a s e d p a r s e r a n d t h ec o r p u s - b a s e d p a t t e r n p a r s e r i s g o o d . I f s o m e u n r c -s o l v a b l e a m b i g u i t y i s l e f t p e n d i n g ( l ik e p r e p o s i t i o n a la t t a c h m e n t ) , t h e t o t a l su c c e s s r a t e o f o u r m o r p h o -l o g i c a l a n d s u r f a c e - s y n t a c t i c a n a l y s i s i s o n l y s l i g h t l yw o r s e t h a n t h a t o f m a n y p r o b a b i l i s t i c p a r t - o f- s p e e c ht a g g e r s . I t i s a g o o d r e s u l t b e c a u s e w e d o m o r e t h a nj u s t l a b e l e a ch w o r d w i t h a m o r p h o l o g i c a l t a g s ( i .e .n o u n , v e r b , e t c . ) , w e l a b e l t h e m a l s o w i t h s y n t a c t i cf i m c t i o n t a g s ( i. e . s u b j e c t , o b j e c t , s u b j e c t c o m p l e -ment , e t c . ) .S o m e i m p r o v e m e n t s m i g h t b e a c h i e v e d b y m o d i -f y i n g t h e s y n t a c t i c t a g s e t o f E N G C G . A s d i s c u ss e da b o v e , t h e ( s y n t a c t i c ) t a g s e t o f t h e E N G C G i s n o tp r o b a b l y o p t i m a l . S o m e a m b i g u i t y i s n o t r e s o lv a b l e( l ik e p r e p o s i t i o n a l a t t a c h m e n t ) a n d s o m e d i s t i n c ti o n sa r c n o t m a d e ( l ik e s u b j e c t s o f th e f i n i t e a n d t h e n o n -f i n i te c l a u se s ) . A b e t t e r t a g s e t f o r s u r f a c e - s y n t a c t icp a r s i n g i s p r e s e n t e d i n [ V o u t i la i n e n a n d T a p a n a i n e n ,1993] . B ut we have no t mo di f i ed t he presen t t ag se tb e c a u s e i t i s n o t c l e a r w h e t h e r s m a l l c h a n g e s w o u l di m p r o v e t h e r e s u l t s i g n i f i c a n t l y w h e n c o m p a r e d t o t h eeffor t needed .A l t h o u g h i t i s n o t p o s s i b l e t o f u l l y d i s a m b i g u a t e t h es y n t a x i n E N G C G , t h e r a t e o f d i s a m b i g u a t i o n c a n b ei m p r o v e d u s i n g a m o r e p o w e r f u l l i n g u is t i c r u l e t b r m a l -i sm (see [Koskenni emi el al., 1992 ; Koskenn i emi , 1990 ;T a p a n a i n e n , 1 9 91 ]) . T h e r e s u l ts r e p o r t e d i n t h i s s u d yc a n m o s t l i k e l y b e i m p r o v e d b y w r i t in g a s y n t a c t i cg r a m m a r i n t h e fi n i t e - s t a t e f r a m e w o r k . T h e s a m ek i n d o f p a t t e r n p a r s e r c o u l d t h e n b e u s e d f or d i s a m -b i g u a t i n g t h e r e s u l t in g a n a l y s e s .

    5 A C K N O W L E D G E M E N T ST h e C o n s t r a i n t G r a m m a r f r a m e w o r k w a s o r i g i n a l l yp r o p o s e d b y F r e d K a r l s s o n [ 1 99 0 ]. T h e e x t e n s i v e w o r kon t he descr i p t i on of Engl i sh was ( t one by At ro Vout i -l a i n e n , J u h a t l e i k k i l~ a n d A r t o A n t t i l a [1 99 2 ]. T i m oJ ~ r v i n e n [ 19 9 4] h a s d e v e l o p e d t h e s y n t a c t i c c o n s t r a i n ts y s t e m f u r t h e r . E N G C G u s e s K i m m o K o s k e n n i e m i ' s[1983] t wo- l eve l mo rpho l ogi ca l ana l ys er and Pas t Ta-p a n a i n e n ' s i m p l e m e n t a t i o n o f C o n s t r a i n t G r a m m a rp a r s e r .W e w a n t t o t h a n k F r e d K a r l s s o n , L a u r i K a r t t u n e n ,A n n i e Z a ~ n e n , A t r o V o u t i la i n e n a n d G r e g o r y G r e f e n -s t e t t e f o r c o m m e n t i n g t h i s p a p e r .

    R e f e r e n c e s[ J ~ r v in e n , 1 9 9 4 ] T i m o J ~ r v i n e n . A n n o t a t i n g 2 00 m i l -l io n w o r ds : T h e B a n k o f E n g l i s h p r o j e c t . [ n pro-

    ceedings of COLING-9]~. Kyot o , 1994 .[ K a r l ss o n , 1 9 9 0] F r e d K a r l s so n . C o n s t r a i n t G r a m m a ra s a f ra m e w o r k f o r p a r s in g r u n n i n g t e x t . i n t I a n sK a r l g r e n ( e d i t o r ) , C O L I N G - 9 0 . P a p e r s p r e s e n te dto the 1 3 th In terna t iona l Con ference on Co mpv-ta t iona l L ingu is t ic s . Vol . 3 , pp. 168-1 73, IIe lsinki ,1990.[Kar l sson , 1994] F red Ka r l sson . Robu s t pars i ng of un-cons t ra i ned t ex t . In Nel l eke Oo st d i jk and P i e t e rde I Iaan (eds . ) , Corpus-based Research Into Lan-guage., p p . 1 2 1- 14 2 , l ~ od o p i , A m s t e r d a m - A t l a n t a ,1994.[Kar l sson et at., 1994] F red Ka r l sson , At ro V out i l a i -hen , Ju ha I l e ikk i l ii . and Ar t o An t t i l a (eds . ) Con-s tra in t Gramm ar: a Language- Independent Sys t emfor Pars ing Unres tr ic ted Tex t . M o u t o n d e G r u y t e r ,Berl in, 1994.[ K o s k e n n ie m i , 1 9 8 3 ] K i m m o K o s k e n n i e m i . T w o - l e v e lm o r p h o l o g y : a g e n e ra l c o m p u t a t i o n a l m o d e l tb rw o r d - f o r m r e c o g n i t io n a n d p r o d u c t i o n . P u b l i c a -t i ons nro . 11 . Dept . o f Gene ra l L i ngui s t i cs , Uni ver-s i t y o f I l e l s i nk i . 1983 .[ K o s k e n n ie m i , 1 9 9 0 ] K i m m o K o s k e n n i e m i . F i n i t e -s t a t e p a r s i n g a n d d i s a m b i g u a t i o n . I n l i a n s K a r l -gren (ed i t o r ) , C O L I N G - 9 0 . P a p e r s p r e s e n te d t o t h e13 th In terna t iona l Con ference on Computa t iona lL ingu is t ic s . Vol . 2 pages 229-232, l l [elsinki , 1999.[Koskenni emi el al., 1 9 92 ] K i m m o K o s k e n n i em i , P ~ iT a p a n a i n e n a n d A t r o V o u t i l a in e n . C o m p i l in g a n dus i ng f i n i t e -s t a t e syn t a c t i c ru l es . In Proceedings ofthe f i f teen th In terna t ion a l Con ference on C omputa -t iona l L ingu is t ic s . CO LING -92 . Vol . I , pp. 156-102,Nant es , F rance . 1992 .[Tapana i nen , 1991] Pas t Tapa nai ne n . ~ .S re l li s i n ii au-t om aat t e i na es i t e t t y jen k i e l i oppi s~ in t S jen sove l t a -m i n e n h m n n o l l is e n k i e l e n j , i se n t K j ~ s K ( N a t u r a l l a n -g u a g e p a r s i n g w i t h f i n i t e - s t a t e s y n t a c t i c r u l e s ) .Mast er ' s t hes i s . Dept . o f comput er sc i ence , Uni ver-s i t y of I l e l s l nk i , i 991 .[Vout i l a i nen , 1994] Afr o Vout i t a i nen . Thre e s t ud i eso f g r a m m a r - b a s e d s u r f a c e p a r s i n g o f u n r e s t r i c t e dengl i sh t ex t . Publ i ca t i ons nr . 24 . Dept . o f Gen era lL i ngui s t ics . U ni vers i t y of l l e l s i nk i . 19 )4 .[Vout i l a i nen el al., 1992]A t r o V o u t i la i n e n , J u h a l t e i k k i li i a n d A r t o A n t t i l a .C o n s t r a in t g r a m m a r o f E n g l is h - - A l ' er f o r m a n c e -O r i e n t e d I n t r o d u c t i o n . P u b l i c a t i o n s n r . 2 1. D e p t .o f Gene ra l L i ngui s t i cs , Uni vers i t y of I l e l s i nk i , 1992.[ V o u t il a in e n a n d T a p a n a i n e n , 1 9 9 q ] A t r o V o u t i l a in e na n d P a s t T a p a n a i n e n . A m b i g u i t y r e s o l u t io n i n a r e -dnc t i on i s t i c parser . In Proceedings o f of Sixth Con-

    ference o f the European Chap ter o f the Assoc ia t io nfor Computa t iona l L ingu is t ic s . EACL-93 . pp. 394-403 , Ut rech t , Net her l ands . 1993 .A T I I E T A G S E T

    2 ' h i s a p p e n d i x c o n t a i n s t h e s y n t a c t i c t a g s w e h a v eused . Tbe l i s t i s ado pt ed f rom [Vout i l a inen et al.,1992] . To ob t a i n a l so t he morpho l ogi ca l "par t -o f -s p e ec h " t a g s y o u c a n s e n d a n e m p t y e - m a i l m e s s a g eto [email protected].

    633

  • 8/13/2019 Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-based Patterns

    6/6

    +FA UXV = Finite Auxiliary Predicator: lie ca_~nread.,-FAU XV = Nonfinite Auxiliary Predicator: Fi e m a yhave_ read.,+FMAINV = Finite Main Predicator: He reads.,-FM AIN V = Nonfinite Main Predicator: H e h a sr e a ~ d .NPHIL = Stray NP: Vo l u m e I : S y n t a x ,SUBJ = Subject: H__~e eads.,F-SUBJ = Formal Subject: Th e re w a s so m e a rgu -me nt about tha t . I_tt i s ra in ing . ,OBJ = Object: He read a book. ,I-OBJ = Indirect Object: He gave Mary a book. ,PCOMPL-S = Subject Complement~ i s a foo l . ,PCOMPL-O = Object Complement: I e o n s i d ~ - -h i m

    fool . ,AI~V-L = Adve rbia l: H e c a m e h o m e l a t e . H e i s i n t h eCa r.,O-ADVL = Object Adverbial: l i e ra n t w o m i l e s .APP = Apposition: H e l s i n k i , t h e c a p i t a l o f F i n la n d ,N = Title: K i n g G e o r g e a n d M r .DN> - De te~ner : He read the book.,NN> = P remodif ying Noun: Th e c a r p a rk w a s f u l l. ,AN> -- Premodifyi ng Adjective: The bh , e car i sm i n e . ,QN> --- Premodi fying Quantifier: H e h a d t w o sa n d -w i c h e s a n d so m e c o f f e e . ,GN> = Premodi fying Genitive: M._yy car and fl i l l ' sbike are blue.,AD-A> = Premodifying Ad-Adjective: She i s veryi n t e l l i g e n t . ,