34
Szintaxis A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 14.

Szintaxis

  • Upload
    ronda

  • View
    34

  • Download
    0

Embed Size (px)

DESCRIPTION

Szintaxis. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. március 14. Bevezetés. Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton) - PowerPoint PPT Presentation

Citation preview

Page 1: Szintaxis

Szintaxis

A számítógépes nyelvfeldolgozás alapjai

A számítógépes nyelvfeldolgozás alapjai – 2013. március 14.

Page 2: Szintaxis

Bevezetés• Szintaxis: mondat szavai között

levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton)

• Tokenizálás és szófaji egyértelműsítés eredményének felhasználásával

• Parsing – parser

Page 3: Szintaxis

Mondatbeli egységek• Frázisok: szorosabban összetartozó

elemek– Főnévi csoportok (NP): én, a sárga ház, Pisti

kutyája…– Ezek töltik be a különféle nyelvtani

szerepeket (alany, tárgy…)

• predikátum-argumentum viszonyok– nem csak ige lehet predikátum (melléknevek

(féltékeny vkire), esemény jelentésű főnevek (vkik közötti háború)…)

Page 4: Szintaxis

Szintaxis az alkalmazásokban• A szintaktikai elemzés általában

előfeldolgozó lépés egy magasabb rendű feladathoz

• A folyó szövegek mélyebb nyelvi elemzéséhez elengedhetetlen a mondatok szintaktikai elemzése

• Információkinyeréshez is szükséges a jó minőségű szintaktikai elemzés:

A SPAR felvásárolta a PLUS-t.Vásárló: SPAR Áru: PLUS

Page 5: Szintaxis

Szintaxis az alkalmazásokban• Gépi fordításTegnap az irodában Péter öt levelet írt.

TEMP LOC SUBJ OBJ VERB

Peter wrote five letters in the office yesterday.

SUBJ VERB OBJ LOC TEMP

Page 6: Szintaxis

Számítógépes szintaxis• Szabályalapú elemzés

– Szakértők kézzel írnak szabályokat

• Statisztikai elemzés– Nagyméretű adatbázisok (treebankek)– Elemzők (parserek)– Treebankekből automatikusan kinyert

szabályok alapján zajlik az elemzés

Page 7: Szintaxis

Statisztikai szintaktikai elemzés

• Angol nyelvre kifejlesztett technológiák

• Konstituens- (összetevős) és függőségi (dependencia)alapú elemzők

• Kötött szórend vs. szabad szórend

Page 8: Szintaxis
Page 9: Szintaxis

Függőségi vs. konstituenselemzés

• Minden csomópont egy szónak felel meg -> nincsenek művi csomópontok (CP, I’…) a függőségi fákban

• Konstituens-nyelvtanok általában kötött szórendű nyelvekre jók

• Mi határozza meg a szintaktikai viszonyokat?– a fában való elhelyezkedés (konstituens)– függőségi viszonyok (címkézett élek)

(dependencia)

Page 10: Szintaxis

Elemzés mint keresés

• adott mondathoz az elemzési fákat megtalálni és kiválasztani a legjobbat

• Megszorítások a keresésben:– A fa gyökere a kezdő szimbólum (S)– A fa levelein az input szavai találhatók

Page 11: Szintaxis

Konstituenselemzés

• Terminálisok: szavak

• Nemterminálisok: konstituensek

• Szabályok: baloldal egyetlen nemterminális

Page 12: Szintaxis

Elemzés fentről lefelé• célirányos

• S-ből kiindulva építi a fát

• szabályok bal oldalát illeszti

Page 13: Szintaxis

Elemzés lentről felfelé• adatorientált• input

szavaiból indul ki

• szabályok jobb oldalát illeszti

Page 14: Szintaxis

Összehasonlítás• fentről lefelé:

– csak jó (S-ben végződő) fákat állít elő– sok fa nem felel meg az inputnak

• lentről felfelé:– csak a szavaknak megfelelő fák állnak

elő– számos rossz fa is előáll

Page 15: Szintaxis

Konstituensfák a Szeged Treebankben

• Generatív szintaxison alapul (É. Kiss et al. 1999)• A magyar nyelv szintaktikai sajátságai szintén

figyelembe vannak véve (nem „hardcore” Chomsky-féle nyelvtan)

• Az ige-argumentum viszonyokat címkék kódolják• Nagyon részletes információk: minden esetraghoz

külön nyelvtani szerep tartozik• Szemantikai információ is megjelenik (idő- és

helyhatározók)

Page 16: Szintaxis
Page 17: Szintaxis
Page 18: Szintaxis

Függőségi elemzés• Tranzakcióalapú

– Minden lépésben egy új él felvétele– Osztályozási probléma:

• egyedek: szópárok• jellemzők: szavak, POS-kódok• akció: új él behúzása vagy semmi

• Gráfalapú– Legjobb gráf megtalálása

Page 19: Szintaxis

Függőségi fák a Szeged Dependencia Treebankben

• A szavak a fa csomópontjai• A főnévi argumentumok sokkal

kevesebb szereppel rendelkeznek: SUBJ, OBJ, DAT,OBL, ATT -> morfológia kódolja már az esetragot

• Szemantikai információ megőrződik• Lehetnek keresztező élek (A fiúnak látta

a kutyáját.)

Page 20: Szintaxis
Page 21: Szintaxis

Virtuális csomópontok• Kijelentő mód, jelen idő, 3.

személyben nincs létigeAndrás katona (*van).

András legyen katona!

András katona lesz.

• A SzT-ben nincs jelölve ezeknek a mondatoknak a grammatikai szerkezete

• SzDT-ben virtuális csomópontok

Page 22: Szintaxis
Page 23: Szintaxis

Szeged Treebank vs. Szeged Dependencia Treebank

• Címkézett relációk mindkettőben -> nem olyan nagy az eltérés

• Virtuális csomópontok SzDT-ben -> minden mondat nyelvtani szerkezettel rendelkezik (IE, MT)

• Nincsenek szórendi megszorítások a SzDT-ben• Szóalakok szerepelnek a fákban• Egyéb lehetőség: morfémaalapú szintaxis

(Prószéky et al. (1989), Koutny, Wacha (1991))

Page 24: Szintaxis

Hol tartunk jelenleg?• Szeged (Dependencia) Treebank:

konstituens és függőségi reprezentáció egyaránt (kézi annotáció)

• Magyarra adaptált statisztikai elemzők:– konstituens (Berkeley parser)– függőségi (Bohnet-parser)

• Szeged (Dependencia) Treebanken tanítva

• Sztenderd magyar szövegeken viszonylag jól működnek

• Nyelvspecifikus hibák

Page 25: Szintaxis

Alanyesetű, nem alanyi szerepet betöltő főnevek

• Birtokos: a kisfiú labdája

• Predikatív névszó: István juhász maradt.

• Tárgy: A kutyám kergeti a macska.(kerti ösvény mondat)

A fiam szereti a lányod.

Page 26: Szintaxis

Lehetséges megoldások• Birtokos:

– SzT: egy NP tartalmazza a birtokost és a birtokot ((a kisfiú) labdája)

– SzDT: ATT reláció

• Predikatív névszó: PRED reláció– SzDT: virtuális csomópont

• Tárgy: OBJ reláció– Néha nem elég a szövegkörnyezet…

-> többértelműség

Page 27: Szintaxis

ÁltárgyakFormailag tárgynak látszó határozók:

Futottam egy jót.

Nagyot aludtam.

Tárgyatlan ige -> nem lehet tárgy -> MODE reláció

Page 28: Szintaxis

Részes esetnek látszó esetek

Nem minden szemantikai alany áll alanyesetben:

• Részes esetű alany:

Sándornak kell elrendeznie az ügyeket.

• Mindkét treebankben DAT

• Bizonyos segédigék részes esetű alannyal állnak (kivételek)

• DAT-NOM párhuzam: birtokos szerkezet

Page 29: Szintaxis

Többértelműség• morfológiai többértelműség:

szemét – szem+é+t• szerkezeti többértelműség:

Reggel lelőttem egy elefántot a pizsamámban.– Kin van a pizsama?

• lexikális többértelműség:„megveted még hideg ágyamat”

– Visszautasítod vagy megágyazol?

• szemantikai többértelműség:Minden férfi szeret egy nőt.

– Ugyanazt a nőt vagy mindenki másikat?

Page 30: Szintaxis

Szintaktikai többértelműség• bővítmények csatolása:

Láttam a lányt a távcsővel.– Kinél van a távcső?

• mellérendelés:(Sikoltozó (gyerekek és anyukák)) szaladgáltak a

játszótéren.((Sikoltozó gyerekek) és (anyukák)) szaladgáltak

a játszótéren.• szintaktikai egyértelműsítés: az összes

lehetséges fa előállítása a mondathoz és a legjobb kiválasztása

• lokális többértelműség: a mondat egy része többértelmű (több elemzés rendelhető hozzá), de a mondat maga nem (a fiú kutyája – az „a” hova csatlakozik?)

Page 31: Szintaxis

Többértelműség az angolbanTime flies like an arrow.

VB VBZ VB DT NN

NN NNSIN VB

NNP NN

RB

CC

Page 32: Szintaxis

Time flies like an arrow.• Az időlegyek szeretnek egy nyilat.• Úgy repül az idő, mint egy nyílvessző.• A Time magazin úgy száll, mint egy nyílvessző.• Az idő úgy menekül, mint egy nyílvessző.• A Time magazin kiadója úgy száll, mint egy

nyílvessző.• Mérd a legyek sebességét úgy, mint egy nyílét.• Mérd a legyek sebességét úgy, mint egy nyíl.• Mérd meg nyílsebesen a legyek sebességét.• Mérd meg azoknak a legyeknek a sebességét,

amelyek egy nyílra hasonlítanak.

Page 33: Szintaxis

Szintaktikai elemzés jóságának mérése

• Konstituenselemzés– Minden konstituenst hasonlítunk

(címkézve vagy anélkül)– Egyes szavak őseinek sorozatát

hasonlítjuk

• Dependenciaelemzés– minden szóra– ős és/vagy reláció típusának

eltalálása

Page 34: Szintaxis

Kiértékelés• pontosság• fedés• F-mérték• LAS (labeled accuracy score): szülő és

címke• ULA (unlabeled accuracy score): csak

szülő• elemzési hibák lehetséges okai:

– rossz szófaji elemzés– hiba a tanító adatbázisban– többértelműség