42
Tvorba valenčního Tvorba valenčního slovníku arabských slovníku arabských sloves sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)

Tvorba valenčního slovníku arabských sloves

  • Upload
    yuki

  • View
    37

  • Download
    1

Embed Size (px)

DESCRIPTION

Tvorba valenčního slovníku arabských sloves. PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK). Osnova. Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje - PowerPoint PPT Presentation

Citation preview

Page 1: Tvorba valenčního slovníku arabských sloves

Tvorba valenčního slovníku Tvorba valenčního slovníku arabských slovesarabských sloves

PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK)

RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)

Page 2: Tvorba valenčního slovníku arabských sloves

OsnovaOsnovaÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

2

Page 3: Tvorba valenčního slovníku arabských sloves

ÚvodÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

3

Page 4: Tvorba valenčního slovníku arabských sloves

ÚvodÚvodValenční slovník nejfrekventovanějších

sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009)

Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“

Použití ◦běžný uživatel jazyka◦NLP systémy a aplikace

Pro arabštinu dosud chybí takto komplexní lexikografický zdroj

4

Page 5: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

5

Page 6: Tvorba valenčního slovníku arabských sloves

Semantic Valence of Arabic Verbs Semantic Valence of Arabic Verbs (al-Qahtani, 1988; 2004)(al-Qahtani, 1988; 2004)

200 rámců pro nejfrekventovanější arabská slovesa

W. A. Cook – Case Grammar Matrix Model (1979)◦propoziční pády („essential to the proposition“ →

vynucené sémantickou valencí slovesa): Agent (A), Experiencer (E), Benefactive (B), Object (O),

Locative (L)◦modální pády („optional adjuncts of virtually any

predication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa): Time, Manner, Instrument, Cause, Result, Purpose, outer

Locative, outer Benefactive6

Page 7: Tvorba valenčního slovníku arabských sloves

W. A. Cook – Case Grammar W. A. Cook – Case Grammar Matrix Matrix pádový rámec (case frame):

◦1-3 propoziční pády◦O obligatorní pro všechna slovesa (prší –

prázdný hloubkový pád O)◦E - B - L se vzájemně vylučují◦O více než 1x v jenom rámci◦pořadí pádu v rámci – na prvním místě

povrchový Sub◦později rozšíření o propoziční pád času

(Essential Time case (T))7

Page 8: Tvorba valenčního slovníku arabských sloves

Cookův revidovaný maticový Cookův revidovaný maticový model model

Verb Types Basic Experiential Benefactive Locative

1. State Osbe tallOs, Osbe + N

E, Oslike

Os, Ebe boring

B, OshaveOs, B

belong to

Os, Lbe inL, Os

contain

2. Process Odie

O, Obecome

E, OenjoyO, E

amuse

B, Oacquire

O, B…

O, Lmove (intrans.)

L, Oleak

3. Action A, Okill

A, O, Oelect

A, E, Osay

A, O, Eamuse

A, B, Ogive

A, O, Bblame

A, O, Lput

A, L, Ofill

8

* Os – pád Objektu u stativních slovesBasic verbs – pouze A, OExperiential verbs – E, A, OBenefactive verbs – B, A, OLocative verbs – L, A, O

Page 9: Tvorba valenčního slovníku arabských sloves

Skryté role (Covert roles)Skryté role (Covert roles)

skryté role hloubkového pádu na povrchové rovině (covert case roles):◦částečně skryté (patrially covert)

vypustitelné (deletable) → fakultativní v FGDwaṣafa Zaydun al-manẓaraZayd described the scene

pádový rámec: waṣaf AEO/E-del (Experiencer je vypuštěn)

valenční rámec (FGP): ACT ADDR PAT

9

Page 10: Tvorba valenčního slovníku arabských sloves

Skryté role (Covert roles)Skryté role (Covert roles)◦zcela skryté (totally covert)

koreferenční – kumulace dvou rolí (FGD Ø)darasa Zaydun al-kitābaZayd studie the book

pádový rámec: darasa AEO/A=E (Agent je totožný s Experiencer)

valenční rámec (FGP): ACT PAT lexikalizované – některá role (Obj) inkorporována v

sémantice slovesacamila ZaydunZayd worked = Zayd did some work

pádový rámec: camila AO/O-lex (Objekt je lexikalizován)valenční rámec: ACT 10

Page 11: Tvorba valenčního slovníku arabských sloves

Pilot Arabic Propbank (Palmer et Pilot Arabic Propbank (Palmer et al., 2008)al., 2008)

anotace sémantické informace do arabského korpusu (Penn Arabic Treebank)

dvě fáze anotace◦ vytvoření framesetů (rámců) pro jednotlivé lexikální

jednotky (jednotlivé významy slovesa) → uchovány zvlášť

◦ podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa

typy slovesných doplnění◦ sémanticky vynucená doplnění ARG0 až ARG4 –

proměnné → ve framesetech jsou jim přiděleny sémantické role (experiencer, organizer, event, agent, theme…)

◦ 19 volných doplnění (adjunctive arguments)

11

Page 12: Tvorba valenčního slovníku arabských sloves

Arabic Propbank – famesety Arabic Propbank – famesety slovesa slovesa `aqām`aqām

12

význam 1

význam 2

význam 3

Page 13: Tvorba valenčního slovníku arabských sloves

Syntactic lexicon of Arabic verbs (Loukil et Syntactic lexicon of Arabic verbs (Loukil et al., 2008)al., 2008)

pouze povrchová syntax → není sémantikastruktura slovníku podle formátu Lexical Markup

Framework (ISO 24613)slovník by měl obsahovat:

◦ charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku)

◦ morfematická realizace doplnění (akuzativ; předložka – pouze fī, can, li-, calā, bi-, `ilā, min)

◦ syntaktická funkce doplnění (podmět, předmět)◦ příklad ve větě◦ význam

redundance◦ rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv

tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO)

13

Page 14: Tvorba valenčního slovníku arabských sloves

sloveso sloveso taḥarrakataḥarraka („pohnout se, pohybovat („pohnout se, pohybovat se“)se“)

14

frame x

frame y

Page 15: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

15

Page 16: Tvorba valenčního slovníku arabských sloves

Funkční generativní popis Funkční generativní popis (FGP)(FGP)valence – schopnost autosémantického slova vázat se s

dalšími slovyFGP – závislostně orientovaný formalismus – člení

popis jazyka do více rovinvalence souvisí s hloubkovou tektogramatickou

rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů

typy slovesných doplnění◦ aktanty (vnitřní doplnění) – Aktor (ACT), Patient (PAT),

Adresát (ADDR), Origo (ORIG), Efekt (EFF)◦ volná doplnění – místo, čas, směr, nástroj, příčina, způsob…

fakultativinost/obligatornost doplnění

hlavní inspirací metodologie VALLEXu a PDT-Vallexu16

Page 17: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

17

Page 18: Tvorba valenčního slovníku arabských sloves

Nástroje a zdrojeNástroje a zdrojeKorpusové zdroje

◦ Prague Arabic Dependency Treebank (PADT) anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná

verze 2.0; Smrž et al., 2008) tři roviny anotace – funkční morfologie, analytická rovina syntaxe,

tektogramatická rovina zdroj frekvence sloves

◦ Arabic Gigaword (Graff, 2007) novinové texty – plain text

◦ Corpus Linguae Arabicae (CLARA) (Zemánek, 2001) cca 50 mil. slov – plain text texty různého druhu

Tištěné slovníky◦ dvojjazyčné◦ arabské výkladové

18

Page 19: Tvorba valenčního slovníku arabských sloves

PADTPADT

19

Page 20: Tvorba valenčního slovníku arabských sloves

Arabic GigawordArabic Gigaword

20

Page 21: Tvorba valenčního slovníku arabských sloves

CLARACLARA

21

Page 22: Tvorba valenčního slovníku arabských sloves

Nástroje a zdrojeNástroje a zdrojeElixirFM (Smrž, 2007)

◦ implementace funkční arabské morfologie◦ základem elektronická lexikální databáze z

Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002)

◦opravená a rozšířená verze ElixirFM (Smrž and Bielický, 2009)

◦propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou

TrEd◦anotační prostředí pro ElixirFM◦ tvorba valenčních rámců/závislostních stromů

22

Page 23: Tvorba valenčního slovníku arabských sloves

ElixirFM Online InterfaceElixirFM Online Interface(http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi) Resolve

◦ tokenizace a morfologická analýzaInflect

◦deklinace a konjugaceDerive

◦derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné

Lookup◦vyhledávání derivátů stejného slovního

kořene/kmene◦vyhledávání podle angličtiny

23

Page 24: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly

24

Page 25: Tvorba valenčního slovníku arabských sloves

Charakteristika arabského Charakteristika arabského slovesaslovesakonsonantní kořen

◦diskontinuitní morfém nesoucí význammorfém vokalizaceafix – prefix, sufix, infixkořen + vokalizace (+ afix) → kmenarabské sloveso

◦ trojkonsonantní/čtyřkonsonantní kořen◦ jednoduchý slovesný kmen → kořen + vokalizace◦ rozšířený slovesný kmen → kořen + vokalizace +

afix/dloužení vokálu

25

Page 26: Tvorba valenčního slovníku arabských sloves

morfosémantické vzory a jejich morfosémantické vzory a jejich korelacekorelace I jednoduchý slovesný kmen

činnostní – KaTaB psát (často tranzitivní)přechodný stav – FaRiḤ radovat se (někdy tranzitivní)trvalý stav – ḤaSuN být hezký (intranzitivní)

rozšířený slovesný kmenII ḤaSSaN zlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní,

denom.III QāTaL bojovat (tranz.) – objektový, konfrontační, denominativníIV `aNTaĞ vyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový

aspekt, denom. V taḤaSSaN zlepšit se (intranz.) – reflexivní, pasivní, denominativníVI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání

stavuVII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII iḪtaBaR prověřit si (tranz./intranz.) – reflexivní, dativní, pasivní,

denominativníIX iSWaDD zčernat, být černý (intranz.) – od adjektiv – stav/změna stavuX istaḪBaR informovat se (tranz.) – deziderativní, reflexivní, estimativní,

denominativní26

Page 27: Tvorba valenčního slovníku arabských sloves

Charakteristika arabského Charakteristika arabského slovesaslovesa není infinitiv vid – rozlišen formou konjugace nebo složeným tvarem →

jinak spíše aktionsart konjugace

◦ sufigovaná (perfektum – ukončený děj)◦ prefigovaná (imperfektum – průběh, opakování)

mody – indikativ, subjunktiv, jusiv, energikus, imperativ verbonominální deriváty

◦ participium aktivní a pasivní, verbální substantivum tzv. introflektivní pasivum (velmi produktivní) – pravidelnou

změnou vokalizace◦ KaTaB napsal → KuTiB byl napsán◦ funkce:

pasivum impersonální konstrukce

27

Page 28: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMReprezentace valence v ElixirFMStav projektuDalší úkoly

28

Page 29: Tvorba valenčního slovníku arabských sloves

Reprezentace valence v Reprezentace valence v ElixirFMElixirFM

závislostní stromtrojkonzonantní/čtyřkonzonantní slovesný

lexém◦ lemma (3.os. sg. perf.)

lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce

valenční rámec◦funktory (FGP)◦omezení na morfematické vyjádření slovesného

doplnění◦obligatornost/fakultativnost doplnění

29

Page 30: Tvorba valenčního slovníku arabských sloves

tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF

30

Page 31: Tvorba valenčního slovníku arabských sloves

tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF

31

Page 32: Tvorba valenčního slovníku arabských sloves

tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF

32

Page 33: Tvorba valenčního slovníku arabských sloves

Morfematické vyjádření slovesného Morfematické vyjádření slovesného doplněnídoplnění

explicitně zachycené formy◦pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ)◦determinace/indeterminace: -I/-D◦konstrukce s adjektivy: A-◦ forma předložky: bi-, li-, fī, can, calā, `ilā, min,

maca, ḥattā, munḏu, bayna, dūna, ḥawla, taḥta…

◦vedlejší věty obsahové: `inna, `anna, `an, mā `iḏā◦ část frazému◦ podstatné jméno slovesné (podstatné jméno slovesné (maṣdarmaṣdar))◦ slovesné imperfektum slovesné imperfektum - není jasné, o jaký typ doplnění se

jedná → EFF vs. COMPL33

Page 34: Tvorba valenčního slovníku arabských sloves

závislá část frazémuzávislá část frazému

34

انشرح له صدريinšaraḥa la-hu ṣadrīpotěšila-se z-toho.CAUS hruď-moje.DPHRPotěšilo mě toDPHR (ḫāṭir|qalb|ṣadr) CAUS (li-)

Page 35: Tvorba valenčního slovníku arabských sloves

Morfematické vyjádření slovesného Morfematické vyjádření slovesného doplněnídoplnění

implicitně zachycené formy, např.:◦LOC (místo) – fī, bi-, ḥawla, bayna, calā,

taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…

◦DIR1 (směr od) – min, min calā, min taḥti, min warā’i, min fawqi…

◦CAUS (příčina) – li-, bi-sababi, bi-faḍli, min `ağli, natīğatan li-, bi-ḥukmi, li-`anna…)

35

Page 36: Tvorba valenčního slovníku arabských sloves

implicitně zachycená implicitně zachycená forma LOCforma LOC

36

LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…

بدء الحرب وضعه أمام أمر واقعbad`u `l-ḥarbi waḍaca-hu `amāma `amrin wāqicinzačátek války.ACT položil-jeho.PAT před věc reálnou.LOCZačátek války ho postavil před hotovou věcACT PAT (4-) LOC

Page 37: Tvorba valenčního slovníku arabských sloves

Slovesa typu „Slovesa typu „prší“ v prší“ v arabštiněarabštině

37

pršet – valenční rámec: Øarabština – vždy ACT, i když je vypuštěný

تمطر } السماء {tumṭiru [`s-samā`u]vyvolávají-déšť nebesa.ACTPrší

Page 38: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuStav projektuDalší úkoly

38

Page 39: Tvorba valenčního slovníku arabských sloves

Stav projektu – první fázeStav projektu – první fázevytvořeno 3.500 valenčních rámců

◦2.000 vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi

◦1.500 vytvořeno manuálně hlavně základní významy sloves

další kontrola a zjemňování rámců studium literatury → upřesňování a

dotváření teoretických východisek

39

Page 40: Tvorba valenčního slovníku arabských sloves

ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkolyDalší úkoly

40

Page 41: Tvorba valenčního slovníku arabských sloves

Další úkolyDalší úkolyanotace méně častých významů sloves a frazeologiedořešení statutu některých problematických skupin

sloves (modální, pomocná, impersonální)zavedení informace o pasivizaci, reciprocitě, frekvenci

výskytu (PADT) a sémantické třídědoplnění/propojení s korpusovými příkladykorelace mezi valenčními rámci primárních a

odvozených sloves (?)dopracování a zjemnění českých glosmožnost promítnutí valenčního rámce slovesa do

participií a verbálního substantivakonzultace problematických otázek s rodilým mluvčím

budoucnost – napojit ElixirFM na Arabic Wordnet

41

Page 42: Tvorba valenčního slovníku arabských sloves

OdkazyOdkazyAL-QAHTANI, Duleim Masoud. Semantic Valence of Arabic Verbs. Beirut : Libraire du Liban Publishers, 2005.BIELICKÝ, Viktor, SMRŽ, Otakar. Building the Valency Lexicon of Arabic Verbs. In Proceedings of the 6th Conference on

Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.BIELICKÝ, Viktor, SMRŽ, Otakar. Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In Proceedings of the

Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, 2009.BUCKWALTER, Tim. Buckwalter Arabic Morphological Analyzer Version 1.0. LDC2002L49, 2-58563-257-0, 2002.COOK, Walter A. Case Grammar : Developement of the Matrix Model (1970-1978). Washington, D.C. : Georgetown

University Press, 1979.GRAFF, David. Arabic Gigaword Third Edition. LDC2007T40, 1-58563-460-3, 2007.LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon of Arabic Verbs. In HLT &

NPL within the Arabic World : Arabic Language & Local Languages Processing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, 2008.

PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aous and ZAGHOUANI, Wajdi. A Pilot Arabic Propbank. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.

SMRŽ, Otakar. Functional Arabic Morphology : Formal System and Implementation. PhD thesis, Charles University in Prague, 2007.

SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-level Implementation of Functional Arabic Morphology. http://sourceforge.net/projects/elixir-fm/. 2009.

SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. Prague Dependency Arabic Treebank : A Word on the Million Words. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.

ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : An Overview. In ACL 2001. Workshop Proceedings on Arabic Language Procesing : Status and Prospects. Toulouse, France, 2001, p. 111-112.

42