34
Arabic Dialect Syntax and Tree Adjoining Grammar Owen Rambow Columbia University [email protected]

Arabic Dialect Syntax and Tree Adjoining Grammar Owen Rambow Columbia University [email protected]

Embed Size (px)

Citation preview

Arabic Dialect Syntax andTree Adjoining Grammar

Owen RambowColumbia University

[email protected]

Overview

• Morphology and Syntax• Phrase Structure for MSA• Dialect Syntax• Parsing Dialect Syntax• Tree Adjoining Grammar

Morphology and Syntax• Rich morphology crosses into syntax

o Pro-drop / Subject conjugationo Verb subcategorization and subject/object

clitics Verbtransitive+subject+object

Verbintransitive+subject but not *Verbintransitive+subject+object

Verbtransitive+passive+subject but not *Verbtransitive+passive+subject+object

Verbintransitive+passive but not *Verbintransitive+passive+subject

Morphology and Syntax

• Morphological interactions with syntaxo Agreement

Full: e.g. Noun-Adjective on number, gender, and definiteness

Partial: e.g. Verb-Subject on gender (in VSO order)

o Definiteness Noun compound formation, copular sentences,

etc. Nouns+DefiniteArticle, Proper Nouns, Pronouns,

etc.

Morphology and Syntax

• Morphological interactions with syntax (continued)o Case

MSA is case marking: nominative, accusative, genitive Almost-free word order Case is often marked with optionally written short vowels

This effectively limits the word-order freedom in published text

• Agglutinationo Attached prepositions create words that cross phrase

boundariesli+Almaktabāt ل+المكتباتfor the-libraries [PP li [NP Almaktabāt]]

• Some morphological analysis (minimally segmentation) is necessary even for statistical approaches to parsing

Sentence Structure

Traditional Arabic Grammar: Two types of Arabic Sentences

• Verbal sentenceso [Verb Subject Object] (VSO)o االشعار كتب االوالد

Wrote the-boys the-poemsThe boys wrote the poems

• Copular sentenceso [Topic Complement]o شعر اءاالوالد

the-boys poetsThe boys are poets

Verbal Sentences• Verb agreement in VSO with gender

onlyo \ االوالد الولد -wrote3MascSing the-boy/the كتب

boyso \تكتب البنات البنت wrote3FemSing the-girl/the-

girls

• Pronominal subjects are cliticizedo تRكتب wrote-youMascSing

o تمكتب wrote-youMascPlur

o واكتب wrote-theyMascPlur

VSO vs SVO vs OVS• االشعارالبنات كتبت

wrote.fem the-girls the-poemsThe girls wrote the poems

• االشعاركتبنwrote-they.fem the-poemsThey.fem wrote the poems

• االشعاركتبن البناتthe-girls wrote-they.fem the-poemsThe girls wrote the poems

• البنات كتبتهااالشعار the-poems wrote.fem-them the girlsThe poems, the girls wrote them

VSO, VOS, SVO, OVSDescriptive Generalization

1. VSO or VOS: Agreement with subject in gender only

2. Subject pronoun is a clitic on verb and replaces agreement

3. SVO order has preposed subject followed by verb with subject clitic

4. Object pronoun is a clitic on verb (does not replace subject agreement)

5. OVS order has preposed object followed by verb with object clitic

VSO Phrase Structure

English: vanilla case

S

NP VP

V NPthe boys

the poemswrote

VSO Phrase Structure

VSO: Option 1

S

NP

VP

V NP

the boys the poemswrote

Penn Arabic Treebank

VSO Phrase Structure

VSO: Option 2

S

NP VP

V NPthe boys

the poemswrote

VSO Phrase Structure

VSO: Option 2

S

NP VP

V NPthe boys

the poems

V

wrote

S

VSO Phrase Structure

VSO: Option 2

S

NP VP

V NPthe boys

the poems

V

wrote

S

Head Movement

SVO Phrase Structure

Option 1: English phrase structure

S

NP VP

V NPthe boys

the poemswrote

Problem:Arabic does not looklike English (subject clitic on verb)

SVO Phrase Structure

Option 2:

S

NP

VP

V NP

the boys the poemswrote

SVO Phrase Structure

Option 2:

S

NP

VP

V NP

the boys

the poemswrote

NP

Penn Arabic Treebank

SVO Phrase Structure

Option 3:

S

NP VP

V NP

the boys

the poems

V

wrote

S

NP S

Copular sentences

• [Topic Complement]Definite Topic, Indefinite Complemento ش عراالولد

the-boy poetThe boy is a poet

• [Auxiliary Topic Complement]Auxiliaries (kāna and her sisters)o Tense, Negation, Transformation, Persistence o ش كان اعراالولد was the-boy poet The boy was a poeto ش ليس اعراالولد is-not the-boy poet The boy is not a poet

Copular Sentences

• Types of complementso Noun/Adjective/Adverb

ذكيالولد the-boy smart The boy is smart

o Prepositional Phrase المكتبة الولد في the-boy in the-library The boy

is in the library

SVO, OVS as “Copular Sentence”

• Verb-Sentenceo االشعار واكتباالوالد

[the-boys [wrote-they poems]] The boys wrote the poems

o البنات كتبتهااالشعار [the-poems [wrote.fem-them the girls]] The poems, the girls wrote them

• Copular-Sentenceo كبير الولد كتابه [the-boy [book-his big]] The

boy, his book is big

Common Structural Ambiguities

• Third masculine/feminine singular are structurally ambiguouso Verb3MascSingular NounMasc

Verb subject=he object=NounVerb subject=Noun

• Passive and active forms are often similar in standard orthographyo kataba/ he wrote/ كتبo Rتب kutiba/ it was written/ ك

Overview

• Morphology and Syntax• Phrase Structure for MSA• Dialect Syntax• Parsing Dialect Syntax• Tree Adjoining Grammar

Dialect Syntax• MSA

o Verb Subject Object االشعار كتب االوالد

wrote.masc the-boys the-poemso Subject Verb Object (Full agreement)

االشعار اكتبواالوالد the-boys wrote-they.masc the-poems

• LEV, EGYo Subject Verb Object

االشعار كتبواالوالد The-boys wrote.masc.pll the-poems

o Less frequent: Verb Subject Object االشعار كتبو االوالد

wrote.masc.pl the-boys the-poemso Full agreement (or clitic?) in both orders

Dialect Syntax: Noun Phrases

• Possessives:o Idafa construction

Noun1 of Noun2 encoded structurally االردن ملك

king Jordanthe king of Jordan / Jordan’s king

o Dialects have an additional common construct Noun1 <particle> Noun2 LEV: االردن تبع the-king belonging-to Jordan الملك <particle> differs widely among dialects

• Pre/post-modifying demonstrative articleo MSA: الرجل هذا this the-man this mano EGY: ده الراجل the-man this this man

Code Switching

بالتمديد طالبوا اللي هم لحود للرئيس تمديد اليوم بيعارضوا عم اللي عملية ألنه بعتقد ما أنا النظرة في يكون أنه بحترم أنا األرض على مبدئي موضوع منه موضوع وبالتالي الهراوي للرئيسديمقراطية ممارسة في يكون وأن الديمقراطية للعبة احترام في يكون وأنه لألمور ديمقراطية

أو لبنان في الكل إنه الموضوع، أكثرية وبعتقد هذا تريد لبنان في لحظة ساحقة يرجع بدي بسالعهد إنجازات موضوع نحكي على نعم هل يعني لكن العهد إنجازات لبنان النظام عن نظام في

ليس النظام رئاسي الطائف بعد من لبنان وبالتالي نظامفي بيد هي السلطة رئاسي عملياخالل أثبت لحود والرئيس مجتمعة في األخيرة ممارسته الحكومة بيكون لما مسؤول بأنه شخص

االتصاالت موضوع في بممارستي شخصيا الموضوع هذا عشت وأنا معين منصب بياخد في لماالقسم مواقف خطاب ومبادئ خطاب ضمن جانبه صالحة إلى من إنما هو مطلوب رئيس مش

رئيس يكون هو رئيس جمهورية الطائف إتفاق بعد ما لبنان في بقى منه ألنه التنفيذية السلطةالتنفيذية عليه السلطة صح هو وما خطأ هو ما القول عليه المالحظات إبداء عليه التوجيه عليه

جهود في تثمير يظل كي وطنية مصالحة في يظل كي الشاملة المسلم الوطنية بين ما توافقالمسار يترك ما البلد هذا أبناء يحتضن لبنان في خطاب يروحوالمسيحي إنما نعم الخطأ باتجاه

فيها ملتزم هو طرحت مبادئ موضوع كان معه القسم مشيوا أنا اللي فيها التزموا فيها وآمنواكان الموضوع بهذا التزمنا ولما فيها التزمت أني الحكومية بالممارسة سنوات األربع خالل أثبت

الديمقراطي الموضوع أما الموضوع، هذا في جنبنا إلى لحود هالوجهة الرئيس هذا تماما بتفهم أناإمكانية أو هو تعديله أو الدستور إنه نقول ممكن ما بس ديمقراطي النظر انتخاب إعادة فتح

لرئيس هنالك ما إلى والتصويت المجلس هو ضمن ثانية بوالية جوهر جمهورية في هيئة مسحباألقل هذا الموضوع يعني الديمقراطية هذا في قناعتي .

MSA and Dialect mixing in speech• phonology, morphology and syntax

Aljazeera Transcript http://www.aljazeera.net/programs/op_direction/articles/2004/7/7-23-1.htm

MSA

LEV

Parsing Arabic Dialects:Problem

MSADialect

Treebank

Parser

االشعار كتبو االوالد

كتبو

االشعار االوالد

?

Parsing Arabic Dialects

• Many different dialects• Dialects are spoken, few written

resources• Code switching• Conclusion: Can’t assume we will

get treebanks for each dialect• What to do?

Parsing Arabic Dialects

• Idea: use resources for MSA, apply them to dialects

• We will be investigating three approaches

Parsing Arabic Dialects:Proposed Solution 1

MSADialect

Treebank

Parser

االشعار كتبو االوالد

االشعار االوالد كتب

كتبو

االشعار االوالد االوالد

كتب

االشعار

Parsing Arabic Dialects:Proposed Solution 2

MSADialect

Treebank

Parser

االشعار كتبو االوالد

كتبو

االشعار االوالد

Treebank

Parser

Parsing Arabic Dialects:Proposed Solution 3

MSADialect

Treebank

Parser

االشعار كتبو االوالد

كتبو

االشعار االوالد

Parser

Grammar

Grammar

Overview

• Morphology and Syntax• Phrase Structure for MSA• Dialect Syntax• Parsing Dialect Syntax• Tree Adjoining Grammar