58
Universitatea „Alexandru Ioan Cuza” Facultatea de Informatică Lucrare de Disertație Absolvent: Coordonatori științifici: Alexandra Cristina Cristea Prof. Dr. Dan Cristea Lect. Dr. Mihaela Colhon Sesiunea: Iulie, 2013 Iași

Studiu Sintactic asupra Grupurilor Nominale din Limba Română

  • Upload
    hahanh

  • View
    285

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Universitatea „Alexandru Ioan Cuza” Facultatea de Informatică

Lucrare de Disertație Absolvent: Coordonatori științifici: Alexandra Cristina Cristea Prof. Dr. Dan Cristea Lect. Dr. Mihaela Colhon

Sesiunea: Iulie, 2013 Iași

Page 2: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Universitatea „Alexandru Ioan Cuza” Facultatea de Informatică

Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Absolvent: Coordonatori științifici: Alexandra Cristina Cristea Prof. Dr. Dan Cristea Lect. Dr. Mihaela Colhon

Sesiunea: Iulie, 2013 Iași

Page 3: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Declaraţie privind originalitate şi respectarea drepturilor de autor

Prin prezenta declar că lucrarea de dizertație cu titlul „Studiu Sintactic asupra

Grupurilor Nominale din Limba Română” este scrisă de mine şi nu a mai fost prezentată

niciodată la o altă facultate sau instituţie de învăţământ superior din ţară sau străinătate. De

asemenea, declar că toate sursele utilizate, inclusiv cele preluate de pe Internet, sunt indicate

în lucrare, cu respectarea regulilor de evitare a plagiatului:

o toate fragmentele de text reproduse exact, chiar şi în traducere proprie din altă limbă,

sunt scrise între ghilimele şi deţin referinţa precisă a sursei;

o reformularea în cuvinte proprii a textelor scrise de către alţi autori deţine referinţa

precisă;

o codul sursă, imagini etc. preluate din proiecte open-source sau alte surse sunt utilizate

cu repsectarea drepturilor de autor şi deţin referinţe precise;

o rezumarea ideilor altor autori precizează referinţa precisă la textul original.

Iaşi, 1 Iulie 2013

Cristea Alexandra Cristina

_______________________________

Page 4: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Declaraţie de consimţământ

Prin prezenta declar că sunt de acord ca lucrarea de disertație cu titlul „Studiu Sintactic

asupra Grupurilor Nominale din Limba Română”, codul sursă al programelor şi celelalte

conținuturi (grafice, multimedia, date de test etc.) care însoţesc această lucrare să fie utilizate

în cadrul Facultăţii de Informatică. De asemenea, sunt de acord ca Facultatea de Informatică

de la Universitatea Alexandru Ioan Cuza Iaşi să utilizeze, modifice, reproducă şi să distribuie

în scopuri necomerciale programele-calculator, format executabil şi sursă, realizate de mine în

cadrul prezentei lucrări de disertație.

Iaşi, 1 Iulie 2013

Cristea Alexandra Cristina

_______________________________

Page 5: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

Cuprins Introducere...........................................................................................................................1

Capitolul 1: Abordări sintactice ale Procesării Limbajului Natural...............3

1.1 Situarea domeniului ................................................................................................3

1.2 Segmentarea la grupuri nominale............................................................................5

1.3 Etichetarea morfologică pentru limba română........................................................8

1.4 Relațiile de dependență sintactică în limba română..............................................15

1.4.1 Relațiile de dependență la nivelul propoziției...............................................15

1.4.2 Relațiile de dependență în modelele computaționale.....................................16

Capitolul 2: Studiu sintactic asupra grupurilor nominale din limba

română................................................................................................................................19

2.1 Generarea automată a modelelor nominale morfologice......................................19

2.2 Relațiile de dependenţă identificate în cadrul grupurilor nominale.....................22

2.3 Generalizarea modelelor nominale morfologice...................................................33

2.3.1 Generalizarea contextelor dreapta...............................................................35

2.3.2 Generalizarea contextelor mijloc................................................................36

2.3.3 Generalizarea contextelor stânga................................................................36

2.3.4 Generalizarea completă.............................................................................37

Capitolul 3: Generator pentru modele nominale morfologice generalizate...................................................................................................................... 39 3.1 Construirea colecţiilor de modele nominale..............................................................39 3.2 Implementarea Generatorului pentru Modelele Nominale Morfologice

Generalizate............................................................................................................................42

3.3 Rezultate obținute.................................................................................................45

3.4 Direcții viitoare.....................................................................................................46

Concluzii.............................................................................................................................49

Bibliografie........................................................................................................................50

Page 6: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

1

Introducere Aplicațiile de procesare ale limbajului natural, cum ar fi extragerea de informații,

traducerea automată, analiza sentimentelor și aplicații de tip întrebare-răspuns, necesită atât analiză semantică, cât și morfo-sintactică a textului la diferite niveluri. Cercetarea în această direcție se concentrează în special pe dezvoltarea de aplicații specifice unei limbi, aplicațiile dezvoltându-se pe bază de algoritmi ce urmăresc particularitățile acelei limbi spre a aduce rezultate optime în direcția urmărită.

Procesarea limbajului natural se bazează foarte mult pe recunoașterea, generalizarea și apoi generarea de structuri și modele, acestea fiind procese dificil de implementat într-un sistem de calcul. Procesul de generalizare al acestor structuri folosite în cadrul construcțiilor unui limbaj natural se confruntă cu variabilități inerente în cadrul modelelor, pretându-se în special implementărilor cu ajutorul algoritmilor bazați pe reguli sau pe modele statistice sau probabiliste. Modelele bazate pe reguli oferă mai mult control asupra rezultatelor decât modelele statistice, însă un dezavantaj major este faptul că sunt greu de întreținut. Când există multe reguli care trebuie aplicate, apar conflicte care sunt dificil de urmărit. Algoritmii probabiliști fiind dezvoltați pe baza unui suport matematic riguros, pot oferi rezultate mai bune decât algoritmii bazați pe reguli, dar în ambele cazuri există și imprecizie la nivelul rezultatelor obținute.

Parsarea automată la nivel sintactic a unui text este folosită fie singular, fie în cadrul unor lanțuri de procesări lingvistice de către alte instrumente (cel mai adesea) cum ar fi: descoperirea lanțurilor coreferențiale, recunoașterea entităților, prelucrarea grupurilor nominale sau traducerea automată a unui text, pentru a le ușura scopul și a le mări precizia. Parsarea sintactică reprezintă următorul nivel după etichetarea morfologică, aceasta din urmă aflându-se la baza lanțurilor de procesare. Această lucrare își propune construirea unui mecanism de generalizare a structurilor sintactice pentru grupurile nominale din limba română în baza unor modele morfologice și raportat la aceste structuri sintactice, identificarea funcțiilor sintactice existente între elementele grupului. Acest studiu este dedicat grupurilor nominale extrase automat dintr-un corpus adnotat automat cu etichete ale părților de vorbire și manual adnotat cu relațiile de dependență corespunzătoare acestora. Relaţiile de dependență reprezintă unul din punctele centrale ale acestui studiu deoarece ele sunt fundamentale în cadrul multor aplicații de procesare a limbajului natural; de exemplu în aplicațiile de analiză a discursului, aceste relații ajută la organizarea informaţiei care se comunică. (Cristea, 2012).

Algoritmul este realizat în baza unui studiu al etichetelor morfo-sintactice corespunzător cuvintelor aflate într-o relație de dependență dar și al cuvintelor aflate în vecinătatea acestora. Datorită faptului că funcțiile sintactice ale cuvintelor se află în strânsă legatură cu trasăturile morfologice ale lor, algoritmul de generalizare va urmări variația

Page 7: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

2

acestor trăsături în cadrul unei aceleiași relații de dependență. Etichetele morfologice1 în baza cărora se efectuează generalizarea, specifică pe lângă partea de vorbire a unui anumit cuvânt și trăsături sale morfologice, trasaturi care sunt specifice limbii române precum: gen, timp, persoană. În vederea generalizării, informații legate de similaritate in cadrul dependențelor sintactice sunt colectate în mod automat dintr-un corpus adnotat la nivel de cuvânt. Aceste informații pot servi la crearea unor modele sintactice în baza cărora texte în limba română se pot analiza.

Acest studiu are ca scop construirea arborelui sintactic în baza dependențelor identificate între părțile de propoziție ale secvenței care se parsează. Motivația lucrării este propunerea unei tehnici de parsare cu relații de dependență pentru texte în limba română, după ce am observat că modelele statistice greșesc în unele cazuri în care funcția sintactică corectă se poate determina cu ușurință. Aceste greșeli pot fi generate fie de zgomotele din corpusul de antrenare, fie de anumite fenomene lingvistice care sunt greu de observat de către modelele statistice.

Soluția propusă de mine este de a studia variațiile etichetelor morfologice în cadrul grupurilor nominale în funcție de fiecare relație de dependență adnotată în cadrul grupului. Acest lucru are ca scop determinarea condițiilor sintactice care determină o anumită legatură de dependență, dar și a celor în care poate apărea o confuzie, ca mai apoi efortul de corectare sa fie mai mic iar rezultatele rezultatele să fie mai precise..

Dacă evaluarea se face pe un corpus construit riguros, controlul structurilor generalizate poate reduce dimensiunea corpusului de antrenament. Pe de altă parte, conlucrarea cu un model statistic poate reduce și dimensiunea setului de structuri sintactice extrase din corpusul de antrenament.

1 Aceste etichete sunt numite în limba engleză „MSD” (Morpho-Sintactic Descriptions), termen care a fost introdus in literatura de specialitate cu ocazia proiectului „Multext-EAST”.

Page 8: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

3

Capitolulul 1

Abordări sintactice ale Procesarii Limbajului Natural

În lingvistica computațională, termenul este folosit cu referire la analiza formală, realizată de calculator a unei propoziții sau al unui enunț, având ca rezultat elementele sale constitutive și relațiile sintactice dintre cuvinte.

Analiza sintactică automată presupune atât cunoștințe de programare solide, cât și familiarizarea cu diferite teorii gramaticale, deoarece un ansamblu de reguli gramaticale, îmbinate cu un suport matematic pot asigura o tratare coerentă, complexă și productivă a mecanismului unei limbi.

1.1 Situarea domeniului

În contextul procesării limbajului natural, parsarea unui text reprezintă sarcina de a analiza în mod automat, la diferite niveluri, structura sintactică a unei propoziții și furnizarea de informații despre cuvinte. Parsarea este esențială pentru prelucrările ulterioare ale textelor în cadrul aplicațiilor de nivel înalt care folosesc informații sintactice. Deși, în general, performanțele sistemelor de analiză sintactică s-au îmbunătățit foarte mult în ultimii ani, există tot mai multe dovezi că performanța acestora este foarte sensibilă la diferențele morfologice între limbi. Astfel, modelele pentru parsarea structurii frazei dezvoltate pentru limba engleză prezintă de multe ori o scădere drastică de performanță atunci când sunt aplicate textelor în limba germană, română, arabă, franceză sau ebraică (Christodoulopoulos et al., 2011).

De asemenea, în cadrul unor conferințe de evaluare multilingvă pentru interpretoare bazate pe dependențe gramaticale s-au evidențiat variații considerabile de precizie între mai multe limbi, care par a fi generate, cel puțin parțial, de caracteristicile morfologice ale limbilor în cauză. Astfel, se pare că cele mai mari provocări sunt reprezentate de limbile bogate în conținut morfologic2, care conțin informații importante privind structura sintactică exprimată la nivel de cuvânt, unde fiecare cuvânt poate avea un număr mare de forme posibile, iar ordinea cuvintelor este slab constrânsă de structura sintactică.

Provocările cauzate de către limbile puternic flexionate duc la dezvoltarea a numeroase perspective, care se bazează pe diferite cadre teoretice și metodologii. Actualmente, cercetarea în domeniul analizei sintactice se concentrează pe fenomenele lingvistice complexe, în special pe interacțiunile morfo-sintactice și pe particularitățile fiecărei limbi. Aceaste trăsături speciale ale limbilor puternic flexionate oferă un punct focal pentru studii de mari dimensiuni asupra modelelor de analiză, atât din punct de vedere formal, cât și statistic. 2 cunoscute în limba engleză ca „morphologically rich languages” , abreviat MRL

Page 9: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

4

Noile contribuții pun accentul pe metode de analiză ale fenomenelor morfo-sintactice, ce depășesc particularitățile unei anumite limbi, axându-se pe arhitecturi care integrează în mod explicit informații morfologice complexe și diverse în modelele de analiză sintactică. Aceste arhitecturi pot fi apoi folosite în cadrul aplicațiilor care acoperă un număr mare de trăsături ale unei limbi cum ar fi paradigme de flexionare sau analizatoare ale ordinii cuvintelor în fraze (Costa, 2013).

Dificultatea majoră în acest caz constă în faptul că limbajul uman este ambiguu, ceea ce ridică provocări pe mai multe niveluri, de exemplu dezambiguizarea sensurilor cuvintelor (Jaguar poate însemna fie o mașină, fie un animal) sau determinarea corectă a grupurilor gramaticale, cum ar fi cele prepoziționale, ca în exemplul: „Polițistul a văzut omul cu binoclul.” versus „Polițistul a văzut omul cu arma.”. (Trandabăț et al., 2012)

Implicația semantică este evidentă și este puternic legată de logica de parsare corectă a celor două propoziții. Acest exemplu simplu arată că pentru parsarea corectă a unui text poate fi nevoie și de informații semantice despre verbe, despre prepoziții și obiectele pe care le introduc sau chiar de categoria sintactică a acestora.

Studiile care privesc parsarea sintactică a textelor într-un limbaj natural vizează modificarile suferite de dependențele sintactice în funcție de variația obiectivelor țintă, a schemelor de adnotare și a datelor suplimentare de transformare, care ajută la adaptarea interacțiunii bogate morfo-sintactice.

În cadrul grupurilor nominale se pune adesea problema că structurile gramaticale trebuie să fie stabilite și ierarhizate pentru buna interpretare semantică (vezi Figura 1). Din păcate, detectarea și clasificarea grupurilor sintactice se lovește deseori de structuri ambigue și elemente eliptice, ce pot duce la alternative de reconstrucție. Studiile lingvistice sugerează faptul că informația semantică este hotărâtoare, jucând rol important, superior în disambiguizare și în găsirea de soluții de parsare cât mai precise, dar se arată totodată și faptul că informația morfo-sintactică este destul de puternică pentru a putea susține un studiu riguros de prelucrare sintactică a enunțurilor, cum ar fi studiul în cauză.

Figura 1 Exemplu de adnotare greșită și corectă a unui grup nominal Însă un instrument riguros și precis de prelucrare a textelor trebuie sa combine analiza

sintactică cu dezambiguizarea sensurilor şi informația lexicală a cuvintelor din enunț.

Grup nominal adnotat greșit

Grup nominal adnotat corect

Grup prepoziționl adnotat corect

Page 10: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

5

Figura 2 Arborele cu grupurile sintactice corespunzător propoziției „Am văzut luna cu

telescopul”

Evaluarea cercetărilor din acest domeniu se concentrează comparativ pe aplicații care implică diferite cadre de analiză, cum ar fi abordările bazate pe o gramatică sau aplicații dezvoltate pe diferite teorii sintactice, cum ar fi modelele bazate pe constituienți sau modelele bazate pe dependență sintactică. De asemenea au fost dezvoltate o serie de abordări bazate direct pe date, dar astfel de studii nu fac obiectul lucrării de față.

Axa de cercetare în acest domeniu de analiză bazat pe teorii sintactice se îndreaptă către modele de analiză care pot face față cu succes la variații de cuvinte, forme sau tehnici de procesare, fie prin încorporarea de cunoștințe lingvistice suplimentare sau prin utilizarea de tehnici de învățare nesupervizată sau semisupervizată.

1.2 Segmentarea la grupuri nominale

Segmentarea la grupuri nominale reprezintă procesul de diviziune a unui text sau a

unei fraze în unități semantice, care au ca centru de obicei un substantiv sau un pronume. Unele formalizări riguroase în cadrul procesului de segmentare permit ca grupurile

nominale să aibă o structură complexă, de exemplu, care să conțină expresii intermediare cum ar fi grupurile cantitative3 sau cele adjectivale. (Abney, 1983)

„Procesul de segmentare în grupuri nominale se încadrează în categoria prelucrărilor sub-propoziţionale și face parte din parsarea de suprafaţă (in engleza, shallow parsing). Ieşirea unui astfel de parser evidenţiază graniţele anumitor grupuri, cum ar fi cele nominale fără a indica constituţia lor structurală sau rolul lor în propoziţie. Analiza de suprafaţă este dominată în prezent de metode computaţional rapide, ca de exemplu analiza expresiilor regulate. Punerea în evidenţă a grupurilor sintactice constituie, de obicei, o etapă într-un lanţ de prelucrare mai elaborat, cum ar fi, de exemplu, o analiză sintactică completă, determinarea rolurilor sintactice ale grupurilor nominale sau prepoziţionale în jurul verbelor sau chiar rezoluţia anaforelor.” (Cristea, 2012)

3 Termenul în engleză este „quantifier phrase” abreviat prin QP.

Page 11: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

6

Figura 3 Exemplu de arhitectură a unui sistem care folosește „Identificarea Grupurilor Nominale”

Precizia cu care se interpretează semantic aceste segmente depinde de stabilirea unor relații între cuvintele din textul ce trebuie împărțit. De exemplu, dacă luăm în considerare o serie de cuvinte sau o frază, există mai multe posibile interpretări ale ei, iar aceste interpretări pot fi exprimate printr-un număr diferit de segmentări posibile.

Exemplul 1 Să considerăm următoarea construcție nominală „fata cu ochi albaștri și cu rochia de dantelă neagră”. Există mai multe posibilitati de adnotare cu grupuri nominale:

[fata cu ochi albaștri și cu rochia de dantelă neagră] =>NP1

[fata cu ochi albaștri] =>NP1 și cu [rochia de dantelă neagră] =>NP2

[fata cu ochi albaștri] =>NP1 și cu [rochia] =>NP2 de [dantelă neagră] =>NP3

[fata] =>NP1 cu [ochi albaștri] =>NP2 și cu [rochia de dantelă neagră] =>NP3

[fata] =>NP1 cu [ochi albaștri] =>NP2 și cu [rochia] =>NP3 de [dantelă neagră] =>NP4

Grupurile nominale pot conține în interiorul lor alte grupuri nominale în acest caz ele sunt considerate recursive, cum era primul caz din Exemplul 1, în care pot fi identificate și alte grupuri nominale mai scurte. Grupurile nominale nerecursive sunt grupurile care nu conţin alte grupuri nominale ca subconstituenţi.

În cadrul parsării grupurile nominale există ambiguități structurale, la fel ca și în cadrul altor tipuri de componente, iar rezolvarea acestor ambiguități este necesară pentru interpretarea lor corectă. Multe dintre sistemele de Prelucrare a Limbajului Natural (în engleză Natural Language Processing, ce are acronimul NLP) cer în mod specific informațiile din grupurile nominale. De exemplu, sistemele de tip întrebare-răspuns trebuie să furnizeze un grup nominal ca răspuns la multe dintre întrebările de tip factoid4, de cele mai multe ori folosind un parser care identifică grupuri nominale candidat pentru a răspunde utilizatorului.

4 în care răspunsul este scurt, de obicei o entitate cu nume sau un număr.

Textul de intrare

Segmetarea textului

Procesarea morfologică

POS-tagging Identificarea Grupurilor Nominale

Stabilirea depenențelor

morfo-sintactice

Determinarea Claselor

Semantice

Răspunsul oferit

Procesarea sintactică

Page 12: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

7

Exemplul 2. Să considerăm următorul exemplu de sistem de tip întrebare-răspuns: „[..] Prețurile uleiului de floarea soarelui au cresut cu 27% datorită producției scăzute [..]” în care întrebarea ar fi: „Prețul cărui aliment a crescut cu 27%?”

Răspunsul „Uleiului de floarea soarelui” se află în interiorul grupului nominal „Prețurile uleiului de floarea soarelui”, de aceea identificarea corectă a grupului nominal precum și dezambiguizarea structurii acestuia este absolut necesară pentru furnizarea răspunsului corect. Dacă parserul nu poate recupera structura grupurilor nominale, atunci candidatul corect nu poate fi găsit, chiar dacă a fost corect identificat segmentul de frază care conține unul sau mai multe grupuri nominale. Această problemă afectează de asemenea sistemele de rezoluție a anaforei, cele de analiză sintactică automată precum și cele de traducere automată care folosesc arbori sintactici. (Vadas & Curran, 2011).

S-a constatat că structura arborilor sintactici generați de unele sisteme de parsare sintactică prelungesc arborii foarte mult într-o direcție, oferindu-le aspect de coadă, cu o fragmentare mare, scăzând probabilitățile individuale ale fiecărui cuvânt și reducând performanța (Wang, 2007) Posibile rezolvări la această problemă, ar fi convertirea automată la arbori binari sau adnotarea manuală suplimentară a grupurilor nominale, oferind astfel mai multe corpusuri gold. Aceasta este o abordare viabilă pentru că s-a observat că tehnicile supravegheate, antrenate pe corpusuri gold cu grupuri nominale sunt superioare metodelor nesupravegheate (Vadas & Curran, 2011).

De obicei, aplicațiile de nivel înalt care realizează pe lânga adnotarea automată morfologică5 si segmentarea la grupuri nominale6 necesită anumite formate standard de antrenare și corpusuri de evaluare în vederea soluționării acestei problrme.

Ca și cazul oricărei limbi puternic flexionate și bogate în acorduri, ordinea cuvintelor în limba română nu este foarte strictă, prezența acordurilor dând posibilitatea de a construi structuri de grupuri nominale foarte complexe (Simionescu, 2011).

Parsarea grupurilor nominale este dificilă și din cauza absenței corpusurilor mari, adnotate manual pentru mai multe limbi. Pentru limba română, s-au realizat puține sisteme automate dedicate recunoașterii grupurilor nominale. Aceste aplicații au folosit în special corpusul „1984” adnotat la nivel de cuvânt cu informația morfo-sintactică corespunzatoare, din care se urmărește extragerea unui set de reguli care să descrie grupurile nominale din limba română. Aceste sisteme urmăresc nu doar recunoaşterea grupurilor nominale de bază, ci şi a celor recursive, extinzând astfel aria de identificare a structurii limbajului şi gradul de înţelegere al acestuia de către un sistem de calcul. Acest scop este îndeplinit îndeosebi cu sprijinul adnotatorului folosit la marcarea grupurilor nominale şi a modului de marcare a nucleelor nominale, precum și a unui set de reguli, îmbinat cu utilizarea unui aparat statistic.

În contextul lucrării (Simionescu, 2011) grupurile nominale pot conține doar alte grupuri nominale sau grupuri prepoziționale care conțin măcar un grup nominal. Adjectivele, articolele, determinanții sau alte părți de vorbire sunt prezente în cadrul 5 Termenul în engleză este Part Of Speech tagging, prescurtat cu POS tagging. 6 Termenul în engleză este Noun Phrase chunking, prescurtat cu NP chunking

Page 13: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

8

grupurilor nominale, dar nu ca elemente componente distincte, ci de sine stătătoare. Exemplul 3 Să considerăm propoziția: „Fata cu bluză de dantelă neagră salută politicos pe bunica care stătea pe banca de lemn”. In Figura 4 sunt marcate în dreptunghi grupuri nominale ale frazei folosind reprezentarea propusă de Simionescu (2011) pentru a marca grupurile nominale recursive.

Figura 4 Exemplu de adnotări cu Grupuri Nominale [după (Simionescu, 2011)]

În cadrul adnotatorului prezentat în (Simionescu, 2011) există 16 cazuri de grupuri nominale care au ca centru un substantiv, pentru care gramatica pe care este construit adnotatorul se comportă diferit. Pentru grupurile nominale care au caa centru un pronume există 28 de cazuri tratate în mod diferit, aceasta datorându-se faptului că în gramatica limbii române există mai multe tipuri de pronume: personal, demonstrativ, posesiv, nehotărât sau negativ și se consideră toate posibilitățile fiecărui tip.

În lucrarea de față folosim un corpus adnotat la nivel de cuvânt cu informația morfo-sintactică si la nivel de frază cu grupuri nominale recursive. În baza acestor informații vom analiza, pentru fiecare grup nominal identificat în corpus, structura dată de relațiile de dependență adnotate manual în interiorul acestuia.

1.3 Etichetarea morfologică pentru limba română În procesul de adnotare a cuvintelor unei fraze cu etichete morfologice, se folosește de

regulă un dicționar. O intrare dintr-un astfel de dicționar asociază unui cuvânt o listă de posibile etichete. Un set de contrângeri reduce considerabil numărul de posibilități de adnotare. O intrare din dicționarul creat asociază unui cuvânt o listă de triple de tipul:

etichetă – lemă – extra unde extra reprezintă informații suplimentare ce nu pot fi codate în etichetele morfologice. Spre exemplu, verbele tranzitive sunt marcate folosind această trăsătură suplimentară. (Simionescu, 2011)

Tagsetul MSD, dezvoltat în (Erjavec, 2003) codează trăsăturile morfologice folosind câte un singur caracter pentru fiecare trăsătură și le sortează de la stânga la dreapta ierarhic, după importanța lor în limbile est-europene.

Pentru limba română, cel mai cunoscut clasificator morfologic, de la care s-a pornit dezvoltarea altor modele este cel al Institutului de Cercetări pentru Inteligenţă Artificială „Mihai Draganescu” al Academiei Române7. Acesta se bazează pe o tehnică în două straturi,

7Adresa web a institutului este http://www.racai.ro

Page 14: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

9

introdusă de Dan Tufiș în anul 1999. Metoda sa constă în a face o clasificare intermediară care folosește un set de etichete restrâns numit Ctag. În stratul al doilea aceste etichete sunt înlocuite cu taguri MSD mai detaliate, utilizând date contextuale. Etichetatorul morfologic introdus în (Tufiș et al., 1999) folosește un lexic ce conține aproape 600.000 de cuvinte. Pe baza acestuia, setul Ctag a fost generat în mod semiautomat de același autor în anul 2000.

Clasificatoarele care i-au urmat au încercat să varieze modelele abordate, păstrând unele elemente din acest clasificator. Spre exemplu, tot Dan Tufiș împreună cu Liviu Dragomirescu au propus în anul 2004 o metodă independentă de limbă pentru a construi automat setul de etichete8 intermediar optim. Setul de etichete MSD rezultat în (Tufiș, 2008) conține 623 de etichete descriptive iar setul Ctag aproximativ 100. Implementarea state-of-the-art se bazează pe Modelul Entropiei Maximale (Ceaușu, 2006) în ambele straturi de clasificare.

În (Simionescu, 2011) este prezentat un etichetator9 morfologic hibrid, care folosește Modelul Entropiei Maximale și setul de etichete MSD, fiind o variantă redusă a celui folosit de RACAI (Tufiș, 2008). Setul său conține 406 etichete. Corpusul folosit în acest studiu a fost adnotat automat folosind „POS tagger-ul hibrid” (Simionescu, 2011) pentru a identifica și apoi generaliza dependențele morfo-sintactice. POS tagger-ul prezentat în (Simionescu, 2011) a fost antrenat pe o porțiune a corpusului adnotat „1984”, pe care este aplicat un set de reguli, rezultatele fiind evaluate statistic.

O etichetă MSD este o înșiruire de simboluri sau coduri, fiecare dintre ele identificand câte o trăsătură morfologică. Prima literă reprezintă codificarea pentru partea de vorbire. Etichetele sunt în conformitate cu tagsetul definit în cadrul proiectului MULTEXT-East10.

Proiectul MULTEXT-East și-a propus să dezvolte pentru prima dată, pe scară largă, resurse lexicale, inclusiv corpusuri, şi instrumente de prelucrare pentru mai multe limbi, utilizând un format unitar. În cadrul proiectului MULTEXT-East s-au dezvoltat numeroase soluţii folosite şi azi în elaborarea şi proiectarea lexicoanelor şi a corpusurilor, precum şi arhitecturi de prelucrare a limbajului, printre care arhitectura pipeline pentru instrumente de prelucrare a limbajului natural şi conceptul de adnotare separată de text, pentru suprapunerea nedistructivă de informaţie lingvistică unui text. (Ișan et al., 2010)

Corpusul format din romanul „1984” de George Orwell, care include în prezent versiuni paralele adnotate, în peste 20 de limbi, a fost unul din cele mai importante produse ale proiectului respectiv. Este folosit în continuare pe scară largă, fiind unul dintre puținele corpusuri paralele de dimensiuni mari. Editia românească a corpusului este de o importanţă excepţională în analiza sintactică automată a limbii române, datorită diversităţii nivelurilor de adnotare realizate prin marcaje XML. În momentul de faţă, au fost realizate următoarele adnotări asupra acestei resurse primare: fiecare cuvânt are marcată partea de vorbire şi setul de caracteristici morfo-sintactice, sunt marcate grupurile nominale nerecursive, clauzele 8 În limba engleza termenul corespunzator este „tagset” 9 Adresa web a intrumentului este http://nlptools.info.uaic.ro/WebPosRo/ 10Adresa web a intrumentului este: http://nl.ijs.si/ME/

Page 15: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

10

propoziţionale, unităţile elementare de discurs, cuvintele sau expresiile cu valoare în stabilirea relaţiilor retorice şi relaţiile de coreferenţialitate.

În continuare voi specifica codarea etichetelor MSD propusă în (Simionescu, 2011) și folosite în acest studiu, care mi-a fost fundamentală în realizarea generalizării structurilor sintactice și a stabilirii depențelor morfo-sintactice. Substantivul Codificare: N

Variabile Valori Tip Comun c

Propriu p Gen

Masculin m Feminin f

Număr

Singular s Plural p

Caz

Direct (nominativ-acuzativ) r Oblic (genitiv-dativ) o Vocativ v

Articol

Articulat Y Nearticulat N

Tabelul 1 Codificarea MSD în limba română a Substantivului În română declinarea substantivului neutru urmează întotdeauna la singular paradigma masculină şi la plural pe cea feminină. Din acest motiv genul neutru nu apare în specificații. Adjectivul Codificare: A

Variabile Valori

Tip Calificativ f Grad Pozitiv p Gen Masculin m

Feminin f Număr Singular s

Plural p

Caz

Direct R Oblic o Vocativ v

Articol Articulat y Nearticulat n

Tabelul 2 Codificarea MSD în limba română a Adjectivului

Page 16: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

11

Pronumele Codificare: P

Variabile Valori

Tip

Personal p Demonstrativ d Nedefinit i Posesiv s Reflexiv x Interogativ sau relativ w Negativ z Emfatic (întărire) h

Persoană

Persoana I 1 Persoana a II-a 2 Persoana a III-a 3

Gen Masculin m Feminin f

Număr Singular s Plural p

Caz Direct r Oblic o

Posesor Singular s Plural p

Tabelul 3 Codificarea MSD în limba română a Pronumelui Adjective pronominale (determinatori) Codificare: D

Variabile Valori

Tip

Demonstrativ d Nedefinit i Posesiv s Interogativ sau relativ w Negativ z Emfatic (întărire) h

Persoană

Persoana I 1 Persoana a II-a 2 Persoana a III-a 3

Gen

Masculin m Feminin f

Page 17: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

12

Număr

Singular s Plural p

Caz

Direct r Oblic o

Posesor

Singular s Plural p

Modpos

Prenominal e Postnominal o

Tabelul 4 Codificarea MSD în limba română a Adjectivelor pronominale

Codul Modpos este relevant doar pentru acei determinatori care pot apărea doar înaintea sau doar după substantivul determinat.

Articolul Codificare: T

Variabile Valori

Tip

Demonstrativ d Nedefinit i Definit f Posesiv s

Gen

Masculin m Feminin f Neutru n

Număr

Singular s Plural p

Caz

Direct r Oblic o

Clitic

Cu y Fără n

Tabelul 5 Codificarea MSD în limba română a Articolelor

Numeralul Codificare: M

Variabile Valori

Tip

Cardinal c Ordinal o Fracţionar f Colectiv l

Page 18: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

13

Gen

Masculin m Feminin f

Număr

Singular s Plural p

Caz

Direct r Oblic o

Formă Digital d

Definire Definit y Nedefinit n

Tabelul 6 Codificarea MSD în limba română a Numeralelor

Adverbul Codificare: Rg (orice adverb) Prepoziţia Codificare: Sp (orice prepoziție) Verbul Codificare: V

Variabile Valori

Tip

Auxiliar a Predicativ m

Mod

Indicativ i Infinitiv n Conjunctiv s Imperativ m Participiu p Gerunziu g

Timp

Prezent p Imperfect i Trecut s Mai mult ca perfect l

Persoană

Persoana I 1 Persoana a II-a 2

Persoana a III-a 3

Număr Singular s Plural p

Tabelul 7 Codificarea MSD în limba română a Verbelor

Page 19: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

14

Conjuncţia Codificare: C

Variabile Valori

Tip

Coordonatoare c Subordonatoare s

Tabelul 8 Codificarea MSD în limba română a Conjuncțiilor

Particula Codificare: Q

Variabile Valori

Tip

Negativ z Infinitiv n Conjunctiv s Viitor f

Tabelul 9 Codificarea MSD în limba română a Particulelor

Interjecţia Codificare: I Cuvintele străine și simbolurile Codificare: X Abrevierea Codificare: Y Am ales să folosesc clasificatorul morfologic prezentat în (Simionescu, 2011) deoarece are în configurație și informații despre deciziile viitoare de generare a celei mai probabile secvențe de etichete, fapt care mă va ajuta să stabilesc cu ajutorul mecanismului de generalizare modele bazate pe expresii regulate care conțin secvențe de etichete morfologice. Setul de reguli al acestui clasificator hibrid corectează aproximativ 30% din greșelile generate de modelul statistic și impun totodată constrângeri asupra posibilelor etichete ale cuvintelor. Nu în ultimul rând, am ales să adnotez corpusul descris în prezenta lucrare cu acest instrument pentru că rezultatele evaluării erau foarte bune, fiind un instrument solid, ce poate sta cu încredere la baza lanțurilor de procesare sintactică a textelor în limba romană.

Page 20: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

15

1.4 Relațiile de dependență sintactică în limba română

Prelucrările sintactice au ca scop determinarea structurii de constituenţi sintactici ai frazei. Acești constituenţi ai frazei se găsesc în anumite raporturi unii faţă de alţii, determinate de un set de constrângeri sintactico-semantice. In limba română ,o constrângere poziţională cu implicaţii asupra sensurilor cuvintelor este, de exemplu, cea dintre un adjectiv şi substantivul pe care îl determină. Plasarea adjectivului în faţa sau în spatele substantivului poate, pentru anumite clase de adjective, să determine sensul sintagmei care îi conține.

Exemplul 4 Sa considerăm următoarele construcții nominale (Cornilescu, 2004): „o singură femeie” versus „o femeie singură”.

Deşi ambele formulări conțin aceleași trei cuvinte cu aceleași proprietăți sintactice, în primul caz avem o referire cantitativă, în timp ce în al doilea exemplu este dată o referire calitativă, de stare, relativă la substantivul modificat.

Raporturile dintre cuvintele unui enunț dau naștere la relații sintactice între cuvinte cum ar fi relațile de interdependență, de dependență sau de coordonare.

Relaţia de dependenţă se mai numește relație de subordonare. Ea este relaţia fundamentală în cadrul discursului, organizând informaţia comunicată. Subordonarea e considerată o relaţie care se stabileşte între părţile secundare de propoziţie sau între propoziţiile subordonate şi regenţii lor. Relația de dependență se stabileşte între termeni de importanţă inegală: un regent sau determinat şi un termen subordonat, determinant sau agent, care depinde de termenul regent. Determinantul este omisibil în cadrul discursului, spre deosebire de termenul regent, fără de care fraza își pierde sensul (Gramatica limbii române, 2005).

Exemplul 5 În cazul construcției „casa luminoasă”, termenul „casa” este regent, iar „luminoasă” este agentul. 1.4.1 Relațiile de dependență la nivelul propoziției

La nivelul propoziţiei relaţia de subordonare se realizează prin acord, recţiune şi

aderare (Irimia, 2000). Acordul este legătura prin subordonare a cuvintelor în care agentul ia forma de gen,

număr şi caz a cuvântului determinat. În cazul acordului, cuvântul determinat este întotdeauna un substantiv, iar termenul subordonat poate fi un adjectiv („roman interesant”), un pronume demonstrativ, posesiv sau nehotărât („casa aceasta”, „casa mea”, „fiecare casă”), un numeral ordinal („copilul al doilea”), un adjectiv provenit dintr-un verb la participiu („luna răsărită”) sau la gerunziu („luna răsărindă”).

Recţiunea este o astfel de relaţie de dependență sintactică, manifestându-se atunci când un cuvânt cere de la determinantul său o anumită formă de caz oblic cu sau fără prepoziţie.

Page 21: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

16

Datorită naturii morfologice a cuvîntului determinat recţiunea poate fi: substantivală: „gândul mamei”, „viitorul copilului” pronominală: „nimeni dintre noi”, „fiecare dintre ei” adverbială: „departe de tine”, „veşnic în mişcare” numeralică: „nici unul din patru” verbală: „povesteşte adevărul”, „scrie cărţi”.

Din punct de vedere al formei elementului determinativ recţiunea poate fi: neprepoziţională: „casa vecinei” prepoziţională: „casă de piatră”.

Aderarea este o legătură prin subordonare în care agentul se leagă de termenul determinat numai după sens, fără a-şi modifica forma gramaticală. Prin aderare se realizează legătura cuvintelor invariabile, adică a celor care nu au categoria de gen, număr și caz. Elementul subordonat se alătură pur şi simplu, el se leagă de regent numai după sens nefiind acordat. În îmbinările construite prin aderare termenul determinat poate fi un substantiv, un verb, un adjectiv: „uşor de zis”, „greu de făcut”, „maşină de spălat”, „dorința de a trăi”, iar termenul care se subordonează este un adverb: „a umbla repede”, „a scrie frumos”, un infinitiv: „dorinţa de a învăţa”, gerunziu: „merge şchiopătând”, „venea plângând”, supin: „a terminat de scris”, „Pâraiele umflate curg iute, şopotind11”.

Relația de coordonare nu este o relație de dependență deoarece termenii aflați în legătură sunt de importanță egală în cadrul relației. Ea se poate realizeaza prin două modalități: prin joncţiune care constă în îmbinarea unităţilor sintactice cu ajutorul conjuncţiilor

coordonatoare (copulative, adversative, disjunctive, concluzive) ca în exemplul: „Bolnava scânci acoperindu-şi ochii cu degetele subţiri, prelungi şi scheletice.”12 (Camil Petrescu, „”)

prin juxtapunere (parataxă), aducă prin alăturarea unităţilor sintactice deacelaşi fel (omogene) ca în cazul: „Era o fată frumoasă, gînditoare, tăcută.” unde se poate observa absența conjuncțiilor coordonatoare.

1.4.2 Relațiile de dependență în modelele computaționale Odată cu dezvoltarea aplicațiilor de prelucrare a limbajului natural, s-au dezvoltat

diferite studii și relativ la acestea s-au construit o varietate de corpusuri13 cu variate metode de adnotare. Studiile care vizau prelucrarea sintactică a textelor s-au concentrat asupra modelelor de combinare a cuvintelor, frecvențelor de apariție ale fiecărui cuvânt, înregistrării tuturor utilizărilor unui anumit cuvânt sau unei anumite expresii, analizei rezultatelor și teoriilor complexe, dar și pe date empirice (Göhring, 2009).

11 Vers din poezia „Sfârşitul iernii” a lui Vasile Alecsandri. 12 Citat din „Contesa bolnavă” scrisă de Camil Petrescu 13 Dintre acestea, un loc important îl ocupă cele cunoscute sub numele de „Treebanks”.

Page 22: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

17

La nivel computațional, baza prelucrărilor sintactice o constituie gramaticile. „Elaborate iniţial ca seturi neformale de reguli de constituire a compuşilor, treptat, gramaticile capătă descrieri din ce în ce mai formale ce adaugă capacităţii lor de a descrie fenomenele sintactice complexe ce există în limbă şi menirea de a servi drept suport parserelor sintactice. Din acest punct de vedere, pentru că notează cunoaşterea gramaticală independent de un algoritm anumit de procesare, gramaticile, ca seturi de reguli dublate de constrângeri, se constituie în resurse lingvistice, la fel ca şi corpusurile. În anumite cazuri, regulile de analiză gramaticală şi constrângerile pot fi inferate din corpusuri adnotate la nivel de structura sintactică. Codificarea fenomenelor gramaticale poate fi făcută atât sub formă simbolică, cât și numerică. Diferenţa dintre cele două tipuri de notaţii este că, în primul caz, ea evidenţiază cu claritate o semantică denotaţională asociată regulilor, pe când în cel de al doilea caz ( mult mai utilizat în studiile recente) noţiunea de regulă îşi pierde semnificaţia de notaţie simbolică explicită, ea fiind dizolvată într-un sistem de ponderi ale acţiunilor unui automat. Indiferent de maniera de exprimare a cunoaşterii gramaticale, o analiză sintactică trebuie să rezulte în construirea unei structuri care să exprime agregarea recursivă a cuvintelor în compuşi şi a acestora în propoziţii şi fraze.” (Cristea, 2012)

Adnotatorii umani trebuie să decidă pentru fiecare cuvânt care este cel de care depinde și tipul de dependență pentru a construi un corpus riguros. Determinarea dependențelor implică adesea un proces de interpretare profundă și acesta este motivul pentru care aceeași secvență de cuvinte, uneori poate fi adnotată diferit, astfel încât, aceste structuri de dependență distincte ar trebui negociate între adnotatorilor. În schimb, deciziile adnotatorilor umani ar trebui să dureze mai mult în vederea construirii unor corpusuri cu structuri de fraze care să ducă, de obicei, la mai puțină ambiguitate (Colhon & Cristea, 2012).

În sistemele robuste de analiză sintactică, anumite constrângeri pot fi încălcate fără a invalida în totalitate o analiză. Astfel, deşi nerecomandate, greşelile gramaticale, precum încălcarea acordului subiect-predicat sau anacolutul14 pot fi permise, sistemul de analiză putând fi antrenat să semnaleze greşelile, dar să accepte totuşi exprimarea.

Cele mai răspândite formalisme gramaticale sunt cele bazate pe constrângeri și cele bazate pe dependențe sintactice. Formalismele bazate pe constrângeri, numite şi gramatici de unificare, folosesc reguli de producție și unificări ca operații de bază. Un tip de constrângere este cel care precizează faptul că într-o propozitie simplă, grupul nominal, reprezentat de subiect, se acordă în persoană și număr cu grupul verbal, reprezentat în general de predicat. Pentru a verifica constrângerile este nevoie de un lexicon în care, fiecărui cuvânt sau unitate sintactică îi sunt asociate caracteristicile sale precum: persoană, numar, gen. Într-o gramatică de unificare, o categorie structurată constă dintr-o multime de atribute. Fiecare atribut este alcătuit dintr-o pereche de tipul <etichetă, valoare>. Eticheta este un simbol („cat”-categorie, „agr”-acord, „gen”-gen, „num”-număr, „case”-caz), iar valoarea poate fi un simbol atomic (“NP”-Grup Nominal, “fem”-feminin, “sing”-singular, “nom”-nominativ),

14 Anacolutul se definește ca discontinuitate sau ruptură logico-sintactică în interiorul unei propoziții sau al unei fraze.

Page 23: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

18

simbolul vid (nil) sau o altă categorie structurată. Prin urmare, categoriile structurate sunt definite recursiv si pot exista oricâte nivele de imbricare. (Andrei, 1998).

În acest tip de formalism, lexicul, nu mai este o simplă colecţie de cuvinte, pentru că fiecărui cuvânt, în funcţie de categoria lui, îi este asociată o clasă de constrângeri de utilizare în construcţiile corecte ale limbii. Aceste constrângeri pot să fie de natură morfologică, sintactică sau semantică.

Marea problemă, în aceste abordări, stă în dificultatea culegerii şi structurării informaţiilor ce trebuie ataşate cuvintelor, operaţii care sunt extrem de laborioase. O anumită simplificare a descrierilor lexicale poate fi obţinută prin organizarea acestora în ierarhii. Într-o ierarhie, trăsăturile unei categorii se adaugă celor moştenite de la clasele superioare.

Un al doilea formalism cunoscut sub numele de Model de Dependență Sintactică (Mel’čuk,1988) evidențiază rolul structurii sintactice îın constructția îınțelesului unei fraze. În cadrul acestui model, se caracterizează în primul rând relația de dependență sintactică, iar apoi se prezintă locul pe care această relație îl ocupă în modelul lingvistic mai general, cel al înțelegerii textului.

Comparativ cu gramaticile de unificare, Formalismul Dependențelor Sintactice (abreviat FDS) are diferențe privind relaționarea, construcția și vizază ordinea cuvintelor în fraze. Reprezentarea sintactică cu ajutorul dependențelor se bazează pe construcția unui arbore de relații binare între cuvintele componente ale unei fraze, spre deosebire de arborele de constituenți care reprezintă un mod de formare al frazei din grupuri de cuvinte adiacente ca poziție în frază. Grupurile de cuvinte pot fi identificate și în reprezentarea sintactică cu dependențe: un grup de cuvinte este un subarbore al arborelui sintactic corespunzator frazei. FDS nu admite formularea rolurilor sintactice pe baza distribuțiilor unităților sintactice și nici nu permite prezența categoriilor sintactice abstracte în reprezentarea sintactică. FDS stipulează faptul că pentru fiecare limbă trebuie construit un inventar de relații sintactice și că acest inventar este necesar analizei sintactice (Ion, 2007).

Acest studiu își propune, pe lângă identificarea relațiilor de dependență sintactică din cadrul grupurilor nominale, observarea particulariăților acestora și realizarea unui mecanism de generalizare.

Structura sintactică, dată de dependențele dintre constituienți, poate fi reconstruită, din punct de vedere computaţional, ca un puzzle care poate fi început din orice capăt.

„Întrucât cărămizile constitutive ale discursului sunt mai fine decât limita maximală a obiectului prelucrării sintactice, care este fraza, este firesc să ne gândim la o anumită redundanţă între structurile generate de analiză sintactică şi cele produse de interpretarea discursului. Această intersecţie interpretativă trebuie să se manifeste ca o corespondenţă între structura sintactică aflată între nivelurile clauzal şi cel frazal şi substructura generată de analiza retorică a discursului la nivel frazal.” (Cristea, 2012)

Acestea stau la baza dezvoltării de aplicații, cum ar fi cea de față, care studiază structurile de dependenţă sintactică, sau aplicații care își au ca obiect de studiu expresii, evenimente sau relaţii temporale, precum şi structura de roluri verbale.

Page 24: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

19

Capitolulul 2

Studiu sintactic asupra grupurilor nominale din limba română

În cadrul acestui capitol este prezentat un mecanism de generalizare ale relațiilor de dependență în baza structurilor sintactice corespunzatoare unei anumite categorii de construcții din limba română, şi anume categoria grupurilor nominale, și care are ca scop generarea unor modele morfologice corespunzătoare construcțiilor studiate. Acest studiu este dedicat grupurilor nominale extrase automat din corpusul românesc „1984”, corpus care a fost adnotat automat cu etichete ale părților de vorbire și adnotat manual cu relații de dependență corespunzătoare funcțiilor sintactice din cadrul respectivelor enunțuri.

Relațiile de dependență pot fi sau nu directionale (de la regent la dependent), în funcție de varianta sau teoria gramaticală folosită (Hristea & Colhon, 2012). O varietate de relații de dependență pot exista între cuvintele unui grup nominal în cazul în care nu este specificată nici o restricție. Rolul gramaticilor de dependență este în principal acela de a precizarea restricțiile pe care relațiile de dependență ar trebui să le îndeplinească, astfel încât structura pe care acestea o definesc să fie corectă din punct de vedere lingvistic. Structura de dependență va specifica, în cazul fiecărui cuvânt, de ce alt cuvânt depinde (Colhon, 2013).

Scopul principal al studiului este acela de a grupa, în functie de relația de dependență adnotată, structurile in baza etichetelor morfologice atașate cuvintelor conţinute şi de a aplica asupra loc un mecanism de generalizare în asa fel încat să fie acoperite atât cazurile găsite în corpsul de antrenament cât și alte cazuri similare.

În acest capitol voi descrie mecanismul de construire a modelelor sintactice corespunzătoare grupurilor nominale extrase din corpus, de reprezentare si generalizare a acestora în raport cu relațiile de dependență incluse.

2.1 Generarea automată a modelelor nominale morfologice

Grupurile nominale sunt în general bine individualizate în cadrul arborilor FDG ca subarbori, având ca regent o categorie nominală. În calitate de regenți ai grupurilor nominale sunt de obicei substantivele, dar, de asemenea, pot fi și pronume sau numerale.

Structurile extrase din corpus corespund grupurilor nominale, de aceea în acestea vom regăsi un număr variabil de cuvinte. Pe lângă cuvintele care se află într-o relație de dependență, se pot găsi și alte cuvinte, care se pot afla la stânga, dreapta sau între cuvintele implicate în relația de dependență. Informațiile morfologice corespunzând acestor cuvinte adiacente vor fi și ele folosite în procesul de reprezentare.

Page 25: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

20

Datele primare furnizate de corpusul de antrenament etichetat morfologic la nivel de cuvânt sunt utilizate pentru a genera structuri sintactice care corespund grupurilor nominale identificate in corpus. Aceste secvențe vor fi numite în continuare modele nominale morfologice. Așa cum am spus deja, corpusul folosit în acest studiu pune în evidență trei niveluri de adnotări:

- adnotări automate la nivel de cuvânt cu etichete ale părților de vorbire, - adnotări automate la nivel de fraza cu grupuri nominale și - adnotări manuale la nivel de cuvânt cu relații de dependență. Pentru fiecare grup nominal găsit în corpus, am extras structura morfologică și toate

relațiile de dependență marcate de adnotatorul uman între cuvintele din cadrul grupului nominal. Colecția de structuri sintactice obținute astfel acoperă toate construcțiile nominale găsite în corpus. Aceste seturi de modele sintactice vor fi grupate in funcție de relațiile de dependență existente între cuvinte, iar fiecare grup de structuri astfel construit va fi generalizat în vederea obținerii de modele nominale morfologice pentru fiecare relație de dependență identificată în corpus.

Exemplul 6 Considerăm următorul grup nominal „un singur cuvânt”. Reprezentarea acestuia in baza informatiei morfo-sintactice a cuvintelor componente este:

[NP [Timsr un] [Afpms-n singur] [Ncms-n cuvânt]] Avem deci că structura morfologică a acestui grup nominal este:

Timsr Afpms-n Ncms-n. O secvență de N etichete MSD descriu N-1 structuri de dependență, fiecare punând în evidență unul dintre cei N-1 regenți interni. Astfel, în secvența de trei cuvinte de mai sus, corespund două relații de dependență: „un” va fi atașat de regentul "cuvânt" prin intermediul relației determinare (notată det.), iar adjectivul „singur” este atașat tot de regentul „cuvânt” prin intermediul relației de dependență atribut adjectival (notată a.adj.). (vezi Figura 5)

Figura 5 Arborele de dependență al grupului nominal „un singur cuvânt”

Arborii de dependență corespunzători structurilor „o singură femeie” și „o femeie singură” sunt similari celui din Figura 5, chiar dacă cele două structuri au semnifiicații diferite și o altă ordine a cuvintelor. Structurile morfologice sunt supuse unui proces de generalizare, ele devenind modele nominale morfologice. Fiecărui astfel de model morfologic i se adaugă informații despre

NP

cuvânt

un singur

det. a.adj.

Page 26: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

21

fiecare relație de dependență existentă în cadrul ei, mai exact, denumirea relației, termenul regent și, corespunzător acestuia, termenul dependent. Se poate întâmpla ca în corpus să se găsească mai mult decât o relație de dependență între perechi de cuvinte cu etichete morfologice identice. Studiul va lua în considerare toate cazurile, inclusiv acestea. Așa cum am precizat în Capitolul 1, dezambiguizarea dintre aceste cazuri ar necesita și informatii la nivel lexical, informații care nu sunt tratate în acest studiu. Cazul invers este atunci când structura morfologică a unui grup nominal nu este complet analizabilă de modelul de dependență. Ambele cazuri afectează negativ evaluarea studiului, atât Precizia, cât și Recall-ul.

În cadrul unui grup nominal, cuvintele implicate în relația de dependență sunt marcate cu „1:” pentru termenul regent și „2:” pentru cel dependent, urmate de eticheta morfologică15. După această adnotare, pe structurile morfologice corespunzând grupurilor nominale din corpus, am aplicat un proces de generalizare. Acest lucru a fost necesar pentru a acoperi atât construcțiile sintactice similare din corpus, cât și construcții noi care nu au fost găsite în corpus. De asemenea, generalizarea a fost necesară pentru a reduce numărul total de structuri. În timpul generalizării, modelele nominale morfologice sunt induse din structurile morfologice extrase, prin restrângrea informațiilor contextuale sau a etichetelor morfologice (MSD) ale elementelor dependente implicate, pentru aceeași relație de dependență, și sunt scrise folosind expresii regulate.

În Tabelul 10 este indicată semnificația expresiilor regulate folosite în cadrul generalizării structurilor nominale morfologice.

Simbol/ Expresie Semnificație . Orice caracter

[xyz] Oricare dintre caracterele x, y sau z x|z Unul dintre caracterele x sau z xy Caracterul x, urmat de y * De la zero la oricâte apariții + Cel puțin o apariție ? Zero sau o apariție

{N} Exact N apariții {X,Y} Un număr de apariții cuprins între X și Y

() Gruparea unor expresii între paranteze rotunde

Tabelul 10 Codificarea RegEx si semnificația ei

Exemplul 7 O structură sintactică de forma: 1:Nc[fm]sry 2:Ncfsoy (Pp3fso.|Afpfson)?

codifică șase structuri morfologice de grupuri nominale după cum urmează: 1:Ncfsry 2:Ncfsoy Pp3fso-

1:Ncmsry 2:Ncfsoy Pp3fso-

15 Excepţie fac adnotările corespunzatoare relaţiei de coordonare aşa cum se poate observa la pagina 24.

Page 27: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

22

1:Ncfsry 2:Ncfsoy Afpfson

1:Ncmsry 2:Ncfsoy Afpfson

1:Ncfsry 2:Ncfsoy

1:Ncmsry 2:Ncfsoy Modelele nominale morfologice au fost construite în funcție de relațiile de dependență

existente între elementele componente reprezentate din punct de vedere al informației morfo-sintactice. In secțiunile următoare sunt prezentate relațiile de dependență care au fost identificate în cadrul grupurilor nominale adnotate în corpusul de antrenament.

2.2 Relațiile de dependenţă identificate în cadrul grupurilor nominale

1. Atribut substantival (notat cu a.subst.) – Relația de dependență care se stabilește

între doi nominali16 sau între un nominal și o prepoziție urmată de un alt nominal.

În corpus au fost identificate șapte scenarii pentru relația de atribut substantival, scenarii pe care le descriu folosind posibilele etichete morfologice (MSD) asociate (se utilizează simboluri specifice expresiilor regulate).

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Prepoziţie S.*

Nominal (N|P|M).*

2. Numeral M.*

Prepoziţie S.*

Nominal (N|P|M).*

3. Pronume P.*

Prepoziţie S.*

Nominal (N|P|M).*

4. Substantiv N.*

Substantiv N.*

- .*

5. Substantiv N.*

Numeral M.*

- .*

6. Substantiv N.*

Adjectiv A*

- .*

7. Substantiv N.*

Adverb R*

Tabelul 11 Scenariile corespunzătoare relaţiei atribut substantival17

Exemplul 8 Pentru cazurile specificate în Tabelul 11 consider următoarele exemplificări: Caz 1: Tifsr 1:Ncms-n 2:Spsa Ncms-n Crssp Ncms-n („un vârtej de praf şi nisip”) Caz 2: 1: Mcmp-l 2: Spsa Ncmp-n („trei dintre copii”) 16 Prin termenul „nominali” intelegem substantive sau substitute ale acestora. 17 Liniile marcate cu gri corespund unor scenarii comune cu cele raportate in (Perez, 2012).

Page 28: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

23

Caz 3: 1:Pd3ms-- 2: Spsa Pp1-s-- („acela dintre noi”) Caz 4: 1:Ncmsry 2:Ncmsoy („adîncul cerului”) Caz 5: 1:Ncmsry 2:Mc-pl („ora cincisprezece”) Caz 6: 1:Ncfsoy 2:Afpfson Spsa Np („disputei teritoriale cu Rusia”) Caz 7: Di3f 1:Ncfp-n Afpfp-n 2:Rc Ncfsry Afpfsrn („alte erori genetice ca deficiența endocrină”) În lucrarea (Perez, 2011) au fost tratate doar primele patru scenarii, următoarele trei fiind identificate în corpusul folosit în acest studiu.

2. Atribut adjectival (notat cu a.adj.) – Relația de dependență care leagă un adjectiv sau un numeral de substantivul care constituie termenul regent. Dacă termenul subordonat este un adjectiv, acesta poate fi propriu sau pronominal.

Există următoarele șase scenarii de relație de dependență de tip atribut adjectival pe care le descriu în tabelul de mai jos în funcție de posibilele etichete morfologice (MSD) ale cuvintelor implicate.

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Numeral M.*

-

2. Substantiv N.*

Adjectiv A.*

-

3. Substantiv N.*

Adjectiv pronominal (P|D).*

-

4. Substantiv N.*

Adverb R*

-

5. Pronume P.*

Adjectiv A.*

-

6. Substantiv N.*

Prepoziţie S.*

Substantiv N.*

Tabelul 12 Scenariile corespunzătoare relaţiei atribut adjectival

Exemplul 9 Pentru cazurile specificate în Tabelul 12 consider următoarele exemplificări: Caz 1: 2:Mcfp-l 1:Ncfp-n („două săptămâni”) Caz 2: 1:Ncmsry 2:Afpms-n („personajul principal”) Tot în acest scenariu intră și cazul în care adjectivul este provenit din verb la participiu, eticheta sa morfologică fiind tot de adjectiv propriu: 1:Ncms-n 2:Afpms-n („tratament specializat”). Caz 3: 2:Di3msr- 1:Ncms-n („vreun moment”) – „vreun” (Di3msr-) este adjectiv pronominal nehotărât sau determinator. 1:Ncmsry 2:Pp3fso- („locul ei”) – „ei” (Pp3fso-) este adjectiv pronominal posesiv.

Page 29: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

24

2:Dz3msr---e 1:Ncms-n („nici_un indiciu”) – „nici_un” (Dz3msr---e) este adjectiv pronominal negativ. Caz 4: Tifsr 1:Ncfsrn 2:Rc Pd3fsr („o muncă ca asta”) Caz 5: 1:Pd3mso 2:Afpms-n („celui Austro-Ungar”) Caz 6: M 2:SPSA 1:NCMP-N SPSA NCMS-N AFPMS-N („20 de ani de măcel vizual”) În lucrarea (Perez, 2011) au fost tratate doar primele trei scenarii, următoarele trei fiind identificate în corpusul folosit în acest studiu.

3. Determinare (notată cu det.) – Relația de dependență care se stabilește între un articol de substantivul, adjectivul sau pronumele regent regent.

Există următoarele patru scenarii de relație de dependență de tip determinare pe care le descriu in tabelul de mai jos în funcție de posibilele etichete morfologice (MSD) ale cuvintelor implicate.

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Articol T.*

-

2. Adjectiv A.*

Articol demonstrativ Td.*

-

3. Pronume P.*

Articol posesiv Ts.*

-

4. Numeral M.*

Articol demonstrativ Td.*

-

Tabelul 13 Scenariile corespunzătoare relaţiei de tip determinare

Relația de determinare care se stabilește între un adjectiv regent și articol demonstrativ (Cazul 2) mai poartă numele şi de relaţie comparativă (Perez, 2011). În lucrarea (Perez, 2011) au fost tratate doar primele trei scenarii, ultimul fiind identificat în corpusul folosit în acest studiu. Exemplul 10 Pentru cazurile specificate în Tabelul 13 consider următoarele exemplificări: Caz 1: 2:Tifsr 1:Ncfsrn („o muzică”) – „o” (Tifsr) este articol nehotărât pentru substantivul regent „muzică”. Caz 2: Ncfsry 2:Tdfsr 1:Afpfsrn („Femeia cea măruntă”) – articolul demonstrativ „cea” (Tdfsr) determină adjectivul „măruntă”(Afpfsrn) în cadrul unei subordonări comparative. Caz 3: 2:Tsms 1:Pw3fso Ncms-n („al cărei autor” ) – articolul posesiv „al” (Tsms) determină pronumele relativ „cărei” (Pw3fso). Caz 4: 2:Td-po 1:Mcmp-l Ncmp-n Afpmp-n („celor doi piloți americani” ) – articolul demonstrativ „celor” (Td-po) determină numeralul „doi” (Mcmp-l).

Page 30: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

25

4. Coordonare (notată coord.) – Relația de coordonare nu este o relație de dependență proprie, ea fiind o relație specială în care unităţile sintactice sunt aflate pe acelaşi plan. În această relație sunt legate de obicei trei cuvinte sau două cuvinte și un semn de punctuație cu rol coordonator. Atunci când în relația de coordonare sunt implicate trei cuvinte, termenul care le leagă pe celelalte două este o conjuncție coordonatoare. Există următoarele trei cazuri de relație coordonare pe care le descriu mai jos in funcție de posibilele etichete morfologice (MSD) ale cuvintelor implicate.

Număr caz Regent Cuvânt subordonat Urmat de 1. Orice parte de

vorbire (X) .*

Conjuncţie coordonatoare Cc.*

Orice parte de vorbire (X) .*

2. Orice parte de vorbire (X) .*

Virgulă ,

Orice parte de vorbire (X) .*

3. Conjuncţie coordonatoare Cc.*

Verb V.*

-

Tabelul 14 Scenariile corespunzătoare relaţiei coordonare

În acest studiu, pentru a pune în evidență legăturile din cadrul relației, cuvintele vor fi adnotate două câte două, cu denumirea relației (coord.). Avem un singur termen notat cu „1:” care este elementul de legatură dintre cei doi termeni notați cu „2:”. Într-adevar, pentru primul termen notat cu „2:”, termenul notat cu „1;” este dependent, iar pentru cel de-al doilea termen notat cu „2:”, termenul notat cu „1:” este regent. (vezi Figura 6)

Figura 6 Dependențe în cadrul relației de coordonare

Pentru primul si al doilea caz din Tabelul 14 X este fie aceiași parte de vorbire, fie un nominal. Exemplul 11 Pentru cazurile specificate în Tabelul 14 consider următoarele exemplificări: Caz 1: 2:Mcfp-Ln 1:Crssp 2:Mcfprln Spsa Ncmp-N („mii și milioane de eroi”) Caz 2: Ncmp-N 2:Afpmp-N 1:Punct 2:Afpmp-N 1:Crssp 2:Afpmp-N („pantaloni scurţi, transpiraţi şi întorşi”) – În acest caz cooordonarea se realizează între adjective, atât prin virgulă, cât și prin conjuncția coordonatoare „și”. Se observă că părțile de vorbire implicate în relația de coordonare au etichete MSD asemănătoare sau identice. Cazul 3 nu a fost identificat în corpusul de antrenament. Aceste trei scenarii au fost raportate în lucrarea (Perez, 2011).

mii și milioane de eroi 2: 1: 2:

coord. coord.

Page 31: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

26

5. Relația prepozițională (marcată ca prep.) – Relația de dependență care se manifestă între o prepoziție sau o locuțiune prepozițională și o altă parte de vorbire de obicei substantiv sau substitut al acestuia. În cadrul acestei relații prepoziția joacă rol de cuvânt regent, iar cuvântul care îi urmează este termenul dependent.

Există următoarele două cazuri de relație prepozițională descrise în functie de posibilele etichete MSD (conform notatiilor expresiilor regulate).

Număr caz Regent Cuvânt subordonat Urmat de 1. Prepoziţie

S.* X .*

-

2. Adverb R.*

Nominal (N|P|M).*

-

Tabelul 15 Scenariile corespunzătoare relaţiei prepoziţionale

Exemplul 12 Pentru cazurile specificate în Tabelul 15 consider următoarele exemplificări: Caz 1: Ncfp-N 1:Spsa 2:Ncms-N (păduri de fag”) Caz 2: Ncmpry 1:Rc Afpmp-N 2:Ncmp-N („flăcăii ca niște brazi”) Aceleași două scenarii au fost tratate și în lucrarea (Perez, 2011).

6. Complement circumstanțial de loc (marcat ca c.c.l.) – Relația de dependență care se manifestă între un verb și o prepoziție care introduce un loc.

Există următoarele trei cazuri de relație prepozițională descrise în functie de posibilele etichete MSD (conform notatiilor expresiilor regulate):

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb

(V|A).* Prepoziţie S.*

-

2. Substantiv N.*

Prepoziţie S.*

-

3. Pronume P.*

Prepoziţie S.*

-

Tabelul 16 Scenariile corespunzătoare relaţiei complement circumstanţial de loc

Exemplul 13 Pentru cazurile specificate în Tabelul 16 consider următoarele exemplificări: Caz 1: Ncmsoy Afpms-N 1:Afpms-N 2:Spsa Np („regimului comunist instalat în România”) În acest caz se poate observa că verbul la participiu („instalat”) are eticheta morfologică de adjectiv (Afpms-n). Caz 2: Tifsr 1:Ncfsrn Spsa M Ncfp-n 2:Spsa Ncms-N Spsa Ncfsrn Spsa Ncms-n („o pedeapsă de 120 biciuiri în public pentru aprovizionare cu alcool”) Caz 3: 1:Pd3mpr 2:Spcg Pp3mso- („ceilalţi din_jurul lui”)

Page 32: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

27

În lucrarea (Perez, 2011) a fost tratat doar primul scenariu, următoarele două fiind identificat în corpusul folosit în acest studiu.

7. Comparativa (marcată ca comp.) – Relația de dependență care se manifestă între un adjectiv sau un adverb regent și un articol demonstrativ sau un adverb subordonat.

Există următoarele patru cazuri de relație comparativă pe care le descriu în tabelul de mai jos în funcție de posibilele etichete morfologice (MSD) ale cuvintelor implicate.

Număr caz Regent Cuvânt subordonat Urmat de 1. Adjectiv

A.* Adverb R.*

-

2. Adjectiv A.*

Articol demonstrativ Td.*

-

3. Adverb R.*

Adverb R.*

-

4. Adverb R.*

Articol demonstrativ Td.*

-

Tabelul 17 Scenariile corespunzătoare relaţiei comparativă

Exemplul 14 Pentru cazurile specificate în Tabelul 17 consider următoarele exemplificări: Caz 1: Ncfsry 2:Rp 1:Afpfsrn („partea mai dură”) Cazul 2 corespunde relaţiei comparativă care face parte din tipul de relație de dependență de tip determinare și care a fost tratat mai sus. Caz 3: Ncfsry 2:Rp 1:Rp Afpfsrn („ziua mai curând obositoare”) Caz 4: 2:Tdfsr 1:Rp Afpfsrn Ncfsrn Spsa Ncms-N („cea mai extraordinară cafea cu lapte”). Aceleași patru scenarii au fost tratate și în lucrarea (Perez, 2011).

8. Complement circumstanțial de mod (marcat ca c.c.m.) – Relația de dependență care se manifestă între un verb sau un adjectiv regent și un adverb care introduce modul. Relația de dependență de tip Complement circumstanțial de mod poate lega și două verbe dacă verbul subordonat este nedefinit. Există următoarele șasei cazuri de relație de dependență de tip complement circumstanțial de mod descrise în tabelul de mai jos în funcție de posibilele etichete morfologice (MSD) ale cuvintelor implicate în relație.

Număr caz Regent Cuvânt subordonat Urmat de 1. Adjectiv

A.* Adverb R.*

-

2. Verb V.*

Adverb R.*

-

3. Verb V.*

Verb nefinit Vm(g|n|u|p).*

-

Page 33: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

28

4. Substantiv N.*

Adjectiv pronominal D.*

-

5. Substantiv N.*

Adverb R.*

-

6. Adjectiv A.*

Prepoziție S*

-

Tabelul 18 Scenariile corespunzătoare relaţiei complement circumstanţial de mod

Exemplul 15 Pentru cazurile specificate în Tabelul 18 consider următoarele exemplificări: Caz 1: Ncfsry Ds3---S 2:Rp 1:Afpfsrn („urcarea ei prea bruscă”) Caz 4: 2:Di3fsr- Mc-p-l 1:Ncmp-n („vreo opt anişori”) Caz 5: Ncfsry Afpfsrn 2:Rgp 1:Ncfpry Afpfp- („trîmbiţa cîntă numai gradele inferioare”) Caz 6: Ncfsrn Afpfsrn 1:Afpfsrn 2:Spsa Ncms-n Spsa Ncmsry Rp Afpms-n („stofă neagră dată pe spate de părul foarte alb”)

Observaţia 1. Relațiile de dependență ilustrate în cazurile 2 și 3 nu au fost găsite în cadrul grupurilor nominale dn corpusul de antrenament, ele fiind cel mai adesea întalnite în grupurile verbale. În lucrarea (Perez, 2011) au fost tratate doar trei primele scenarii, următoarele trei fiind identificate în corpusul folosit în acest studiu.

9. Complement circumstanțial de scop (marcat ca c.c.scop.) – Relația de dependență care se manifestă între un verb regent și o prepoziție urmată de o parte de vorbire care exprimă un scop. Astfel, există două cazuri de relație de dependență de tip complement circumstanțial de scop (vezi Tabelul 19).

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb

(V|A).* Prepoziţie S.*

Verb V.*

2. Verb (V|A).*

Prepoziţie S.*

Substantiv N.*

Tabelul 1 Scenariile corespunzătoare relaţiei complement circumstanţial de scop

Exemplul 16 Pentru cazurile specificate în Tabelul 19 consider următoarele exemplificări: Cazul 1 nu corespunde grupurilor nominale, el având două verbe în definiție. Caz 2: Ncfsrn 1:Afpfsrn 2:Spsa Ncfsry Ncfsoy Ncfsoy („economisire organizată în pregătirea Săptămânii Urii”). În acest caz se poate observa că verbul la participiu („organizată”) are eticheta morfologică de adjectiv (Afpfsrn).

Page 34: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

29

În corpusul de antrenament au fost găsite doar modele pentru al doilea caz, dar nu există cazuri noi, față de lucrarea (Perez, 2011)

10. Atribut adverbial (marcat ca a.adv) – Relația de dependență care se manifestă între un substantiv regent și o prepoziție urmată de un adverb. Astfel, există patru cazuri de relație de dependență de tip atribut adverbial după cum se poate observa în Tabelul 20.

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Prepoziţie S.*

Adverb R.*

2. Substantiv N.*

Adverb R.*

-

3. Pronume P.*

Adverb R.*

-

4. Substantiv N.*

Adjectiv A.*

-

Tabelul 20 Scenariile corespunzătoae relaţiei atribut adverbial

Exemplul 17 Pentru cazul specificat în Tabelul 20 consider următoarea situaţie: Caz 1: 1:Ncfpry 2:Spsa Rw („distracțiile de azi”). Caz 2: 2:Rgp 1:Ncfsry Spsa Ncfsry Npfsoy („cândva bijuteria din coroana Marii_Britanii”). Caz 3: Ncms-n 2:Rgp 1:Pp3msr- Spsa Npmsry Npmsoy („funcţionar şi el la Ministerul Adevărului”). Caz 4: 2:Afpfsrn 1:Ncfsrn („decât iarba”). În lucrarea (Perez, 2011) a fost tratat doar primul scenariu, următoarele trei fiind identificate în corpusul folosit în acest studiu.

11. Complement circumstanțial de cauză (marcat ca c.c.cz.) – Relația de dependență care se manifestă între un verb regent și o prepoziție urmată de o parte de vorbire care indică o cauză. Există patru cazuri de relație de dependență de tip complement circumstanțial de cauză fiind descrise de scenariile din Tabelul 21.

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb

(V|A).* Prepoziţie S.*

Verb (V|A).*

2. Verb (V|A).*

Prepoziţie S.*

Substantiv N.*

3. Substantiv N.*

Prepoziţie S.*

Substantiv N.*

Page 35: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

30

4. Adjectiv A.*

Prepoziţie S.*

Substantiv N.*

Tabelul 21 Scenariile corespunzătoare relaţiei complement circumstanţial de cauză

Exemplul 18 Pentru cazurile specificate în Tabelul 21 avem: Cazul 1 nu corespunde grupurilor nominale, el având două verbe în definiție. Caz 2: Ncfsry 1:Afpfsrn 2:Spsa Ncfsrn („pielea înăsprită de muncă”) Caz 3: 1:Ncfsrn 2:Spcg Ncmsoy („ameţeală din_cauza ginului”) Caz 4: Ncmsry 1:Afpms-n 2:Spsa Ncfsry Afpfsrn Tsfs Ncfpoy („cimentul ud de zăpada topită a încălţărilor”) În lucrarea (Perez, 2011) au fost tratate doar primele două scenarii, următoarele două fiind identificate în corpusul folosit în acest studiu.

12. Complement circumstanțial de excepție (marcat ca c.c.exc.) – Relația de dependență care se manifestă între un verb regent și o prepoziție urmată de o parte de vorbire care exprimă un scop. Astfel, există un singur caz de relație de dependență de tip complement circumstanțial de excepție având asociate etichete morfologice din Tabelul 22.

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb

(V|A).* Locuţiune prepoziţională S.*

Substantiv N.*

Tabelul 22 Scenariu corespunzător relaţiei complement circumstanţial de excepţie

Exemplul 19 Pentru cazul specificat în Tabelul 22 consider următoarea situaţie: Caz 1: Di3--R- Ncfsrn 1:Afpfsrn Punct 2:Spca Ncmsry („orice mişcare observată afară_de cazul”). În acest caz se poate observa că verbul la participiu („observată”) are eticheta morfologică de adjectiv (Afpfsrn). Același caz este tratat și în lucrarea (Perez, 2011).

13. Complement indirect (marcat ca c.i.) – Relația de dependență care se manifestă între un verb regent și un nominal sau o prepoziție subordonată urmată de un nominal. Există următoarele patru cazuri de relație de dependență de tip complement indirect descrise din punctul de vedere al etichete morfologice (MSD) asociate în Tabelul 23.

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb

V.* Nominal (N|P|M).*

-

2. Verb (V|A).*

Prepoziţie S.*

Nominal (N|P|M).*

Page 36: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

31

3. Substantiv N.*

Prepoziţie S.*

Nominal (N|P|M).*

4 Adjectiv A.*

Prepoziţie S.*

Nominal (N|P|M).*

Tabelul 23 Scenariile corespunzătoare relaţiei complement indirect

Exemplul 20 Pentru cazurile specificate în Tabelul 23 avem: Cazul 1 nu a fost găsit în corpus în cadrul unui grup nominal, el având în general o frecvență redusă în structura grupurilor nominale. Caz 2: Ncmsry 1:Afpms-N 2:Spsa Ncfp-n („drumul brăzdat de lumini”). În acest caz se poate observa că verbul la participiu („brăzdat”) are eticheta morfologică de adjectiv (Afpms-N). Caz 3: 1:Ncfsry Spsa Ncfsrn 2:Spsa Ncmp-n („ora de trezire pentru funcţionari”). Caz 4: Ncmsry 1:Afpms-n 2:Spsa Npmsry („Ofițerul responsabil de Districtul_Extra-Teritorial_Masai”). În lucrarea (Perez, 2011) au fost tratate doar primele două scenarii, următoarele două fiind identificate în corpusul folosit în acest studiu.

14. Atribut verbal (marcat ca a.vb.) – Relația de dependență care se manifestă între un substantiv ca termen regent și un verb sau o prepoziție urmată de un verb nefinit. Există două cazuri de relație de dependență de tip atribut verbal (vezi Tabelul 24).

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Prepoziţie S.*

Verb nefinit Vm(g|n|u|p)*

2. Substantiv N.*

Verb V.*

-

3. Adjectiv A.*

Prepoziţie S.*

-

Tabelul 24 Scenariile corespunzătoare relaţiei atribut verbal

Exemplul 21 Pentru cazurile specificate în Tabelul 24 consider următoarele exemplificări: Caz 1: 1:Ncmsry 2:Spsa Vmp („stiloul de scris”). Caz 2: 1:Ncmsry 2:Vmnp („cuvântul „a visa””). Caz 3: Timsr 1:Afpms-n Ncms-n 2:Spsa Dw3--r- Ncfsry („un mediu cald în care carnea”). În lucrarea (Perez, 2011) au fost tratate doar primele două scenarii, ultimul fiind identificat în corpusul folosit în acest studiu.

Page 37: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

32

15. Apoziție (marcată ca ap.) – Relația de dependență care se manifestă între o parte de vorbire regentă și un nominal subordonat urmat de virgulă. Astfel, există două cazuri de apoziție având scenariile descrise de etichete morfologice din Tabelul 25.

Număr caz Regent Cuvânt subordonat Urmat de 1. X

.* Nominal (N|P|M).*

Virgulă ,|Punct

Tabelul 25 Scenarii corespunzătoare relaţiei apoziţie

Exemplul 22 Pentru cazurile specificat în Tabelul 25 consider următoarele situaţii: Caz 1: 1:Ncmsry Ds3ms-s Np Punct 2: Ncms-N Spsa Np Punct („băiatul său Aristide, student la Bucureşti,”). Acest scenariu apare si în lucrarea (Perez, 2011).

16. Nume predicativ (marcat ca n.pred) – Relația de dependență care se manifestă între o un verb copulativ regent și o altă parte de vorbire, cel mai adesea un adjectiv sau un nominal. Relația de dependență de tip nume predicativ se poate stabili și între un verb și o prepoziție. Există trei cazuri de scenarii pentru relaţia nume predicativ (vezi Tabelul 26).

Număr caz Regent Cuvânt subordonat Urmat de 1. Verb copulativ

Vc.* X .*

-

2. Verb V.*

Prepoziţie S.*

-

3. Verb copulativ Vc.*

Nominal (N|P|M).*

-

Tabelul 26 Scenariile corespunzătoare relaţiei nume predicativ

Exemplul 23 Pentru cazurile specificate în Tabelul 26 consider următoarele exemplificări: Caz 1: Ncfsry 1:Vcip3s 2:Afpfsrn („priveliștea este minunată”) Caz 2: Ncmsry 1:Vcip3s 2:Spsa Vmp („chestionarul este de completat”) Caz 3: TDFPR RP AFPFP-N NCFP-N SPSA NCFSRY DS1FSRP 1:Vcip3p 2:PD3FPR („Cele mai frumoase zile din viaţa noastră sînt acelea”) Aceleași trei scenarii au fost tratate și în lucrarea (Perez, 2011).

17. Complement de agent (marcat ca c.ag) – Relația de dependență care se manifestă între o un adjectiv regent și o prepoziție sau între un verb regent și o prepoziție subordonată urmată de un nominal. Există două cazuri de relație de dependență de tip complement de agent (vezi Tabelul 27).

Page 38: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

33

Număr caz Regent Cuvânt subordonat Urmat de 1. Adjectiv

A.* Prepoziţie S.*

-

2. Verb V*

Prepoziţie S*

Nominal (N|P|M)*

Tabelul 27 Scenariile corespunzătoare relaţiei complement de agent

Exemplul 24 Pentru cazurile specificate în Tabelul 27 consider următoarele exemplificări: Caz 1: Ncmsry 1:Afpms-N 2:Spsa Ncfsrn („frunzişul pişcat de brumă”) Caz 2: Ncfpry 1:Afpfp-N 2:Spsa Pp3msr- („lucrurile scrise de el”). Aceleași două scenarii au fost tratate și în lucrarea (Perez, 2011).

18. Atribut pronominal (marcat ca a.pron) – Relația de dependență care se manifestă între un substantiv regent și o prepoziție urmată de un pronume. Astfel, există două cazuri de relație de dependență de tip atribut pronominal, fiind descrise in Tabelul 28.

Număr caz Regent Cuvânt subordonat Urmat de 1. Substantiv

N.* Prepoziţie S.*

Pronume P.*

2. Substantiv N.*

Adjectiv pronominal D.*

-

Tabelul 28 Scenariile corespunzătoare relaţiei atribut pronominal

Exemplul 25 Pentru cazul specificat în Tabelul 28 consider următoarea situaţie: Caz 1: 1:Ncmsry 2:Spsa Pp3msr- („cheful de el”) Caz2: Ncmsoy 2:Ds3---s 1:Ncms-n („viitorului ei soț”) În lucrarea (Perez, 2011) a fost tratate doar primul scenariu, ultimul fiind identificat în corpusul folosit în acest studiu.

2.3 Generalizarea modelelor nominale morfologice

Procesul de generalizare constituie următorul pas după ce se realizează identificarea

grupurilor nominale cu un extractor antrenat pe corpusul „1984”, adnotarea cuvintelor la partea de vorbire și marcarea relațiilor de dependență în cadrul fiecărui grup nominal. Asupra acestor modelele nominale morfologice s-au aplicat o seamă de reguli de generalizare. Rezultatul a fost o listă de structuri nominale sintactic-morfologice generale pentru fiecare relație de dependență întâlnită în corpus.

O reprezentare sintactică în care se reţin doar categoriile gramaticale ale cuvintelor unuui grup nominal identificat in corpus și relațiile de dependență dintre acestea, va fi

Page 39: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

34

utilizată pentru a reduce spațiul de căutare. Odată cu generalizarea modelelor nominale morfologice, nu doar se reduce spațiul de căutare, dar se extind și posibilele modele pentru o anumită relație de dependență sintactică, oferind noi posibilități prin folosirea expresiilor regulate.

În cadrul corpusului de antrenament, un grup nominal are marcate mai multe relații de dependență. Pentru fiecare relație de dependență (det., a.subst., a.adj.), în corpus au fost găsite diferite modele nominale morfologice care o includ. În cadrul unui model, regentul este marcat cu „1:”, iar termenul dependent cu „2:”. Exemplul 26 Pentru relația de determinare modelele nominale morfologice găsite sunt:

1. „a fetei sale”, reprezentat prin modelul nominal morfologic: „2:Tsfs 1:Ncfsoy Ds3fsos”

2. "a poliției", reprezentat prin modelul nominal morfologic: „2:Tsfs 1:Ncfsoy”

3. „a doamnei Parsons”, reprezentat prin modelul nominal morfologic: „2:Tsfs 1:Ncfsoy Np”

Fiecare model poate avea în structura sa, pe lângă etichetele care corespund elementelor aflate în relația de dependență și alte etichete care corespund celorlalte elemente din cadrul grupului nominal. Acestea descriu contextul. În Exemplul 26 de mai sus, în secvența 1, avem „Ds3fsos” iar în secvenţa 3 avem „Np” ca etichetele suplimentare. Aceste etichete morfologice (MSD) care nu corepund termenilor aflați în respectiva relație de dependență alcătuiesc ceea ce vom numi în continuare contexte. În funcție de poziția acestor etichete morfologice față de poziția etichetelor care corespund elementelor dependente, putem avea contexte stânga, contexte dreapta și contexte de mijloc. Atât „Ds3fsos”, cât și „Np” sunt contexte dreapta pentru modelele din relația de determinare prezentate în secvența 1 și, respectiv, în secvența 3. Un exemplu de context stânga în relația de determinare este termenul desemnat prin eticheta morfologică „Tsfs” din grupul nominal: „a unui sfârșit", reprezentat prin modelul de trei etichete MSD:

„Tsfs 2:Timso 1:Ncms-N”. Un context de mijloc în relația de determinare este termenul desemnat prin eticheta morfologică „AFP” în grupul nominal: „o asemenea cameră”, reprezentat prin modelul de trei etichete MSD:

„2:Tifsr Afp 1:Ncfsrn”. Studiul acesta își propune să generalizeze toate modelele care descriu o relație de dependență, în funcție de aceste contexte posibile și de elementele aflate în relație. Studiul prevede trei tipuri de generalizare, unul pentru fiecare tip de context. Scopul principal al generalizării este de a reduce numărul de modele pentru fiecare relație de dependență. Rezultatul acestui proces constă în determinarea unor modele complexe care pot conține

Page 40: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

35

contexte opționale sau obligatorii, descrise ca expresii regulate. În cadrul generalizării, pentru fiecare model nominal morfologic se va lucra cu toate cele trei tipuri de contexte: - Contextul stânga este reprezentat eticheta/ secvența de etichete morfologice aflate înaintea primului element care apare în relația de dependență respectivă.

- Contextul de mijloc este reprezentat de eticheta/ secvența de etichete morfologice aflate între cele două etichete ale elementelor din cadrul relației de dependență respective.

- Contextul dreapta este reprezentat eticheta/ secvența de etichete morfologice aflate după ultimul element care apare în relația de dependență respectivă.

Fiecare dependent este format dintr-un singur cuvânt căruia îi corespunde o singură etichetă morfologică, iar fiecare context poate avea zero sau mai multe etichete morfologice. Contextele obținute în cadrul generalizării pot fi opționale, marcate la final cu „?” sau obligatorii, marcate la final cu „{1}” (vezi Tabelul 10).

Procesul de generalizare al secvențelor va ține cont de prezența sau absența contextelor pentru ca în cadrul secvențelor rezultate, contextele pot să fie opționale sau obligatorii. Fiecare generalizare de context se aplică dacă toate celelalte elemente cu excepția celui care este generalizat sunt sunt aceleași. Prin celelalte elemente întelegem aicea cele două elemente aflate în relație și celelalte două dintre contexte.

2.3.1 Generalizarea contextelor dreapta În cadrul procesului de generalizare mai întâi se identifică toate contextele dreapta ale

modelelor nominale morfologice care au aceleași contexte de mijloc și stânga și aceleași elemente aflate în relație. Să considerăm următorul exemplu:

Exemplul 27 Considerăm următoarele trei modele nominale morfologice pentru relația de determinare:

1. „2:Tsfs 1:Ncfsoy Ds3fsos” – codifică grupul nominal „a fetei sale”

2. „2:Tsfs 1:Ncfsoy” – codifică grupul nominal „a poliției"

3. „2:Tsfs 1:Ncfsoy Np” – codifică grupul nominal „a doamnei Parsons” Se realizează generalizarea contextului dreapta pentru aceste modele. După cum se

poate vedea, în aceste trei modele nominale morfologice, atât contextele de mijloc, cât și stânga sunt vide. Pentru fiecare dintre ele regentul este elementul cu eticheta morfologică „Ncfsoy”, iar cel dependent este cel cu eticheta morfologică „Tsfs”. Contextele dreapta sunt definite prin următoarele etichete morfologice: „Ds3fsos”, „NP” și șirul vid.

După generalizarea contextelor dreapta se va obține următoarul model nominal generalizat, având structura morfologică:

„2:TSFS 1:NCFSOY (DS3FSOS|NP)?”

Page 41: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

36

unde „(DS3FSOS|NP)?" este un context dreapta opțional deoarece el poate fie să conțină unul din contextele menționate anterior separate prin operatorul ("|"), fie să fie vid ca în modelul nominal morfologic 2.

2.3.2 Generalizarea contextelor mijloc

Primul pas în acest proces de generalizare este găsirea tuturor contextelor de mijloc ale modelelor nominale morfologice care au aceleași contexte dreapta și stânga și aceleași elemente aflate în relație. Considerăm pentru exemplificare un set de modele nominale morfologice.

Exemplul 28 Să considerăm următoarele modele nominale morfologice toate corespunzând relației de atribut adjectival, existentă între un nominal și un adjectiv aflat la dreapta lui, la o oarecare distanță:

1. „1:NCFPRY DD3FPR- AFPFP-N 2:AFPFP-N” – codifică grupul nominal „Fetele acestea frumoase triste”.

2. „1:Ncfpry Pp3mso- 2:Afpfp-N” – codifică grupul nominal „mâinile lui curate”.

3. „1:Ncfpry 2:Afpfp-N” – codifică grupul nominal „florile albastre”.

4. „1:Ncfpry Pp3-Po- Afpfp-N Punct 2:Afpfp-N” – codifică grupul nominal „Frunzele lor uscate, ruginii”. În aceste patru modele nominale morfologice, atât contextele dreapta, cât și stânga

sunt vide. Pentru fiecare dintre ele regentul este elementul cu eticheta morfologică „Ncfpry”, iar cel dependent este cel cu eticheta morfologică „Afpfp-N”. Contextele de mijloc, dintre elementele care se află în relația de dependență sunt definite prin următoarele etichete morfologice: „Dd3fpr- Afpfp-N”, „Pp3mso-” și „Pp3-Po-Afpfp-N Punct”.

După generalizarea contextelor de mijloc se va obține următoarul model nominal generalizat în care contextul de mijloc este opțional:

„Ncfpry (Dd3fpr- Afpfp-N|Pp3mso-|Pp3-Po- Afpfp-N Punct)?( )? Afpfp-N”.

2.3.3 Generalizarea contextelor stânga Generalizarea contextelor stânga este similară cu celelalte două descrise anterior. Se

caută perechi identice de etichete morfologice pentru termenii aflați în aceiași relație de depență . După ce vom găsi toate aceste perechi, pentru fiecare pereche, vom extrage

Page 42: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

37

contextele stânga din modelele nominale morfologice în care apare acea pereche de elemente relaționate. Exemplul 29 Să considerăm urmatoarele modele nominale corespunzătoare relației de atribut adjectival:

1. „Tifsr 1:Ncfsrn 2:Afpfsrn” – codifică grupul nominal „o noapte înstelată”.

2. „1:Ncfsrn 2:Afpfsrn” – codifică grupul nominal „lebăda albă”.

3. „Dd3fsr- 1:Ncfsrn 2:Afpfsrn” – codifică grupul nominal „acea balerină talenntată”.

4. „Mcfs-L Afpfsrn 1:Ncfsrn 2:Afpfsrn” – codifică grupul nominal „o sigură zi ploioasă”. În aceste modele, se pot identifica următoarele contexte stânga obligatorii: "Tifsr",

"Dd3fsr-" și "Mcfs-L Afpfsrn", și unul vid pentru cel de-al doilea model. Datorită contextului stânga vid, modelul generalizat va avea un context stânga opțional şi astfel modelul nominal generalizat devine:

„(TIFSR|DD3FSR-|MCFS-L AFPFSRN)?( )?NCFSRN AFPFSRN”

2.3.4 Generalizarea completă

Generalizarea completă constă aplicarea succesivă a tuturor generalizărilor pentru fiecare context în parte. Deoarece în cadrul generalizării se urmărește compararea atât a elementelor aflate în respectiva relație de dependență, cât și a contextelor, rezultatul după toate cele trei generalizări este același indiferent de ordinea în care sunt aplicate. Astfel s-a reușit reducerea numărului de modele nominale obținându-se un set de Modele Nominale Morfologice Generalizate.

Nr. crt.

Denumirea relației de

dependență Model nominal mofologic complet generalizat

1. a.subst. 1:Ncfsry (Afpfsrn Tsfs){1} 2:Ncmpoy (Afpmp-N|Spsa Np){1}

2. a.adj. (Ncfpry Spsa)?( )?1:Ncfsrn (Afpfsrn){1} 2:Afpfsrn (Crssp Afpfsrn){1}

3. det. (Ncfsry|Ncfpry)?( )?2:Td-Po 1:Mc-P-L (Ncmp-N){1} 4. prep. (Di3mpr- Ncmp-N){1} 1:Spsa 2:Ncmsry (Mo---Ln){1} 5. c.c.l (Ncmp-N|Tifsr Ncfsrn Spsa Ncmp-N){1} 1:Afpmp-N

2:Spsa (Ncmsry Ncmsoy){1} 6. comp. (Tdfsr)?( )?2:Rp 1:Afpfsrn (Ncfsrn){1} 7. c.c.m (Ncmsry){1} 2:Rgp 1:Rgp (Rw Afpms-N){1}

Page 43: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

38

8. c.c.scop. (Ncfsoy Spsa Ncfsrn|Ncfsrn Afpfsrn Tsfs Ncfsoy Spsa Ncfsrn){1} 1:Afpfsrn 2:Spsa (Ncfsry Ncfsoy Ncfsoy){1}")

9. c.c.cz (Di3){1} 1:Ncfsrn 2:Spcg (Ncmsoy){1} 10. a.adv. (Ncfsry Ncfsoy Spsa Ncfsrn Punct|Ncfsoy Spsa

Ncfsrn Punct){1} 2:Rgp 1:Ncfsry (Spsa Ncfsry Npfsoy){1}

11. c.c.exc (Di3--R- Ncfsrn){1} 1:Afpfsrn (Punct){1} 2:Spca (Ncmsry){1}

12. c.i (Ncfsry Afpfsrn|Tifsr Ncfsrn){1} 1:Afpfsrn 2:Spsa (Ncms-N){1}

13. a.vb (Ncmsoy Afpfsoy|Afpfsoy){1} 1:Ncfson 2:Spsa (Ncmsry){1}

14. n.pred. (Tifsr){1} 1:Ncfsrn (Afpf--N Punct){1} 2:Spsa (Ncfp-N){1}

15. c.ag (Ncmsry){1} 1:Afpms-N (Spsa Mcfp-Ln Crssp Mcfprln){1} 2:Spsa (Ncmp-N){1}

16. a.pron (TIFSR){1} 1:NCFSRN (AFPFSRN){1} 2:SPSA (PD3FPR){1}

Tabelul 29 Exemple de Modele Nominale Mofologice Generalizate

Page 44: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

39

Capitolul 3

Generator pentru modele nominale morfologice generalizate În cadrul acestui capitol este prezentată partea aplicativă a acestui studiu, rezultate obținute și evaluarea acestor rezultate, precum și prezentarea unor posibile direcții viitoare pentru acest studiu. Generatorul automat pentru modelele nominale morfologice generalizate este util pentru procesări sintactice ale limbajului natural, putând fi folosit pentru orice modele de limbă, nu doar cele nominale, care au marcate relațiile de dependență și sunt etichetate morfologic la nivel de cuvânt. Acest generator a fost aplicat în cadrul acestui studiu doar pe grupurile nominale, dar este dezvoltat independent de tipul grupului și de relația de dependență marcată, el fiind deschis atât utilizărilor viitoare, cât și posibilelor îmbunătățiri care i-ar putea fi aduse. Mecanismul de generalizare al acestui instrument are ca scop preluarea modelelor nominale specifice fiecărei relații de dependență și construirea de modele nominale generale care restrâng ca număr, modelele inițiale dar, și în aceeaşi măsură, extind posibilele structuri nominale atasate unei relației de dependență în cauză. Aceste noi modele vor fi responsabile pentru analiza sintactică a textelor etichetate la nivel de cuvânt.

3.1 Construirea colecţiilor de modele nominale

Pentru a se obține modele nominale morfologice pentru limba română, care se

constituie ca datele de intrare ale generatorului, este necesar ca pe corpusul inițial de antrenament să se realizeze operațiile de segmentare în grupuri nominale, etichetarea părților de vorbire și adnotarea relațiilor de dependență.

Etichetarea părților de vorbire cu ajutorul clasificatorului (Simionescu, 2011) suferă unele schimbări față de accepțiunile gramaticale ale limbii române. Spre exemplu, în aceste resurse, deverbativele18 precum cuvântul ”obținute” din construcția ”rezultate obținute” sunt adnotate ca verbe la modul participiu care au gen și care se acordă cu substantivul pe care îl determină. Corpusul inițial din care sunt extrase grupurile nominale conțin cel puțin câte o ocurență pentru fiecare etichetă din setul de posibilități. Pentru a satisface această restricție, etichetele care nu au fost găsite sunt introduse forțat la finalul acestuia, în propoziții de câte un singur cuvânt.

După această adnotare la nivel de dependențe, se grupează toate modelele nominale morfologice care conțin o anumită relație de dependență într-un fișier, având ca nume, 18 adjective provenite din verbe la participiu

Page 45: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

40

denumirea respectivei relații. Același grup nominal apare în toate fișierele corespunzătoare respectivelor relații de dependență din cadrul său. Aceste fișiere, numite colecții de modele nominale morfologice, vor constitui date de intrare pentru generator. Adnotarea diferită a dependențelor face ca modele nominale morfologice să fie distincte. (Vezi Figura 7)

Figura 7 Modelele nominale morfologice și arborele de dependență pentru grupul nominal „orice/Di3--r- colţ/Ncms-n mai/Rp mare/Afpms-n de/Spsa stradă/Ncfsrn”

Fiecare colecție corespunzătoare unei relații de dependență conține un număr diferit de modele nominale morfologice, cuprins între 1-5 modele pentru cele mai rare dependențe indentificate și 2064 de modele pentru cele mai frecvente.

În functie de dimensiunea lor avea trei tipuri de colecții (Vezi Figura 8): Colecții de mici dimensiuni (1-9 modele nominale morfologice): pentru

relațiile de dependență: a.vb., c.c.cz., c.c.exc., c.c.scop. și n.pred. Colecții de dimensiuni medii (22-345 modele nominale morfologice): pentru

relațiile de dependență: a.adv., a.pron., a.vb.,ap., c.ag., c.c.l., c.c.m., c.i, comp. și coord.

Colecții de dimensiuni mari (930-2064 modele nominale morfologice): pentru relațiile de dependență: a.adj., a.subst., prep și det.

Page 46: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

41

Figura 8 Diferite tipuri de colecții în funcție de dimenisunea lor (numărul de modele nominale morfologice conţinute)

0

2

4

6

8

10

Corpusuri de dimensiuni mici

c.c.cz.

a.vb.

n.pred.

c.c.scop.

c.c.exc.

0

50

100

150

200

250

300

350

Colecții de dimensiuni mediicoord.

comp.

c.i.

c.c.m.

c.c.l.

ap.

a.pron.

a.adv.

c.ag.

0

500

1000

1500

2000

2500

Corpusuri de dimensiuni mari

a.subst.

a.adj.

prep.

det.

Page 47: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

42

3.2 Implementarea Generatorului pentru Modelele Nominale Morfologice Generalizate

Generatorul a fost implementat în limbajul de programare Java SE cu ajutorul

utilitarului NetBeans 7.3. Aplicația este structurată pe mai multe module, fiecare dintre ele fiind răspunzător de

o anumită sarcină, iar ingineria sistemului s-a făcut utilizând modelul în cascadă. Acest mod de proiectare presupune parcurgerea succesivă a următorilor pași: ingineria cerinţelor, proiectarea arhitecturală, proiectarea detaliată, implementarea, testarea unităţilor, testarea întregului sistem, după care ultimul pas este cel de acceptare. Arhitectura sistemului este structurată în cinci module, așa cum se poate observa în Figura 9. Sistemul lucrează automat după ce colecţiile cu modele nominale morfologice au fost extrase din corpus.

Figura 9 Arhitectura Generatorului pentru Modelele Nominale Morfologice Generalizate

Elementele componente ale modelelor nominale morfologice sunt identificate în sistem cu ajutorul unor expresii regulate:

Contextul stânga: "("+".*"+")"+"("+" (1|2){1}:.*"+")"+"("+"(1|2){1}:.*"+")", iar grupul (contextul) căutat este "("+".*"+")" din model.

Primul element care apare în model, aflat în relația de dependență: "("+".*"+")"+"("+"(1|2){1}:[^ ]* "+")"+"("+".*"+")"+"("+"(1|2){1}:.*"+")", iar grupul (elementul) cautat este "("+"(1|2){1}:[^ ]* "+")" din model.

Preluarea și Analiza Datelor de intrare

Generalizarea Contextelor Stânga

Generalizarea Contextelor Mijloc

Generalizarea Contextelor Dreapta

Furnizarea Datelor de ieșire

Page 48: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

43

Contextul de mijloc: "("+".*"+")"+"("+"(1|2){1}:[^ ]* "+")"+"("+".+"+")"+"("+" (1|2){1}:.*"+")", iar grupul (contextul) căutat este al doilea de forma "("+".*"+")" din model.

Al doilea element care apare în model, aflat în relația de dependență: "("+".*"+")"+"("+"(1|2){1}:.*"+")"+"("+".*"+")"+"("+"(1|2){1}:[^ ]+ *"+")" iar grupul (elementul) căutat este "("+"(1|2){1}:[^ ]+ *"+")" din model.

Contextul stânga: "("+".*(1|2){1}:.* "+")"+"("+"(1|2){1}:[^ ]* "+")"+"("+".+"+")", iar grupul (contextul) căutat este "("+".+"+")" din model.

Pentru a genera contextele opționale și obligatorii, mai întâi se verifică dacă celelalte elemente (cele implicate in relaţia de dependenţă în primul rând şi în al doilea rând contexte în afara celui care se generalizează) coincid. În caz afirmativ, se vor grupa toate elementele găsite pentru respectivul context cu ajutorul operatorului „|”. Dacă contextul generalizat se găsesște în toate modelele, el va apărea ca obligatoriu în modelul generalizat, altfel, dacă există cel puțin un model în care contextul pentru care se face generalizarea este vid, atunci în modelul generalizat contextul respectiv va fi opțional.

Exemplul 30 Considerăm pentru exemplificare mecanismului de generalizare următorul set de modele:

1. left1 1:dep1 middle1 2:dep2 right1 2. left2 1:dep2 middle2 2:dep1 right3 3. 1:dep1 middle2 2:dep2 right1 4. 1:dep1 middle1 2:dep2 right3 5. 1:dep1 2:dep2 right3 6. left2 1:dep1 middle1 2:dep2 right1 7. 1:dep2 middle2 2:dep1 right3 8. 1:dep3 middle1 2:dep2 right1 9. left3 1:dep1 middle1 2:dep2 right1 10. left3 1:dep1 middle2 2:dep2 right1 11. 1:dep3 middle1 2:dep2 right2

Pasul 1: Generalizare context Stânga: Din 1), 6) și 9) => (left1|left2|left3){1} 1:dep1 middle1 2:dep2 right1 Din 2) și 7) => left2? 1:dep2 middle2 2:dep1 right3 Din 3) și 10) => left3? 1:dep1 middle2 2:dep2 right1

Modelele finale după Pasul 1: 1. (left1|left2|left3){1} 1:dep1 middle1 2:dep2 right1 2. left2? 1:dep2 middle2 2:dep1 right3 3. left3? 1:dep1 middle2 2:dep2 right1 4. 1:dep1 middle1 2:dep2 right3 5. 1:dep1 2:dep2 right3 6. 1:dep3 middle1 2:dep2 right1

Page 49: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

44

7. 1:dep3 middle1 2:dep2 right2 Pasul 2: Generalizare context Mijloc:

Modelele finale după Pasul 1 constituie datele de intrare pentru Pasul 2. Din 4) și 5) =>1:dep1 middle1? 2:dep2 right3

Modelele finale după Pasul 2: 1. (left1|left2|left3){1} 1:dep1 middle1 2:dep2 right1 2. left2? 1:dep2 middle2 2:dep1 right3 3. left3? 1:dep1 middle2 2:dep2 right1 4. 1:dep1 middle1? 2:dep2 right3 5. 1:dep3 middle1 2:dep2 right1 6. 1:dep3 middle1 2:dep2 right2

Pasul 3: Generalizare context Dreapta: Modelele finale după Pasul 2 constituie datele de intrare pentru Pasul 3. Din 5) și 6) =>1:dep3 middle1 2:dep2 (right1|right2)?

Pasul 4: Modelele nominale morfologice generalizate sunt: 1. (left1|left2|left3){1} 1:dep1 middle1 2:dep2 right1 2. left2? 1:dep2 middle2 2:dep1 right3 3. left3? 1:dep1 middle2 2:dep2 right1 4. 1:dep1 middle1? 2:dep2 right3 5. 1:dep3 middle1 2:dep2 (right1|right2)?

Se observă că din 11 modele inițiale, au rezultat 5 modele generale, ca urmare setul de modele s-a redus mai mult de jumătate.

Interfața cu utilizatorul este ușor de folosit, având 3 secțiuni așa cum se poate vedea în Figura 10.

Figura 10 Interfața Generatorului pentru Modele Nominale Morfologice Generalizate

Page 50: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

45

3.3 Rezultate obținute

În această secțiune vor fi prezentate atât exemple practice de rezultate obținute de

Generatorul pentru Modele Nominale Morfologice Generalizate, cât și evaluarea acestor rezultate.

Denumire Relație de

Dependență

Model Nominal Morfologic Inițial Model Nominal Morfologic Generalizat

a.subst.

Ncfsry 1:Ncmpoy 2:Ncmsoy Afpms-n

1:Ncmsry 2:Ncfsoy (Afpfson|Pp3mso-)?

1:Ncmsry 2:Ncfsoy Afpfson 1:Ncmsry 2:Ncmsoy (Ncfsry)? 1:Ncmsry 2:Ncfsoy Pp3mso- (Ncfsry){1} 1:Ncmpoy 2:Ncmsoy

(Afpms-n){1} 1:Ncmsry 2:Ncmsoy Ncfsry 1:Ncfsry 2:Ncmpoy (Ncmsoy Afpms-n)? 1:Ncmsry 2:Ncmsoy 1:Ncfsry 2:Ncmpoy Ncmsoy Afpms-n

1:Ncfsry 2:Ncmpoy

det.

2:Timsr Afp 1:Ncms-n 2:Timsr (Afp|Afpms-n|Di3msr-){1} 1:Ncms-n 2:Tsfs 1:Ncfpoy 2:Tsfs 1:Ncfpoy (Pi3fsr)? 2:Timsr Afpms-n 1: Ncms-n (Ncmsry){1} 2:Tdmsr 1:Afpms-n (Crssp

Ncmsry Crssp Ncfsry Ncfsoy)? Ncmsry 2:Tdmsr 1:Afpms-n Crssp Ncmsry Crssp Ncfsry Ncfsoy

(Ncfsry){1} 2:Tdfsr 1:Afpfsrn (Tsfs Mofsoly Pp3mso- Ncfson){1}

2:Timsr Di3msr 1:Ncms-n (Timsr Ncms-n)?( )?2:Tsms 1:Ncmsoy (Afpms-n){1}

Ncfsry 2:Tdfsr 1:Afpfsrn Tsfs Mofsoly Pp3mso- Ncfson

Ncmsry 2:Tdmsr 1:Afpms-n 2:Tsfs 1:Ncfpoy Pi3fsr 2:Tsms 1:Ncmsoy Afpms-n Timsr Ncms-n 2:Tsms 1:Ncmsoy Afpms-n

a.adj.

Timsr 1:Ncms-n Afpms-n 2:Afpms-n

(Timsr)?( )?1:Ncms-n Afpms-n 2:Afpms-n

1:Ncmsry Tdmsr 2:Afpms-n 1:Ncmsry (Tdmsr|Dd3msr-|Pp3mso-)? ( )?2:Afpms-n

1:Ncmsry 2:Afpms-n 1:Ncmsry Dd3msr- 2:Afpms-n 1:Ncms-n Afpms-n 2:Afpms-n 1:Ncmsry Pp3mso- 2:Afpms-n

Tabelul 30 O parte a rezultatelor obținute în cadrul studiului sintactic

Page 51: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

46

Se poate observa importanța generalizării, în contextul micșorării colecțiilor și implicit a numărului de structuri nominale morfologice în Tabelul 30.

Nr.crt. Relație Număr inițial de modele Număr final de modele 1. a.adj. 2005 774 2. a.adv. 24 20 3. a.pron. 33 20 4. a.subst. 2064 861 5. a.vb. 8 6 6. ap. 36 27 7. c.ag. 22 15 8. c.c.cz. 9 7 9. c.c.exc. 1 1

10. c.c.l. 56 41 11. c.c.m. 72 61 12. c.c.scop. 2 1 13. c.i. 100 62 14. comp. 122 63 15. det. 930 278 16. n.pred. 5 3 17. prep. 1561 597

Tabelul 30 Restrângerea numărului de modele nominale morfologice după generalizare

3.4 Direcții viitoare

În vederea îmbunătăţirii metodei propuse pentru analiza sintactică a grupurilor nominale din limba română, ar fi necesară adăugarea unor module, informații și adnotări noi, cum ar fi:

Informația lexicală a cuvintelor acolo unde acelesași etichete morfologice determină relaţii de dependență diferite. Această informație ar putea fi utilă dacă ar însoți informația morfologică corespunzătoare modelelor similare pentru relațiile de coordonare și apoziție ca în exemplul de mai jos.

Exemplul 31: Relație de coordonare: 2:Ncfsry 1:Punct 2:Ncfsry („floarea, frunza” în contextul „floarea, frunza se asortau” înțelegem că e vorba de relația de coordonare din informația lexicală deoarece niciodată termenul „frunza” nu va putea explica termenul „floarea”, fiind termeni cu aceiași importanță.) Apoziție: 1:Ncfsry Punct 2:Ncfsry („tânara, studenta” în contextul „tânara, studenta mai are de dat două examene”, se deduce apoziția deoarece al doilea termen de după virgulă îl

Page 52: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

47

explică pe primul, fiind de obicei un termen fie mai particular, fie mai general din același câmp semantic.

Construirea unor corpusuri noi de test și de antrenament Odată cu colectarea de modele nominale morfologice noi din mai multe corpusuri de

antrenament și aplicarea modelelor generalizate pe diferite corpususuri de test, poate duce la mărirea preciziei rezultatelor.

Reducerea formelor morfologice “de adâncime” ale cuvintelor din propoziție O formă morfologică „de adâncime” a unui cuvânt este formată din lema acestuia

însoțită de eticheta MSD care dă detalii despre atributele morfosintactice ale respectivului cuvânt. Reducerea acestor forme „de adâncime” ar însemna practic păstrarea doar a acelor caracteristici definitorii pentru un cuvânt dintr-un anumit model morologic nominal. Acest lucru ar presupune generalizarea modelelor și la nivel de etichetă, ținându-se seama de importanța fiecărui atribut din cadrul etichetei.

Construirea unui analizor lexical de legături (procesor) care are sarcina de a “desena” structura de conexiuni lexicale, astfel încât proprietățile acestei structuri să fie respectate și de a memora perechile de cuvinte care se află în legătură, asemănator relațiilor de dependență.

Acest analizor lexical ar avea sarcina, împreună cu modelul de limbă, de a observa legături lexicale între cuvinte, asemeni relațiilor de dependență de la nivel sintactic. Utilitatea acestuii analizator s-ar vedea în cadrul expresiilor specifice unei limbi, sau a construcțiilor ironice unde modelul sintacric poate fi insuficient.

Conectarea modelelor sintactice cu cele semantice Această conectare ar trebui să funcționeze în momentul în care informația sintactică nu este suficientă, ducând la diminuarea preciziei. Modelul semantic în acest caz, vizeză multiplele posibilități de sens ale unui cuvânt, care pot duce și la diferențe sintactice. Un exemplu în acest sens poate fi adverbul care poate introduce atât o construcție modală , căt și una temporală după cum se poate observa în Exemplul 32. Acest exemplu nu corespunde relațiilor de dependență din grupurile nominale, dar pe viitor acest studiu se poate extinde și la celalte tipuri de grupuri. Exemplul 32: Construcție temporală: „Băiatul, cum îl văzu, alergă spre el.” Construcție modală: „Scrie, cum poate.”

În aceste cazuri e necesară informația semantică a adverbului „cum”, adică întelesul de mod sau de timp.

Determinarea unui indicator care să poată exprima probabilitatea de apariție unei anumite relații de dependență în cadrul unui anumit grup nominal, ținând cont de etichetele morfologice din contextele stânga, dreapta și mijloc.

Această propunere are ca scop rezolvarea cazului când modele nominale morfologice corespunzătoare diferitelor relații de dependență au aceleași etichete morfologice pentru regent, respectiv dependent, dar contextele stânga, dreapta sau mijloc difera. Aici contextele

Page 53: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

48

capată importanța decisivă, și pentru a evita compararea fiecărui context din punct de vedere morfologic, putem asocia un singur indicator corespunzător respectivei relații de dependență.

Construirea unui model de limbă. Acest model de limbă ar avea sarcina de a lucra impreună cu un analizator lexical de

legături, a cărui mecanism a fost descris mai sus. Paralelizarea informației morfologico-sintactice cu cele semantice ale cuvintelor.

Paralelizarea informații morfologico-sintactice are ca scop, dezvoltarea pe două nivele separate, dar inter-conectate, cel al analizei proprietăților morfologice, respectiv sintactice. În acest separarea nu a fost una radicală, la nivelul implementării, ea fiind doar sugerată de folosirea la nivel sintactic, în cadrul modelelor, a construcției „1:” pentru termenul regent și „2:” pentru cel dependent. În implementare s-a lucrat la același nivel, cel atributelor morfologice și al notațiilor sintactice, separarea nefiind foarte clară.

Construirea unui mecanism care să calculeze coeficienţi de atracție sematică între cuvinte.

Modelul de limbă indică totodată și cuvinte aflate în vecinătate care „se cer unul pe altul”, având o frecvență de apariție mult mai mare împreună, decât separat, iar acest lucru s-ar putea calcula pe corpusuri mari și găsi acești coeficienți care ar putea dicta relația de dependență care se stabilește între ele, daca modelul nominal morfologic nu e foarte precis.

Adnotarea prin vot majoritar a corpusului. Pe parcusul studiului s-a observat că unele relații de dependență erau adnotate diferit de diferiți specialiști. În acest caz e necesară găsirea unui număr mare de adnotatori, specialiști sau nu, care să adnoteze corpusurile, iar prin vot majoritar să se găsească relația cea mai potrivită.

Page 54: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

49

Concluzii

Prin această lucrare s-a realizat un studiu asupra tuturor relațiilor de dependență din cadrul grupurilor nominale identificate într-un corpus de mari dimensiuni, folosind modele nominale morfologice. Aceste modele au fost grupate în colecții specifice fiecărei relații de dependență, iar în cadrul fiecărui model au fost adnotate termenul regent și cel dependent. Fiecare colecție de modele a fost supusă unei operații de generalizare cu ajutorul unui generator de modele generalizate, obținându-se pentru fiecare relație de dependență modele nominale morfologice generale, care conțin expresii regulate.

Folosind acest generator s-a reușit reducerea numărului de modele și totodată s-a studiat comportamentul etichetelor morfologice, atât ale elementelor aflate în relația de dependență cât și ale contextelor învecinate.

Rezultatele obținute în urma generalizării sunt favorabile atât în direcția micșorării colecțiilor de modele nominale morfologice, cât și în aplicarea modelelor generale noi pe corpusuri adnotate la nivel morfologic. Aceste modele oferă o imagine completă asupra caracteristicilor morfologico–sintactice din cadrul grupurilor nominale din limba română. Importanța studierii relațiilor de dependență a fost dovedită de numeroase aplicații de prelucrare ale limbajului natural, deoarece aceste relații organizează cuvintele și informația care se comunică. În cadrul grupurilor nominale din corpusul de antrenament au fost identificate 18 tipuri de relații de de dependență, dintrre care cele mai frecvente sunt: atribut substantival, atribut adjectival, determinare și relația prepozițională.

Una dintre principalele avantaje ale generatorului de modele morfologice generalizate este că el poate fi folosit în același mod pentru orice fel de colecții de modele ale grupurilor sintactice specifice limbii române. Singura restricție este aceea că, mai întâi, cuvintele trebuie adnotate la nivel morfologic și marcați termenii aflați în relația de dependență. Generatorul prezentat în cadrul acestei lucrări este independent de tipul de grup sintactic, de tipul de relație de dependență și de limbă, etichetele morfologice putând fi specifice oricărei limbi. În cadrul acestui studiu au fost generalizate modelele nominale specifice limbii române, acesta fiind doar un caz particular de aplicabilitate.

Generatorul pentru modele morfologice generalizate constituie un instrument util în dezvoltarea de aplicații viitoare care se bazează pe analizatori ai relaţiilor de dependență sintactică. Totodată, aplicarea modelelor nominale generalizate poate mări acuratețea de identificare a legaturilor de dependenţă între cuvintele unui text, prin mărirea preciziei și recall-ului respectivelor aplicații.

Cel mai important aspect care rezultă din implementarea propusă în această lucrare este că, pe baza modelelor morfologice generate s-a studiat fiecare relație de dependență din cadrul grupurilor nominale extrase din corpus, observându-se caracteristicile ei morfo-sintactice definitorii, fapt ce poate ajuta la creșterea acurateței de adnotare.

Page 55: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

50

Bibliografie (Mel’čuk, 1988) Igor Mel’čuk. Dependency Syntax: theory and practice. State University

of New York Press, Albany, NY, 1988. (Colhon, 2013) Mihaela Colhon, eRoL Automatic Voice Translator for Romanian:

Building Resources for a Symbolic Machine Translation Program, Editura Universitaria, Craiova, 2013.

(Forăscu et al., 2006) Corina Forăscu, Dan Tufiş, Dan Cristea, Lucrările atelierului

Resurse lingvistice şi instrumente pentru prelucrarea limbii române, Editura Universităţii Alexandru Ioan Cuza, Iaşi, 2006.

(Cristea, 2012) Dan Cristea, Resurse lingvistice şi tehnologiile limbajului natural. Cazul

limbii române, Facultatea de Informatică, Universitatea „Alexandru Ioan Cuza”, Institutul de Informatică Teoretică, Academia Română, filiala Iaşi, 2012.

(Trandabăț et al., 2012) Diana Trandabăț, Elena Irimia,Verginica Barbu Mititelu, Dan

Cristea, Dan Tufiș, Limba Română în Era Digitală, META NET, Editura Springer, 2012.

(Ișan et al., 2010) Vasile Ișan, Henri Luchian, Gheorghe Grigoraș, Dan Cristea, Dumitru

Oprea, Florin Gheorghe Filip, Eugen Munteanu, Laudatio Domnului profesor universitar doctor Dan Tufiș, Universitatea „Alexandru Ioan Cuza”, Iaşi, 2012.

(Pistol şi al, 2007) Ionuț Cristian Pistol, Dan Cristea, Dan Tufis, Lucrările atelierului

Resurse lingvistice şi instrumente pentru prelucrarea limbii române, Editura Universităţii Alexandru Ioan Cuza, Iaşi, 2007.

(Simionescu, 2012) Radu Simionescu, Romanian Deep Noun Phrase Chunking Using

Graphical Grammar Studio, Universitatea Alexandru Ioan Cuza, Facultatea de Informatică, Iaşi, 2012.

(Ion, 2007) Radu Ion, Metode de dezambiguizare semantică automată. Aplicații pentru

limbile engleză și română, București: Teză de doctorat, Institutul de Cercetări pentru Inteligență Artificială, Academia Română, 2007.

(Simionescu, 2011) Radu Simionescu, POS-tagger hibrid, Lucrare de Disertație,

Universitatea „Alexandru Ioan Cuza”, Facultatea de Informatică, Iaşi, 2011.

Page 56: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

51

(Erjavec et al., 2003) Tomaž Erjavec, Cvetana Krstev, Vladimír Petkevič, Kiril Simov, Marko Tadić, Duško Vitas, The MULTEXT-East Morphosyntactic Specifications for Slavic Languages, EACL, 2003.

(Perez, 2011) Cenel-Augusto Perez, Resurse Lingvistice Pentru Prelucrarea Limbajului

Natural, Raport Doctorat, Universitatea „Alexandru Ioan Cuza”, Facultatea de Litere, Iaşi, 2011.

(Christodoulopoulos et al., 2011) Christos Christodoulopoulos, Sharon Goldwater,

Mark Steedman, A Bayesian Mixture Model for Part-of-Speech Induction Using Multiple Features, School of Informatics University of Edinburgh, 2011.

(Costa, 2013) Marta R. Costa, Morphological, Syntactical and Semantic Knowledge in

Statistical Machine Translation, Conference Handbook, (ACL), Statele Unite ale Americii, 2013.

(Andrei, 1998) Rareș Andrei, Mecanism de unificare pentru gramatici de limbaje

naturale, Universitatea Politehnica București, București, 1998. (Xu et al., 2002) Peng Xu, Ciprian Chelba, Frederick Jelinek, A Study on Richer Syntactic

Dependencies for Structured Language Modeling, (ACL), Philadelphia, 2002. (Abney , 1983) Steven Paul Abney, The English Noun Phrase and its Sentential Aspect, B.A.,

Indiana University, 1983. (Bergsma & Wang, 2007) Shane Bergsma, Qin Iris Wang, Learning Noun Phrase Query

Segmentation, Department of Computing Science University of Alberta Edmonton, (ACL), Philadelphia, 2007.

(Vadas & Curran, 2011) David Vadas, James R. Curran, Parsing Noun Phrases in the

Penn Treebank, School of Information Technologies, University of Sydney, Australia, 2011.

(Novac, 2007) Adela Novac, Limba Română Contemporană, (Note de curs),

Universitatea De Stat „Alecu Russo”, Catedra De Limba Română, Bălți, 2007.

(Gramatica limbii române, 1966) Gramatica limbii române, vol.II, Ediţia a doua revăzută şi adăugită, Bucureşti, 1966.

(Dimitriu, 2002) Corneliu Dimitriu, Tratat de gramatică a limbii române. Sintaxa,

Institutul European Iaşi, 2002.

Page 57: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

52

(Louis & Nenkova, 2012)Annie Louis, Ani Nenkova, A coherence model based on

syntactic patterns, University of Pennsylvania, (ACL), Philadelphia, 2012. (Vadas & Curran, 2006) David Vadas, James R. Curran, Adding Noun Phrase Structure

to the Penn Treebank, School of Information Technologies, University of Sydney, Australia, 2006.

(Buyko & Hahn, 2008) Ekaterina Buyko, Udo Hahn, Are Morpho-Syntactic Features More Predictive for the Resolution of Noun Phrase Coordination Ambiguity than Lexico-Semantic Similarity Scores?, Jena University Language & Information Engineering, (ACL) Germania, 2008.

(Bojar, 2009) Ondřej Bojar, Exploiting Linguistic Data in Machine Translation,

Institute of Formal and Applied Linguistics, Republica Cehă, 2009. (Göhring, 2009) Anne Göhring, Spanish Expansion of a Parallel Treebank., Teză de

doctorat, University of Zürich, Elveția, 2009. (Clark et al., 2002) Stephen Clark, Julia Hockenmaier, Mark Steedman, Building Deep

Dependency Structures with a Wide-Coverage CCG Parser, Division of Informatics, University of Edinburgh, Anglia, (ACL), 2002.

(Grishman & Sterling, 1994) Ralph Grishman, John Sterling Generalizing

Automatically Generated Selectional Patterns, Computer Science Department, New York University, (ACL), America, 1994.

(Zhao & Al-onaizan, 2008) Bing Zhao, Yaser Al-onaizan, Generalizing Local and Non-

Local Word-Reordering Patterns for Syntax-Based Machine Translation, IBM T.J. Watson Research, (ACL), New York, 2008.

(Boonkwan & Steedman, 2011) Prachya Boonkwan, Mark Steedman, Grammar

Induction from Text Using Small Syntactic Prototypes, School of Informatics, University of Edinburgh, (ACL), Anglia, 2011.

(Homola, 2009) Petr Homola, Syntactic Analysis in Machine Translation, Institute of

Formal and Applied Linguistics, Republica Cehă, 2009. (Doi et al., 1993) Shinichi Doi, Kazunori Muraki, Shinichiro Kamei, Kiyoshi

Yamabana, Long Sentence Analysis by Domain-Specific Pattern Grammar, Information Technology Research Laboratories, Japonia, (ACL), 1993.

Page 58: Studiu Sintactic asupra Grupurilor Nominale din Limba Română

53

(Fernandez-Amoros, 2004) David Fernandez-Amoros, WSD Based on Mutual

Information and Syntactic Patterns, Barcelona, Spania, (ACL), 2004.