28
Uvod u računalnu metodologiju za jezično istraživanje Razine formalnog opisa i obrada jezika

Uvod u računalnu metodologiju za jezično istraživanje

  • Upload
    tavi

  • View
    37

  • Download
    0

Embed Size (px)

DESCRIPTION

Uvod u računalnu metodologiju za jezično istraživanje. Razine formalnog opisa i obrada jezika. Obrada jezika – termini. Označavanje ( tagging, mark-up ) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst - PowerPoint PPT Presentation

Citation preview

Page 1: Uvod u računalnu metodologiju za jezično istraživanje

Uvod u računalnu metodologiju za jezično istraživanje

Razine formalnog opisa i obrada

jezika

Page 2: Uvod u računalnu metodologiju za jezično istraživanje

Obrada jezika – termini Označavanje (tagging, mark-up) je

pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst

Oznake (tags) – umeću se u tekst Pri obilježavanju korpusa oznake se

umeću iz određenoga skupa oznaka Skup oznaka (tagset) je popis svih

mogućih oznaka kojima se može obilježavati tekst

Page 3: Uvod u računalnu metodologiju za jezično istraživanje

Razine obrade prirodnoga jezika (bez semantike)

1. tokenizacija (opojavničenje)2. segmentacija na rečenice3. lematizacija4. POS i MSD označavanje5. plitko (shallow) parsanje6. dubinsko (deep) parsanje POGRŠKE SE ČESTO ZBRAJAJU!

Page 4: Uvod u računalnu metodologiju za jezično istraživanje

Opojavničenje Postupak identifikacije i ekspliciranja

pojavnica, tj. lingvističkih jedinica kao što su “riječi”, interpunkcija, znamenke i sl.

Iako izgleda trivijalan problem, promotrimo slučajeve: 11. travnja 2008., Austro-Ugarska, daljinski upravljač, npr., SAD-a, we’ll, isn’t, Lebensversicherungsgesellschaftsangestellter, itd.

O koliko je pojavnica riječ?

Page 5: Uvod u računalnu metodologiju za jezično istraživanje

Segmentacija na rečenice Ekspliciranje granica između rečenica Znakovi interpunkcije (., ?, !) uvijek kraj

rečenice? Heuristički gledano, oko 90% točaka

jesu krajevi rečenica! PROBLEMI: titule, kratice, inicijali i sl.

Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K. itd.

Moguće riješiti ekskluzivnim pravilima (regularnim), preciznost > 99 %

Page 6: Uvod u računalnu metodologiju za jezično istraživanje

Lematizacija Lematizacija (lemmatisation) je

svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu

Lema je onaj oblik pod kojim bismo tražili neku riječ u rječniku

Lema predstavlja sve oblike određene riječi

Page 7: Uvod u računalnu metodologiju za jezično istraživanje

Lematizacija Na primjer, pojavnice walked, walks ili

walking bile bi svedene na lemu (to) walk Na primjer, pojavnice stol, stolova ili

stolu bile bi svedene na lemu stol Lematizacija se na isti način primjenjuje

na morfološki supletivne oblike, npr. jesam, bijah ili bila svode se na leksem biti

Nije isto što i stemming: pojavnicu stemmer→stemm, ali better→tek lematizator ispravno svodi na good

Page 8: Uvod u računalnu metodologiju za jezično istraživanje

Označavanje vrsta riječi (Part-of-speech (POS) tagging)

Označavanje vrsta riječi (POS tagging) je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu

Spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je npr. sintaktički parsing, chunking

Page 9: Uvod u računalnu metodologiju za jezično istraživanje

POS označivač (tagger)

Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger)

Osnovna podjela prema načinu rada na: One koji se zasnivaju na pravilima

(Rule based) Vjerojatnosne (Probabilistic)

Page 10: Uvod u računalnu metodologiju za jezično istraživanje

Označavanje vrsta riječi

Točnost automatskog označavanja danas: do 96-97 %

POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik, a različite gramatičke kategorije i/ili značenje

Page 11: Uvod u računalnu metodologiju za jezično istraživanje

Alembic tagger vs. QTAG

Page 12: Uvod u računalnu metodologiju za jezično istraživanje

Prepoznavanje imena (Name recognition) Imena su često nepoznata sustavu za

obradu jezika (nema ih u leksikonu) Osobe, lokacije, tvrtke itd. čine otvoren

popis jezičnog inventara U nekim žanrovima teksta pokrivaju čak

jednu desetinu cjelokupnoga teksta Često se obavlja prije POS označavanja

ili parsinga

Page 13: Uvod u računalnu metodologiju za jezično istraživanje

Name recognition - eng<ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX TYPE="DATE">March 7</TIMEX> (<ENAMEX TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct television broadcasting venture.

<ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in <TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX TYPE="DATE">end of 1997</TIMEX>.

Page 14: Uvod u računalnu metodologiju za jezično istraživanje

Parsanje (parsing)

Parsanje (ili sintaktička raščlamba, sintaktička analiza) je postupak analize nizova pojavnica u rečenici kako bi se utvrdila njena gramatička struktura s obzirom na zadanu formalnu gramatiku

Page 15: Uvod u računalnu metodologiju za jezično istraživanje

Plitko parsanje

Plitko parsanje (eng. shallow parsing, light parsing) – je postupak analize rečenice kod kojeg se prepoznaju sastavnice (konstituenti), ali se ne prepoznaje interna struktura sastavnica, niti njihova uloga u rečenici

Sastavnice – NP, VP, PP, ADVP

Page 16: Uvod u računalnu metodologiju za jezično istraživanje

Što je sastavnica? U nekim slučajevima ne postoji

suglasnost svih lingvista što je točno sastavnica, ali osnovne prihvaćene značajke su: Distribucija: sastavnica se ponaša kao

jedinica koja se može pojaviti na različitim mjestima u rečenici (scrambling)

Zamjena i proširenje: I sat [on the box/right on the top of the box/

there]

Page 17: Uvod u računalnu metodologiju za jezično istraživanje

Dubinsko parsanje Dubinsko (deep, full parsing) parsanje je

postupak kojim se utvrđuje cjelovita hijerarhijska struktura rečenice

Drugim riječima, od linearnog ulaza (rečenice) izgrađuje se hijerarhijska struktura (stablo)

Struktura rečenice najčešće se definira nizom beskontekstnih pravila

Page 18: Uvod u računalnu metodologiju za jezično istraživanje

Dubinsko parsanje Rezultat obrade je stablo parsanja:

Page 19: Uvod u računalnu metodologiju za jezično istraživanje

Banke stabala - The Penn Treebank ( (S (NP-SBJ (DT The) (NN move)) (VP (VBD followed) (NP (NP (DT a) (NN round)) (PP (IN of) (NP (NP (JJ similar) (NNS increases)) (PP (IN by) (NP (JJ other) (NNS lenders))) (PP (IN against) (NP (NNP Arizona) (JJ real) (NN estate) (NNS loans)))))) (, ,) (S-ADV (NP-SBJ (-NONE- *)) (VP (VBG reflecting) (NP (NP (DT a) (VBG continuing) (NN decline)) (PP-LOC (IN in) (NP (DT that) (NN market))))))) (. .)))

Page 20: Uvod u računalnu metodologiju za jezično istraživanje

Zašto je prepoznavanje prirodnoga jezika toliko složeno?

Znanje određenog jezika (tj. njegov leksikon i gramatika) pruža moguće interpretacije određenog iskaza

Željena/namjeravana interpretacija ovisi o kontekstu, diskursu, konvencijama komunikacije i izvanjezičnom znanju

Na primjer, potrebno je izabrati između više smislova riječi, više alternativnih parsinga rečenice itd. koji zahtijevaju izvanjezično znanje

Page 21: Uvod u računalnu metodologiju za jezično istraživanje

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer!

Fed raises interest rates 0.5% in effort to control inflation. (NYT naslov 17. svibnja. 2000)

Stablo parsanja:

Page 22: Uvod u računalnu metodologiju za jezično istraživanje

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer!

Višeznačnost vrsta riječi (POS)

in effort

to control infl. Višeznačnost sintaktičkog pridruživanja Skrivene strukture u jeziku često su

iznimno višeznačne!

Page 23: Uvod u računalnu metodologiju za jezično istraživanje

Oznake NN - noun, common singular (action) NNS - noun, common plural (actions) NNP - noun, proper singular (Thailand) VBZ - verb, -s (believes) VB - verb, base (believe) VBP - verb, non-3rd person singular

present CD - number, cardinal (four)

Page 24: Uvod u računalnu metodologiju za jezično istraživanje

Stabla parsanja

Page 25: Uvod u računalnu metodologiju za jezično istraživanje

Stabla parsanja Ako izradimo pravila formalne gramatike:

S NP VP NN interest NP (DT) NN NNS rates NP NN NNS NNS raises NP NNP VBP interest VP V NP VBZ rates …

Najmanja (minimalna) gramatika promatrane rečenice daje 10 stabala parsanja

Jednostavna gramatika koja se sastoji od 10 pravila daje 592 stabala parsanja

Cjelovita gramatika eng. → više od milijun stabala

Page 26: Uvod u računalnu metodologiju za jezično istraživanje

Tipičan problem obrade prirodnoga jezika

Gramatike s velikim ograničenjima nastoje limitirati manje vjerojatne/željene parsinge To ih čini manje robusnima i mnoge

rečenice nemaju stabla Gramatike s manjim ograničenjima

mogu parsati više rečenica Čak jednostavne rečenice imaju više stabala

Statističkim metodama pronalaze se najvjerojatnija rješenja (stabla)!

Page 27: Uvod u računalnu metodologiju za jezično istraživanje

Drugi pogled na jezičnu strukturu Postoje i formalni gramatički opisi koji se

ne zasnivaju na sastavnicama Npr. ovisnosna gramatika (dependency

grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi Proizvodi stabla ovisnosti, ne konstituentska

stabla Nema sastavničkih čvorova

Prikladnija za opis jezika sa “slobodnijim redom riječi”

Page 28: Uvod u računalnu metodologiju za jezično istraživanje

Ovisnosna (dependency) i konstituentska struktura