Strojno ucenje u obradi teksta

Strojno učenje u obradi tekstaStrojno učenje u obradi teksta,, klasifikacija i sumarizacijaklasifikacija i sumarizacija

Kolegij: Strojno učenje, PMF- Matematički odsjekStudentice: Vinka Trevižan, Sanja CvetkovićPredavač: prof. T. Šmuc

1

KlasifikacijaKlasifikacija

svrstavanje dokumenata u jednu ili više unaprijed definiranih kategorija

obično se obavlja prema sadržaju, a ne prema indeksima

prije su se automatski klasifikatori radili ‘ručno’ od strane stručnjaka za

obrađivano područje

od 90ih se primjenjuju metode strojnog učenja- prednosti:

◦ brzo generiranje klasifikatora

◦ nije potrebna pomoć stručnjaka

◦ neovisnost o domeni

2

grana koja se bavi organizacijom, indeksiranjem, spremanjem i

dohvatom “informacija”

cilj - interpretirati dokument (indeksirati ga) i dohvatiti dokumente

koje korisnik treba

KlasifikacijaKlasifikacija - information retrieval - information retrieval

3

pojedine riječi shvaćamo kao kategorije (klasifikatora)

svakom dokumentu obično dodijeljujemo više riječi tj kategorija

filtriranje- eliminiranje ili isticanje irelevantnih ili po nečemu

specifičnih dokumenata (npr. filtriranje spama)

obično klasificiramo u dvije kategorije - onu koju ćemo zadržati i onu

koju ćemo odbaciti

KlasifikacijaKlasifikacija – indeksiranje, filtriranje – indeksiranje, filtriranje

4

nemamo predodređene kategorije po kojima treba razvrstavati

prvo se identificiraju teme, zatim klasificiraju dokumenti i imenuju

teme

jednostavnija metoda- grupacija dokumenata prema sličnosti

KlasifikacijaKlasifikacija - clustering - clustering

5

primjena klasifikacije koja se odnosi na izoliranje entiteta, odnosa ili

osobina semantičkih elemenata u tekstu

analiza značenja riječi- nalaženje značenja riječi uz zadano

pojavljivanje (kontekst) u dokumentu (kontekst = dokument,

značenje = kategorija)

KlasifikacijaKlasifikacija – ekstrakcija informacija, – ekstrakcija informacija, analiza značenja riječianaliza značenja riječi

6

za svaki dokument želimo stvoriti n-dimenzionalni vektor značajki

(vrijednosti u nekom rasponu)

vektor indeksa- vektor broja pojavljivanja pojedinih riječi (nakon

odbacivanja veznika, prijedloga...)

smanjenje dimenzije vektora

KlasifikacijaKlasifikacija – predprocesiranje dokumenata – predprocesiranje dokumenata

7

parametarski- podaci za učenje se koriste za određivanje

parametara neke statističke raspodjele

neparametarski- linearni klasifikatori (gradi se funkcija čija

vrijednost određuje pripadnost kategoriji) ili klasifikatori prema

primjeru (skup za učenje koristi se kao skup primjera)

KlasifikacijaKlasifikacija – tipovi klasifikatora – tipovi klasifikatora

8

mjera točnosti (precision) - vjerojatnost da je klasifikacija slučajnog

dokumenta u neku kategoriju točna

mjera kompletnosti (recall) - vjerojatnost da smo dokument koji

pripada u neku kategoriju tamo i klasificirali

KlasifikacijaKlasifikacija – ispitivanje klasifikatora – ispitivanje klasifikatora

9

kreiranje skraćene verzije teksta softverom

takav sažetak i dalje mora sadržavati najbitnije komponente

izvornog teksta

Sumarizacija teksta je ovisna o kontekstu djelovanja

Google koristi sumarizaciju web stranica

Ključno pitanje : Kako prepoznati najvažniji sadržaj iz teksta?

Sumarizacija tekstaSumarizacija teksta

10

metode temeljene na odabiru – ekstrakcija (Pre-processing,

WorldNet)

metode temeljene na razumijevanju – apstrakcija (Corpus analysis,

ConceptNet)

uglavnom se koristi ekstrakcija – zbog potrebnih resursa (puno više

računanja potrebno kod apstraktivnih metoda), zahtjeva ljudi...

AutoSummerize u Wordu

Sumarizacija teksta – značajni pristupiSumarizacija teksta – značajni pristupi

11

Podjela:

1. Ekstrakcija ključnih izraza ili riječi (keyphrase extraction) koja za

cilj ima stvoriti skup riječi ili ‘tagova’ kojima se obilježava dokument.

2. Sumarizacija dokumenta koja za cilj izabrati cijele rečenice koje će

u sažetku opisati tekst.

Sumarizacija teksta - ekstrakcijaSumarizacija teksta - ekstrakcija

12

Ekstrakcija ključnih riječi nadziranim učenjem - metoda najčešće prvo izvlači skup primjera jezičnih jedinica (riječi, bigrama, trigrama, rečenica), zatim se numerički izražavaju razna svojstva tih jedinica, koja nas zanimaju

Nenadzirana ekstrakcija ključnih riječi - naspram nadziranog učenja, nenadzirano ne zahtjeva određenu količinu dokumenata s znanim ključnim riječima, što nije uvijek dostupno

- umjesto da pokuša okaraketirizirati ključne riječi, ova metoda promatra strukturu dokumenta i odabire ključne riječi koje se čine kao centralne teme teksta

- Jedan takav algoritam je TextRank, koji gradi graf dokumenata, pa kreira matricu prema tom grafu.

Ekstrakcija ključnih izraza

13

Nadzirana sumarizacija teksta - vrlo su slične metode nadziranoj

ekstrakciji, ali sažeci moraju biti isključivo od rečenica iz samog

teksta, a ne od novo-stvorenih rečenica koje opisuju dokument

Nenadzirana sumarizacija teksta - metode su slične nenadziranoj

ekstrakciji ključnih riječi, konstruira se ‘centroid’ teksta, rečenica

koja je srednja vrijednost svih rečenica, te se zatim računa ‘blizina’

svih rečenica toj centroid rečenici

SumarizacijaSumarizacija

14

WorldNet -leksička baza podataka razvijena na Sveučilištu Princeton, na čelu s Georgeom Millerom, od 1985. godine. Hand-kodiran je i dostupan besplatno

FrameNet - razvijen na Berkley-u. To je leksički resurs, ali sadrži mnogo bogatije informacije o riječima nego WordNet

ConceptNet - je razvijen na MIT Media Lab-u. Baza znanja mu je zdrav razum s NLP sposobnosti. Ekstraktira automatski, izražava se u polu-strukturiraim NL rečenicama iz OMCSNet-a (otvoren um zdrav razum) - primjenjuje oko 50 ekstrakcijskih pravila.

Primjene Primjene

15

OntoGen je sistem za djelomično automatsku konstrukciju ontologija predvođenom podacima.

Pod ‘djelomično automatska’ se misli na to kako je sistem interaktivan alat koji pomaže korisniku tokom procesa konstrukcije ontologija.

Sistem sugerira koncepte, odnose i njihove nazive, automatski dodjeljuje instance konceptima i pruža dobar pregled na ontologijom kroz vizualizaciju i pretraživače.

U isto vrijeme korisnik može potpuno podesiti sva svojstva ontologije na taj način da ručno dodaje ili briše koncepte, odnose ili preusmjerava instance.

OntoGenOntoGen

16

THE END

17

Education

Strojno ucenje u obradi teksta