17
Strojno učenje u obradi Strojno učenje u obradi teksta teksta , , klasifikacija i klasifikacija i sumarizacija sumarizacija Kolegij: Strojno učenje, PMF- Matematički odsjek Studentice: Vinka Trevižan, Sanja Cvetković Predavač: prof. T. Šmuc 1

Strojno ucenje u obradi teksta

Embed Size (px)

DESCRIPTION

[in croatian language]Seminar kolegija Strojno ucenje na temu obrada teksta

Citation preview

Page 1: Strojno ucenje u obradi teksta

Strojno učenje u obradi tekstaStrojno učenje u obradi teksta,, klasifikacija i sumarizacijaklasifikacija i sumarizacija

Kolegij: Strojno učenje, PMF- Matematički odsjekStudentice: Vinka Trevižan, Sanja CvetkovićPredavač: prof. T. Šmuc

1

Page 2: Strojno ucenje u obradi teksta

KlasifikacijaKlasifikacija

svrstavanje dokumenata u jednu ili više unaprijed definiranih kategorija

obično se obavlja prema sadržaju, a ne prema indeksima

prije su se automatski klasifikatori radili ‘ručno’ od strane stručnjaka za

obrađivano područje

od 90ih se primjenjuju metode strojnog učenja- prednosti:

◦ brzo generiranje klasifikatora

◦ nije potrebna pomoć stručnjaka

◦ neovisnost o domeni

2

Page 3: Strojno ucenje u obradi teksta

grana koja se bavi organizacijom, indeksiranjem, spremanjem i

dohvatom “informacija”

cilj - interpretirati dokument (indeksirati ga) i dohvatiti dokumente

koje korisnik treba

KlasifikacijaKlasifikacija - information retrieval - information retrieval

3

Page 4: Strojno ucenje u obradi teksta

pojedine riječi shvaćamo kao kategorije (klasifikatora)

svakom dokumentu obično dodijeljujemo više riječi tj kategorija

filtriranje- eliminiranje ili isticanje irelevantnih ili po nečemu

specifičnih dokumenata (npr. filtriranje spama)

obično klasificiramo u dvije kategorije - onu koju ćemo zadržati i onu

koju ćemo odbaciti

KlasifikacijaKlasifikacija – indeksiranje, filtriranje – indeksiranje, filtriranje

4

Page 5: Strojno ucenje u obradi teksta

nemamo predodređene kategorije po kojima treba razvrstavati

prvo se identificiraju teme, zatim klasificiraju dokumenti i imenuju

teme

jednostavnija metoda- grupacija dokumenata prema sličnosti

KlasifikacijaKlasifikacija - clustering - clustering

5

Page 6: Strojno ucenje u obradi teksta

primjena klasifikacije koja se odnosi na izoliranje entiteta, odnosa ili

osobina semantičkih elemenata u tekstu

analiza značenja riječi- nalaženje značenja riječi uz zadano

pojavljivanje (kontekst) u dokumentu (kontekst = dokument,

značenje = kategorija)

KlasifikacijaKlasifikacija – ekstrakcija informacija, – ekstrakcija informacija, analiza značenja riječianaliza značenja riječi

6

Page 7: Strojno ucenje u obradi teksta

za svaki dokument želimo stvoriti n-dimenzionalni vektor značajki

(vrijednosti u nekom rasponu)

vektor indeksa- vektor broja pojavljivanja pojedinih riječi (nakon

odbacivanja veznika, prijedloga...)

smanjenje dimenzije vektora

KlasifikacijaKlasifikacija – predprocesiranje dokumenata – predprocesiranje dokumenata

7

Page 8: Strojno ucenje u obradi teksta

parametarski- podaci za učenje se koriste za određivanje

parametara neke statističke raspodjele

neparametarski- linearni klasifikatori (gradi se funkcija čija

vrijednost određuje pripadnost kategoriji) ili klasifikatori prema

primjeru (skup za učenje koristi se kao skup primjera)

KlasifikacijaKlasifikacija – tipovi klasifikatora – tipovi klasifikatora

8

Page 9: Strojno ucenje u obradi teksta

mjera točnosti (precision) - vjerojatnost da je klasifikacija slučajnog

dokumenta u neku kategoriju točna

mjera kompletnosti (recall) - vjerojatnost da smo dokument koji

pripada u neku kategoriju tamo i klasificirali

KlasifikacijaKlasifikacija – ispitivanje klasifikatora – ispitivanje klasifikatora

9

Page 10: Strojno ucenje u obradi teksta

kreiranje skraćene verzije teksta softverom

takav sažetak i dalje mora sadržavati najbitnije komponente

izvornog teksta

Sumarizacija teksta je ovisna o kontekstu djelovanja

Google koristi sumarizaciju web stranica

Ključno pitanje : Kako prepoznati najvažniji sadržaj iz teksta?

Sumarizacija tekstaSumarizacija teksta

10

Page 11: Strojno ucenje u obradi teksta

metode temeljene na odabiru – ekstrakcija (Pre-processing,

WorldNet)

metode temeljene na razumijevanju – apstrakcija (Corpus analysis,

ConceptNet)

uglavnom se koristi ekstrakcija – zbog potrebnih resursa (puno više

računanja potrebno kod apstraktivnih metoda), zahtjeva ljudi...

AutoSummerize u Wordu

Sumarizacija teksta – značajni pristupiSumarizacija teksta – značajni pristupi

11

Page 12: Strojno ucenje u obradi teksta

Podjela:

1. Ekstrakcija ključnih izraza ili riječi (keyphrase extraction) koja za

cilj ima stvoriti skup riječi ili ‘tagova’ kojima se obilježava dokument.

2. Sumarizacija dokumenta koja za cilj izabrati cijele rečenice koje će

u sažetku opisati tekst.

Sumarizacija teksta - ekstrakcijaSumarizacija teksta - ekstrakcija

12

Page 13: Strojno ucenje u obradi teksta

Ekstrakcija ključnih riječi nadziranim učenjem - metoda najčešće prvo izvlači skup primjera jezičnih jedinica (riječi, bigrama, trigrama, rečenica), zatim se numerički izražavaju razna svojstva tih jedinica, koja nas zanimaju

Nenadzirana ekstrakcija ključnih riječi - naspram nadziranog učenja, nenadzirano ne zahtjeva određenu količinu dokumenata s znanim ključnim riječima, što nije uvijek dostupno

- umjesto da pokuša okaraketirizirati ključne riječi, ova metoda promatra strukturu dokumenta i odabire ključne riječi koje se čine kao centralne teme teksta

- Jedan takav algoritam je TextRank, koji gradi graf dokumenata, pa kreira matricu prema tom grafu.

Ekstrakcija ključnih izraza

13

Page 14: Strojno ucenje u obradi teksta

Nadzirana sumarizacija teksta - vrlo su slične metode nadziranoj

ekstrakciji, ali sažeci moraju biti isključivo od rečenica iz samog

teksta, a ne od novo-stvorenih rečenica koje opisuju dokument

Nenadzirana sumarizacija teksta - metode su slične nenadziranoj

ekstrakciji ključnih riječi, konstruira se ‘centroid’ teksta, rečenica

koja je srednja vrijednost svih rečenica, te se zatim računa ‘blizina’

svih rečenica toj centroid rečenici

SumarizacijaSumarizacija

14

Page 15: Strojno ucenje u obradi teksta

WorldNet -leksička baza podataka razvijena na Sveučilištu Princeton, na čelu s Georgeom Millerom, od 1985. godine. Hand-kodiran je i dostupan besplatno

FrameNet - razvijen na Berkley-u. To je leksički resurs, ali sadrži mnogo bogatije informacije o riječima nego WordNet

ConceptNet - je razvijen na MIT Media Lab-u. Baza znanja mu je zdrav razum s NLP sposobnosti. Ekstraktira automatski, izražava se u polu-strukturiraim NL rečenicama iz OMCSNet-a (otvoren um zdrav razum) - primjenjuje oko 50 ekstrakcijskih pravila.

Primjene Primjene

15

Page 16: Strojno ucenje u obradi teksta

OntoGen je sistem za djelomično automatsku konstrukciju ontologija predvođenom podacima.

Pod ‘djelomično automatska’ se misli na to kako je sistem interaktivan alat koji pomaže korisniku tokom procesa konstrukcije ontologija.

Sistem sugerira koncepte, odnose i njihove nazive, automatski dodjeljuje instance konceptima i pruža dobar pregled na ontologijom kroz vizualizaciju i pretraživače.

U isto vrijeme korisnik može potpuno podesiti sva svojstva ontologije na taj način da ručno dodaje ili briše koncepte, odnose ili preusmjerava instance.

OntoGenOntoGen

16

Page 17: Strojno ucenje u obradi teksta

THE END

17