Upload
informerica
View
664
Download
6
Embed Size (px)
DESCRIPTION
[in croatian language]Seminar kolegija Strojno ucenje na temu obrada teksta
Citation preview
Strojno učenje u obradi tekstaStrojno učenje u obradi teksta,, klasifikacija i sumarizacijaklasifikacija i sumarizacija
Kolegij: Strojno učenje, PMF- Matematički odsjekStudentice: Vinka Trevižan, Sanja CvetkovićPredavač: prof. T. Šmuc
1
KlasifikacijaKlasifikacija
svrstavanje dokumenata u jednu ili više unaprijed definiranih kategorija
obično se obavlja prema sadržaju, a ne prema indeksima
prije su se automatski klasifikatori radili ‘ručno’ od strane stručnjaka za
obrađivano područje
od 90ih se primjenjuju metode strojnog učenja- prednosti:
◦ brzo generiranje klasifikatora
◦ nije potrebna pomoć stručnjaka
◦ neovisnost o domeni
2
grana koja se bavi organizacijom, indeksiranjem, spremanjem i
dohvatom “informacija”
cilj - interpretirati dokument (indeksirati ga) i dohvatiti dokumente
koje korisnik treba
KlasifikacijaKlasifikacija - information retrieval - information retrieval
3
pojedine riječi shvaćamo kao kategorije (klasifikatora)
svakom dokumentu obično dodijeljujemo više riječi tj kategorija
filtriranje- eliminiranje ili isticanje irelevantnih ili po nečemu
specifičnih dokumenata (npr. filtriranje spama)
obično klasificiramo u dvije kategorije - onu koju ćemo zadržati i onu
koju ćemo odbaciti
KlasifikacijaKlasifikacija – indeksiranje, filtriranje – indeksiranje, filtriranje
4
nemamo predodređene kategorije po kojima treba razvrstavati
prvo se identificiraju teme, zatim klasificiraju dokumenti i imenuju
teme
jednostavnija metoda- grupacija dokumenata prema sličnosti
KlasifikacijaKlasifikacija - clustering - clustering
5
primjena klasifikacije koja se odnosi na izoliranje entiteta, odnosa ili
osobina semantičkih elemenata u tekstu
analiza značenja riječi- nalaženje značenja riječi uz zadano
pojavljivanje (kontekst) u dokumentu (kontekst = dokument,
značenje = kategorija)
KlasifikacijaKlasifikacija – ekstrakcija informacija, – ekstrakcija informacija, analiza značenja riječianaliza značenja riječi
6
za svaki dokument želimo stvoriti n-dimenzionalni vektor značajki
(vrijednosti u nekom rasponu)
vektor indeksa- vektor broja pojavljivanja pojedinih riječi (nakon
odbacivanja veznika, prijedloga...)
smanjenje dimenzije vektora
KlasifikacijaKlasifikacija – predprocesiranje dokumenata – predprocesiranje dokumenata
7
parametarski- podaci za učenje se koriste za određivanje
parametara neke statističke raspodjele
neparametarski- linearni klasifikatori (gradi se funkcija čija
vrijednost određuje pripadnost kategoriji) ili klasifikatori prema
primjeru (skup za učenje koristi se kao skup primjera)
KlasifikacijaKlasifikacija – tipovi klasifikatora – tipovi klasifikatora
8
mjera točnosti (precision) - vjerojatnost da je klasifikacija slučajnog
dokumenta u neku kategoriju točna
mjera kompletnosti (recall) - vjerojatnost da smo dokument koji
pripada u neku kategoriju tamo i klasificirali
KlasifikacijaKlasifikacija – ispitivanje klasifikatora – ispitivanje klasifikatora
9
kreiranje skraćene verzije teksta softverom
takav sažetak i dalje mora sadržavati najbitnije komponente
izvornog teksta
Sumarizacija teksta je ovisna o kontekstu djelovanja
Google koristi sumarizaciju web stranica
Ključno pitanje : Kako prepoznati najvažniji sadržaj iz teksta?
Sumarizacija tekstaSumarizacija teksta
10
metode temeljene na odabiru – ekstrakcija (Pre-processing,
WorldNet)
metode temeljene na razumijevanju – apstrakcija (Corpus analysis,
ConceptNet)
uglavnom se koristi ekstrakcija – zbog potrebnih resursa (puno više
računanja potrebno kod apstraktivnih metoda), zahtjeva ljudi...
AutoSummerize u Wordu
Sumarizacija teksta – značajni pristupiSumarizacija teksta – značajni pristupi
11
Podjela:
1. Ekstrakcija ključnih izraza ili riječi (keyphrase extraction) koja za
cilj ima stvoriti skup riječi ili ‘tagova’ kojima se obilježava dokument.
2. Sumarizacija dokumenta koja za cilj izabrati cijele rečenice koje će
u sažetku opisati tekst.
Sumarizacija teksta - ekstrakcijaSumarizacija teksta - ekstrakcija
12
Ekstrakcija ključnih riječi nadziranim učenjem - metoda najčešće prvo izvlači skup primjera jezičnih jedinica (riječi, bigrama, trigrama, rečenica), zatim se numerički izražavaju razna svojstva tih jedinica, koja nas zanimaju
Nenadzirana ekstrakcija ključnih riječi - naspram nadziranog učenja, nenadzirano ne zahtjeva određenu količinu dokumenata s znanim ključnim riječima, što nije uvijek dostupno
- umjesto da pokuša okaraketirizirati ključne riječi, ova metoda promatra strukturu dokumenta i odabire ključne riječi koje se čine kao centralne teme teksta
- Jedan takav algoritam je TextRank, koji gradi graf dokumenata, pa kreira matricu prema tom grafu.
Ekstrakcija ključnih izraza
13
Nadzirana sumarizacija teksta - vrlo su slične metode nadziranoj
ekstrakciji, ali sažeci moraju biti isključivo od rečenica iz samog
teksta, a ne od novo-stvorenih rečenica koje opisuju dokument
Nenadzirana sumarizacija teksta - metode su slične nenadziranoj
ekstrakciji ključnih riječi, konstruira se ‘centroid’ teksta, rečenica
koja je srednja vrijednost svih rečenica, te se zatim računa ‘blizina’
svih rečenica toj centroid rečenici
SumarizacijaSumarizacija
14
WorldNet -leksička baza podataka razvijena na Sveučilištu Princeton, na čelu s Georgeom Millerom, od 1985. godine. Hand-kodiran je i dostupan besplatno
FrameNet - razvijen na Berkley-u. To je leksički resurs, ali sadrži mnogo bogatije informacije o riječima nego WordNet
ConceptNet - je razvijen na MIT Media Lab-u. Baza znanja mu je zdrav razum s NLP sposobnosti. Ekstraktira automatski, izražava se u polu-strukturiraim NL rečenicama iz OMCSNet-a (otvoren um zdrav razum) - primjenjuje oko 50 ekstrakcijskih pravila.
Primjene Primjene
15
OntoGen je sistem za djelomično automatsku konstrukciju ontologija predvođenom podacima.
Pod ‘djelomično automatska’ se misli na to kako je sistem interaktivan alat koji pomaže korisniku tokom procesa konstrukcije ontologija.
Sistem sugerira koncepte, odnose i njihove nazive, automatski dodjeljuje instance konceptima i pruža dobar pregled na ontologijom kroz vizualizaciju i pretraživače.
U isto vrijeme korisnik može potpuno podesiti sva svojstva ontologije na taj način da ručno dodaje ili briše koncepte, odnose ili preusmjerava instance.
OntoGenOntoGen
16
THE END
17