27
Klasifikacija dokumenata

Klasifikacija dokumenata - ucg.ac.me

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Klasifikacija dokumenata - ucg.ac.me

Klasifikacija dokumenata

Page 2: Klasifikacija dokumenata - ucg.ac.me

Uvod

• Text klasifikacija• Klasifikacija dokumenata u skup unaprijed poznatih klasa

• Alternativni nazivi• Text kategorizacija

• Klasifikacija dokumenata

• Kategorizacija dokumenata

• Dva pristupa• Ručna klasifikacija

• Automatska klasifikacija

Page 3: Klasifikacija dokumenata - ucg.ac.me

Tehnologije

• Klasifikacija

• Klasterizacija

• Information extraction

• Information retrieval

• Information filtering

Page 4: Klasifikacija dokumenata - ucg.ac.me

Klasifikacija

Page 5: Klasifikacija dokumenata - ucg.ac.me

Klasterizacija

Page 6: Klasifikacija dokumenata - ucg.ac.me

Information retrieval

Page 7: Klasifikacija dokumenata - ucg.ac.me

Information filtering

Page 8: Klasifikacija dokumenata - ucg.ac.me

Information extraction

Page 9: Klasifikacija dokumenata - ucg.ac.me

Rule-based klasifikacija

• Napisati skup pravila po kojima se klasifikuju dokumenti• Visoka preciznost, lako održavanje sve dok je broj pravila mali

• Problem, preklapanje pravila, konflikti, rekonstruisanje pravila kada se mijenja domen

Page 10: Klasifikacija dokumenata - ucg.ac.me

Machine learning based klasifikacija

• Nezavisna od domena

• Visoka tačnost

• Zahtijeva se postojanje skupa za obučavanje

Page 11: Klasifikacija dokumenata - ucg.ac.me

Formalna definicija problema

• Dat je skup dokumenata D={d1,d2,…,dn}

• Dat je skup klasa K={k1,k2,….,km}

• Potrebno je odrediti funkciju t:D->K, tako da je t(d) klasa dokumenta d

Page 12: Klasifikacija dokumenata - ucg.ac.me

Klasifikacija dokumenata

Page 13: Klasifikacija dokumenata - ucg.ac.me

Bag-of-words

Page 14: Klasifikacija dokumenata - ucg.ac.me

Machine learning approach

• Faza treniranja

• Konstruisanje klasifikatora/modela primjenom algoritama mašinskog učenja• SVM, NB, DT, NN, LR itd.

• Klasifikacija novog dokumenta sa modelom

Page 15: Klasifikacija dokumenata - ucg.ac.me

Machine learning approach (2)

Page 16: Klasifikacija dokumenata - ucg.ac.me

Procjena performansi

• Accuracy

• Precision

• Recall

• F-measure

Page 17: Klasifikacija dokumenata - ucg.ac.me

Accuracy

Page 18: Klasifikacija dokumenata - ucg.ac.me

Precision

Page 19: Klasifikacija dokumenata - ucg.ac.me

Recall

Page 20: Klasifikacija dokumenata - ucg.ac.me

F-measure

Page 21: Klasifikacija dokumenata - ucg.ac.me

Predstavljanje tekstualnih dokumenata

• Bag-of-Word pristup• Dokument se posmatra kao skup riječi bez informacija o poretku i gramatici

Page 22: Klasifikacija dokumenata - ucg.ac.me

Bag-of-Words

• Bi-gram, Tri-gram, n-gram, shingling

Page 23: Klasifikacija dokumenata - ucg.ac.me

Bag-of-words (2)

• Normalizacija• Down-case

• Lemmatizacija• Koristi se samo korijen riječi

• Stemming• if the word ends in 'ed', remove the 'ed'

• if the word ends in 'ing', remove the 'ing'

• if the word ends in 'ly', remove the 'ly’

Page 24: Klasifikacija dokumenata - ucg.ac.me

Bag-of-Words (3)

• Binarna reprezentacija, 1/0

• Term frequency• tfi – broj pojavljivanja riječi/n-grama wi u dokumentu

• Inverse document frequency• idfi = |D|/|{d|d sadrži wi}|

• tf-idf• tf-idfi = tfi * idfi

• Frekventne riječi koje se pojavljuju u malom broju dokumenata dobiju visoki tf-idf

Page 25: Klasifikacija dokumenata - ucg.ac.me

Vektor svojstava

Page 26: Klasifikacija dokumenata - ucg.ac.me

Implementacija

Page 27: Klasifikacija dokumenata - ucg.ac.me

Sistem za analizu dokumenata1. Klasifikacija, information extraction

2. Rad sa kolekcijama dokumenata

a. Podržani tipovi

i. txt

ii. searchable pdf (pomoću biblioteke PdfMiner)

iii. images (pomoću Tesseract)

3. Pre-procesiranje

4. Reprezentacija dokumenata

5. Treniranje i testiranje modela

6. Upravljanje napravljenim modelom

7. Analiza novog skupa dokumenata

a. Batch

b. Stream

8. Eksperiment