20
Data mining – kocepti i tehnike

Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining – kocepti i

tehnike

Page 2: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Udžbenik:

Data Mining: Concepts and Techniques, Jiawei

Han, Micheline Kamber

Introduction to Data Mining, Pang-Ning Tan,

Michael Steinbach, Vipin Kumar

Ocjenjivanje: kolokvijumi (35% + 35%),

prezentacija (5%), projekat (10%), domaći

zadaci (15%)

Page 3: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Pregled kursa

Glava 1: Uvod

Glava 2: Data warehousing i OLAP

Glava 3: Pre-procesiranje podataka

Glava 4: Arhitektura data mining sistema

Glava 5: Opisivanje koncepata, karakterizacija i poređenje

Glava 6: Asocijativna analiza

Glava 7: Klasifikacija i regresija

Glava 8: Klasterizacija

Glava 9: Rudarenje složenih tipova podataka

Glava 10: Primjene i trendovi razvoja data mining-a

Page 4: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Glava 1. Sadržaj

Motivacija: zašto data mining?

Šta je data mining?

Data mining: koji tipovi podataka?

Data mining tehnike

Šta je znanje?

Klasifikacija data mining sistema

Osnovni koncepti data mining-a

Page 5: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Motivacija

Eksplozija podataka: tehnologija baza

podataka proizvela je velike količine

podataka

We are drowning in data, but starving for

knowledge!

Rješenje:

Data warehousing i OLAP

Rudarenje korisnog znanja (pravila, ograničenja

itd.) iz podataka

Page 6: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Razvoj tehnologije baza podataka

1960: AOP

1970: Relacioni model i SUBP

1980: napredni modeli podataka i

specijalizovani SUBP

1990: data mining, data warehousing

Page 7: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Šta je data mining?

Data mining: pronalaženje korisnog znanja u

velikim bazama podataka

Knowledge Discovery in Databases (KDD)

Šta nije data mining?

Procesiranje upita

Ekspertni sistemi

Sistemi za mašinsko učenje

Page 8: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Zašto data mining?

Potencijalne primjene:

Upravljanje i analiza tržišta

Upravljanje i analiza rizika

Medicina

Nauka

Inžinjerstvo

...

Page 9: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Potencijalne primjene

Upravljanje i analiza tržišta

Kreiranje marketinških kampanja, analiza

potrošačkih navika itd.

Izvor podataka mogu da budu baze transakcija

velikih supermarketa

Rezultati analize

Grupe klijenata koji imaju zajedničke potrošačke navike,

godišnje prihode itd.

Zavisnost prodaje jednih proizvoda od drugih

Page 10: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining i KDD

Data mining je najvažniji u KDD

Čisćenje i

integracija podataka

Baze podataka

Data Warehouse

Podaci za

rudarenje

Selekcija i

transformacija podataka

Data Mining

Procjena znanja

Page 11: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Knowledge discovery in databases

Čišćenje podataka je eliminacija šuma,

nekonzistentnosti u podacima itd.

Integracija podataka je objedinjavanje

podataka iz više izvora

Transformacija je prevođenje podataka u

formu pogodnu za primjenu data mining

algoritama (npr. normalizacija, agregacija)

Selekcija je generisanje podataka koji su

potrebni za analizu

Page 12: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Preprocesiranje podataka

Page 13: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Knowledge discovery in databases (2)

Data mining je izbor i primjena algoritama da

bi se prepoznali sakriveni šabloni u podacima

Procjena otkrivenih znanja na osnovu

utvrđene mjere identifikuje korisne šablone

Prezentacija znanja je grafičko predstavljanje

otkrivenog znanja

Page 14: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Arhitektura data mining sistema

Data

Warehouse

Čišćenje i integracija podataka

Baze

podataka

Server BP ili data warehouse server

Data mining sistem

Procjena znanja

GUI

Baza znanja

selekcija

Page 15: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining: koji tipovi podataka?

Relacione baze podataka

Data warehouse sistemi

Transakcione baze podataka

Napredne baze podataka

Objektno-orijentisane i objektno-relacione baze podataka

Prostorne baze podataka

Vremenske baze podataka

Multimedijalne baze podataka

WWW

Page 16: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining tehnike (1)

Opisivanje klasa/koncepata

Karakterizacija ciljne klase/koncepta

Poređenje ciljne klase sa suprotavljenom klasom

ili klasama

Asocijativna analiza

godine(X, “20..29”) && prihodi(X, “20..29K”)

kupuje(X, “PC”) [support = 2%, confidence = 60%]

Page 17: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining tehnike (2)

Klasifikacija i regresija

Konstrukcija modela koji opisuju različite klase

Prezentacija modela: drveta odlučivanja,

neuronske mreže itd.

Regresija: predviđa se brojna vrijednost

Klasterizacija

Grupisanje podataka u klase

Princip: maksimizacija sličnosti unutar klastera i

minimizacija sličnosti van klastera

Page 18: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Šta je korisno znanje?

Pravilo je korisno ako je lako razumljivo,

validno na novim ili testnim podacima sa

određenom tačnošću, prethodno nepoznato i

potencijalno upotrebljivo.

Objektivne i subjektivne mjere korisnosti

Kompletnost: generisati sva pravila

Optimizacija: generisati samo korisna pravila

Page 19: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Data mining, interdisciplinarnost

Data Mining

Baze podataka Statistika

Ostalediscipline

Kompjuterskenauke

Mašinskoučenje

Vizualizacija

Page 20: Data mining kocepti i tehnike - ucg.ac.me · Rudarenje korisnog znanja (pravila, ograničenja itd.) iz podataka. Razvoj tehnologije baza podataka 1960: AOP 1970: Relacioni model i

Klasifikacija data mining sistema

Na osnovu funkcionalnosti:

Deskriptivni

Prediktivni

Na osnovu

Tipa baze podataka

Tipa znanja koji se otkriva

Upotrijebljenih tehnologija

Domena primjene