17
1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti u ovom poglavlju? Što je rudarenje (ili kopanje) podataka (eng. Data mining)? Koje su metode data mining-a Kako koristiti kvantitativne sofisticirane metode koje se koriste za traženje skrivenih zakonitosti u podacima tvrtke Koji su alati za datamining Kako se u poslovanju koriste inteligentne metode u rudarenju podataka

7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

1

M. Zekić- Sušac 1

7. Rudarenje podataka (data mining) i slučajevi upotrebe

M. Zekić- Sušac 2

Što ćete naučiti u ovom poglavlju?

� Što je rudarenje (ili kopanje) podataka (eng. Data mining)?

� Koje su metode data mining-a� Kako koristiti kvantitativne sofisticirane

metode koje se koriste za traženje skrivenih zakonitosti u podacima tvrtke

� Koji su alati za datamining� Kako se u poslovanju koriste inteligentne

metode u rudarenju podataka

Page 2: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

2

M. Zekić- Sušac 3

Rudarenje podataka (Data mining)

Pelene kupuju očevi petkom poslijepodne, i uz njih obično kupe pivo za gledanje utakmice preko vikenda!

Poznato otkriće rudarenja podataka za P&G:

Korist od ovog otkrića:

Reklame za pelene treba slati očevima a ne majkama!

Zalihe treba planirati tako da petkom bude najviše robe na policama.

M. Zekić- Sušac 4

Što je rudarenje podataka?

� Cilj rudarenja podataka je identificirati vrijedne nove, potencijalno korisne veze i uzorke u postojećim podacima (Jackson, 2002)

Rudarenje podataka uključuje primjenu tehnika:� numeričke analize� traženje uzoraka i strojno učenje,� stabla odlučivanja, neuronske mreže, genetički

algoritmi i dr.

Page 3: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

3

M. Zekić- Sušac 5

a) ako DW postoji, DM može biti dio DW

b) ako DW ne postoji, DM se može koristiti na raspoloživoj bazi podataka

Data Mining i Data Warehousing

DWDMskladište

podataka

baza podataka

DM

M. Zekić- Sušac 6

Data Mining i OLAP

� Razlika: OLAP je tehnologija za sumiranje i agregaciju podataka, a DM je metodologija za traženje uzoraka i veza među tim podacima (Jackson, 2002)

� Integracija OLAP-a i DM: OLAM (On-line Analytical Mining)

Page 4: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

4

M. Zekić- Sušac 7

Što možemo napraviti data mining-om?

� segmentirati tržište� otkriti profil tipičnog klijenta određene vrste

proizvoda� sklonosti klijenta kupnji i motivatore za cross selling� napraviti model potrošačke košarice (market

basket)� detektirati potencijalne prijevare na prodajnim

mjestima� predvidjeti trendove pojava, npr. kretanja profita� otkriti sličnosti među tržišnim kategorijama, i dr.

M. Zekić- Sušac 8

Primjer i upotrebe data mining-a

� Ako smo vlasnik ili manager u lancu trgovina i želimo saznati postoji li pravilnost u trendovima prodaje u nekoj od trgovina početkom tjedna ili krajem tjedna i zašto� ili želimo saznati da li će se povećati prodaja nekog artikla

X ako se prodaje u paru s artiklom Y� Ako smo manager u banci i želimo saznati profil

klijenata koji će vjerojatno otići u minus na tekućem računu ili profil onih koji neće vraćati kredit

� Ako smo vlasnik proizvodne tvrtke i želimo znati koje su karakteristike proizvoda koje imaju prođu na tržištu,

� i dr.

Page 5: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

5

M. Zekić- Sušac 9

Prognostičke metodeLine Plot (Stocks.sta 3v*200c )STOCK1 = 68.5503-0.0114*xSTOCK2 = 55.6096-0.0164*x

STOCK1 STOCK22/1/91

2/22/913/14/91

4/3/914/23/91

5/13/915/31/91

6/20/917/10/91

7/30/918/19/91

9/6/919/26/91

10/16/9111/5/91

50

52

54

56

58

60

62

64

66

68

70

72

74

Primjer 1. Predviđanje cijene dionica

M. Zekić- Sušac 10

Napredne prognostičke metode

Page 6: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

6

M. Zekić- Sušac 11

Veza DM i poslovnih ciljevaTvrtke često koriste reklamuputem pošte direktno naadrese potrošača.

Stopa reakcije na ovakvureklamu u SAD je oko 2%.

DM može pomoći u smanjivanju ovog uzaludnog naporai troška predviđanjem reakcije potrošača, i time slanjemreklama samo onim skupinama za koje postoji velika vjerojatnost da će kupiti proizvod.

M. Zekić- Sušac 12

Primjeri primjene DM� Trgovina - Potrošačka košarica – za identificiranje

artikala koji se prodaju zajedno, za određivanje načina oglašavanja artikala, za predviđanje efektivnosti promocije i reklame

� Banke i osiguravajuće kuće – za identificiranje “dobrih” i “loših” klijenata

� Medicinske ustanove – za predviđanje uspješnosti operacija, medicinskih testova, ili lijekova

� Proizvodne tvrtke – za procjenu vjerojatnosti kvarova proizvoda

� i slično.

Page 7: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

7

M. Zekić- Sušac 13

Slučaj primjene DM

� Tvrtka Petrol napravila je dvije analize:� analizu veleprodaje i identificirala kupce

za koje je vjerojatno da će biti slabi platiše u budućnosti

� analizu računa kupaca kako bi otkrila u kojim danima u tjednu treba imati veće zalihe goriva

� Chase Manhattan bank – koristi DM za određivanje kojim klijentima dodijeliti kredit

M. Zekić- Sušac 14

Koraci u primjeni DMKoraci prema CRISP-DM metodologiji:

� razumijevanje poslovnih ciljeva (što želimo postići)� razumijevanje podataka (prikupiti, opisati i verificirati

podatke)� priprema podataka (izabrati, očistiti, integrirati i

formatirati podatke)� modeliranje (izbor tehnike, testiranje, izgradnja

modela, ocjena modela)� evaluacija (ocjena rezultata, pregled napravljenog,

plan za sljedeći korak)� primjena plana, izrada konačnog izvještaja, revizija

projekta

Page 8: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

8

M. Zekić- Sušac 15

Tehnike koje koristi DM

� Neuronske mreže (Neural Networks)� Zaključivanje na temelju slučajeva (Case-Based

Reasoning – CBR)� Genetički algoritmi (Genetic Algorithms)� Stabla odlučivanja (Decision Trees)� Asocijacijska pravila (Association Rules)� Statističke metode: deskriptivne i vizualizacijske

tehnike, klaster analize, korelacijske analize, diskriminantnu analizu, faktorsku analizu, regresijsku analizu, logističku regresiju i dr.)

M. Zekić- Sušac 16

DM se može koristiti za:

� Sumiranje podataka� Segmentaciju� Klasifikaciju� Predviđanje� Asocijaciju (prepoznavanje uzoraka)

Page 9: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

9

M. Zekić- Sušac 17

Koju tehniku DM koristiti?

M. Zekić- Sušac 18

Primjena inteligentnih metoda u poslovanju

� U poslovanju se inteligentne metode mogu koristiti:� Ugrađene u zasebne specijalizirane alate

� Za neuronske mreže npr. NeuroSolutions, Orange, NeuroIntelligence, i dr.

� Za ekspertne sustave npr. ExSys Corvid, XpertRule, i dr. � U okviru statističkih alata (npr. Statistica, SAS,

MathLab)� U okviru integriranog sustava poslovne

inteligencije uključenog u sustav za planiranje resursa (ERP)� npr. MS SQL Server Business Intelligence

Page 10: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

10

M. Zekić- Sušac 19

Alati za DM

� Statistički softverski paketi (npr. SAS, Statistika, SPSS, i dr.)

� Matematički softverski paketi (npr. MathLab, Matematica)

� Alati uključeni u skladištenje podataka (OLAP) ili sustav za upravljanje bazom podataka (npr. Microsoft SQL Server Business Intelligence – uključuje i Enterprise Miner)

� Specijalizirani alati za općenite ili poslovne primjene (npr. DataMiner, IntelliMiner, i sl.)

M. Zekić- Sušac 20

SQL Server BI� SQL Server BI Development Studio (2008)

� Alat koji dolazi zajedno s MS SQL server bazom podataka

� Omogućava upotrebu:� Neuronskih mreža� Stabala odlučivanja� Statističkih prognostičkih metoda (ARIMA)� i dr. statističkih metoda (npr. klasteriranje, regresija)

� Podaci se pri tome učitavaju iz SQL server baze podataka ili iz kocke skladišta podataka

� Kreira se Data mining projekt u kojem se vrši izbor metode i izgradnja modela

Page 11: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

11

M. Zekić- Sušac 21

SQL Server BI Development Studio – izgled sučelja

Nakon otvaranja novog projekta, i izbora baze ili kocke koja će se koristiti kao izvor podataka, kreiran je BI projekt u SQL Server BI alatu.

M. Zekić- Sušac 22

SQL Server BI – kreiranje modela neuronske mreže

Izbor metode koja će se koristiti u okviru datamining strukture, npr. Microsoft Neural network

Page 12: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

12

M. Zekić- Sušac 23

SQL Server BI – izbor varijabli

Izbor načina uzorkovanja podataka, npr. 30% podataka izdvojiti za testiranje

M. Zekić- Sušac 24

SQL Server BI – izbor varijabli

Izbor ulaznih i izlaznih varijabli u modelu

- Potrebno je označiti koja varijabla je identifikator slučajeva (key varijabla), koje su ulazne, a koje izlazne (predicted) varijable.

Page 13: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

13

M. Zekić- Sušac 25

SQL Server BI – prikaz modela

U gornjem dijelu prozora vidljive su kartice s pomoću kojih se dobiva uvid u izgrađeni model neuronske mreže i njegove rezultate.

Varijable u modelu

M. Zekić- Sušac 26

SQL Server BI – grafičkih prikaz rezultata

Grafikon prikazuje stvarne i predviđene vrijednosti u obliku dijagrama rasipanja (scatter plot). Ako su točke na dijagramu oko dijagonale, točnost modela je visoka.

Page 14: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

14

M. Zekić- Sušac 27

SQL Server BI – značajnost varijabli

Značajnost varijabli dobiva se analizom osjetljivosti izlazne varijable na ulazne – trake na grafikonu prikazuju jačinu utjecaja neke ulazne varijable na izlaznu

M. Zekić- Sušac 28

SQL Server BI

� Nakon grafičke analize rezultata moguće je dobivanje greške modela neuronske mreže na uzorku za validaciju (Enterprise inačica alata)

� Upotrebu modela neuronske mreže u praksi na novim podacima omogućava kartica “Mining model prediction)

� Na sličan način izgrađuje se model stabla odlučivanja, ili druge metode.

Page 15: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

15

M. Zekić- Sušac 29

Budućnost upotrebe DM u poslovanju

Trend razvoja:� DM metode se integriraju u alate za upravljanje

bazama podataka, te tako softverski postaju raspoložive brojnim tvrtkama

� Uklopljene u web alate postaju dostupne svim uposlenima

Problem:� Još uvijek zahtijevaju visoku razinu stručnog znanja

o metodama, pa se razvijaju alati koji će omogućiti korištenje menadžerima i bez tog specijaliziranog znanja stručnog znanja

� Nedovoljna edukacija korisnika o mogućnostima primjene ovih metoda

M. Zekić- Sušac 30

Slučajevi upotrebe poslovne inteligencije

� Klepac, Mršić (2007) opisuju desetak slučajeva upotrebe poslovne inteligencije u poduzećima� U tekstilnoj industriji� U prodaji (kataloška prodaja, web prodaja, prodaja u

prodavaonicama)� U osiguravajućem društvu� Itd.

� Od metoda se najviše koriste statističke prognoze (trend i dr.), zatim neuronske mreže za asocijaciju, predviđanje i klasifikaciju, te stabla odlučivanja

Page 16: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

16

M. Zekić- Sušac 31

Poslovni problemi na kojima se primjenjuju inteligentne metode

� Problem potrošačke košarice (koje proizvode kupci najčešće kupuju zajedno u jednoj kupovini)� Poslovne odluke koje su uz to vezane: raspored

robe na policama, akcije i popusti, reklame, direktne reklame različitim skupinama kupaca i dr.

� Cross-selling (istraživanje o tome koje proizvode najčešće kupuju kupci koji su jednom već kupili nešto kod nas)� Poslovne odluke koje su uz to vezane: akcije i

popusti, reklame, direktne reklame različitim skupinama kupaca, izrada kataloga za pojedine skupine kupaca i dr.

M. Zekić- Sušac 32

Analiza slučaja

� Slučaj: Povećanje učinkovitosti kataloške prodaje

� Autori: Klepac, Mršić, Poslovna inteligencija kroz poslovne slučajeve, TIM Press, 2006. str. 131-155.

Page 17: 7. Rudarenje podataka (data mining) i slučajevi upotrebe file1 M. Zekić- Sušac 1 7. Rudarenje podataka (data mining) i slučajevi upotrebe M. Zekić- Sušac 2 Što ćete naučiti

17

M. Zekić- Sušac 33

Pitanja za analizu slučajeva

1. Identifikacija problema – što je bio problem u tvrtci

2. Analiza postojećeg stanja – postojeći IS, nedostaci, prednosti

3. Prijedlog rješenja 1. Ciljevi2. Metode koje se koriste i softverski alati3. Rješavanje problema

4. Analiza prednosti i nedostataka novog rješenja

M. Zekić- Sušac 34

Literatura

� Čerić, V., Varga, M., Birola, H.: Informacijska tehnologija u poslovanju, Element, Zagreb, 2006.

� Bidgoli, H., Intelligent Management Support System,Quorum, London, 1998.

� Jackson, J., Data Mining: A Conceptual Overview, Communications of the AIS, Volume 8, 2002, pp. 267-296.

� Klepac, G., Mršić, L., Poslovna inteligencija kroz poslovne slučajeve, Lider Press, Tim Press, Zagreb, 2006.

� Microsoft SQL Server BI Development Studio – help� Panian, Ž., Klepac, G., Poslovna inteligencija,

Masmedia, Zagreb, 2003.