Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
1
M. Zekić- Sušac 1
7. Rudarenje podataka (data mining) i slučajevi upotrebe
M. Zekić- Sušac 2
Što ćete naučiti u ovom poglavlju?
� Što je rudarenje (ili kopanje) podataka (eng. Data mining)?
� Koje su metode data mining-a� Kako koristiti kvantitativne sofisticirane
metode koje se koriste za traženje skrivenih zakonitosti u podacima tvrtke
� Koji su alati za datamining� Kako se u poslovanju koriste inteligentne
metode u rudarenju podataka
2
M. Zekić- Sušac 3
Rudarenje podataka (Data mining)
Pelene kupuju očevi petkom poslijepodne, i uz njih obično kupe pivo za gledanje utakmice preko vikenda!
Poznato otkriće rudarenja podataka za P&G:
Korist od ovog otkrića:
Reklame za pelene treba slati očevima a ne majkama!
Zalihe treba planirati tako da petkom bude najviše robe na policama.
M. Zekić- Sušac 4
Što je rudarenje podataka?
� Cilj rudarenja podataka je identificirati vrijedne nove, potencijalno korisne veze i uzorke u postojećim podacima (Jackson, 2002)
Rudarenje podataka uključuje primjenu tehnika:� numeričke analize� traženje uzoraka i strojno učenje,� stabla odlučivanja, neuronske mreže, genetički
algoritmi i dr.
3
M. Zekić- Sušac 5
a) ako DW postoji, DM može biti dio DW
b) ako DW ne postoji, DM se može koristiti na raspoloživoj bazi podataka
Data Mining i Data Warehousing
DWDMskladište
podataka
baza podataka
DM
M. Zekić- Sušac 6
Data Mining i OLAP
� Razlika: OLAP je tehnologija za sumiranje i agregaciju podataka, a DM je metodologija za traženje uzoraka i veza među tim podacima (Jackson, 2002)
� Integracija OLAP-a i DM: OLAM (On-line Analytical Mining)
4
M. Zekić- Sušac 7
Što možemo napraviti data mining-om?
� segmentirati tržište� otkriti profil tipičnog klijenta određene vrste
proizvoda� sklonosti klijenta kupnji i motivatore za cross selling� napraviti model potrošačke košarice (market
basket)� detektirati potencijalne prijevare na prodajnim
mjestima� predvidjeti trendove pojava, npr. kretanja profita� otkriti sličnosti među tržišnim kategorijama, i dr.
M. Zekić- Sušac 8
Primjer i upotrebe data mining-a
� Ako smo vlasnik ili manager u lancu trgovina i želimo saznati postoji li pravilnost u trendovima prodaje u nekoj od trgovina početkom tjedna ili krajem tjedna i zašto� ili želimo saznati da li će se povećati prodaja nekog artikla
X ako se prodaje u paru s artiklom Y� Ako smo manager u banci i želimo saznati profil
klijenata koji će vjerojatno otići u minus na tekućem računu ili profil onih koji neće vraćati kredit
� Ako smo vlasnik proizvodne tvrtke i želimo znati koje su karakteristike proizvoda koje imaju prođu na tržištu,
� i dr.
5
M. Zekić- Sušac 9
Prognostičke metodeLine Plot (Stocks.sta 3v*200c )STOCK1 = 68.5503-0.0114*xSTOCK2 = 55.6096-0.0164*x
STOCK1 STOCK22/1/91
2/22/913/14/91
4/3/914/23/91
5/13/915/31/91
6/20/917/10/91
7/30/918/19/91
9/6/919/26/91
10/16/9111/5/91
50
52
54
56
58
60
62
64
66
68
70
72
74
Primjer 1. Predviđanje cijene dionica
M. Zekić- Sušac 10
Napredne prognostičke metode
6
M. Zekić- Sušac 11
Veza DM i poslovnih ciljevaTvrtke često koriste reklamuputem pošte direktno naadrese potrošača.
Stopa reakcije na ovakvureklamu u SAD je oko 2%.
DM može pomoći u smanjivanju ovog uzaludnog naporai troška predviđanjem reakcije potrošača, i time slanjemreklama samo onim skupinama za koje postoji velika vjerojatnost da će kupiti proizvod.
M. Zekić- Sušac 12
Primjeri primjene DM� Trgovina - Potrošačka košarica – za identificiranje
artikala koji se prodaju zajedno, za određivanje načina oglašavanja artikala, za predviđanje efektivnosti promocije i reklame
� Banke i osiguravajuće kuće – za identificiranje “dobrih” i “loših” klijenata
� Medicinske ustanove – za predviđanje uspješnosti operacija, medicinskih testova, ili lijekova
� Proizvodne tvrtke – za procjenu vjerojatnosti kvarova proizvoda
� i slično.
7
M. Zekić- Sušac 13
Slučaj primjene DM
� Tvrtka Petrol napravila je dvije analize:� analizu veleprodaje i identificirala kupce
za koje je vjerojatno da će biti slabi platiše u budućnosti
� analizu računa kupaca kako bi otkrila u kojim danima u tjednu treba imati veće zalihe goriva
� Chase Manhattan bank – koristi DM za određivanje kojim klijentima dodijeliti kredit
M. Zekić- Sušac 14
Koraci u primjeni DMKoraci prema CRISP-DM metodologiji:
� razumijevanje poslovnih ciljeva (što želimo postići)� razumijevanje podataka (prikupiti, opisati i verificirati
podatke)� priprema podataka (izabrati, očistiti, integrirati i
formatirati podatke)� modeliranje (izbor tehnike, testiranje, izgradnja
modela, ocjena modela)� evaluacija (ocjena rezultata, pregled napravljenog,
plan za sljedeći korak)� primjena plana, izrada konačnog izvještaja, revizija
projekta
8
M. Zekić- Sušac 15
Tehnike koje koristi DM
� Neuronske mreže (Neural Networks)� Zaključivanje na temelju slučajeva (Case-Based
Reasoning – CBR)� Genetički algoritmi (Genetic Algorithms)� Stabla odlučivanja (Decision Trees)� Asocijacijska pravila (Association Rules)� Statističke metode: deskriptivne i vizualizacijske
tehnike, klaster analize, korelacijske analize, diskriminantnu analizu, faktorsku analizu, regresijsku analizu, logističku regresiju i dr.)
M. Zekić- Sušac 16
DM se može koristiti za:
� Sumiranje podataka� Segmentaciju� Klasifikaciju� Predviđanje� Asocijaciju (prepoznavanje uzoraka)
9
M. Zekić- Sušac 17
Koju tehniku DM koristiti?
M. Zekić- Sušac 18
Primjena inteligentnih metoda u poslovanju
� U poslovanju se inteligentne metode mogu koristiti:� Ugrađene u zasebne specijalizirane alate
� Za neuronske mreže npr. NeuroSolutions, Orange, NeuroIntelligence, i dr.
� Za ekspertne sustave npr. ExSys Corvid, XpertRule, i dr. � U okviru statističkih alata (npr. Statistica, SAS,
MathLab)� U okviru integriranog sustava poslovne
inteligencije uključenog u sustav za planiranje resursa (ERP)� npr. MS SQL Server Business Intelligence
10
M. Zekić- Sušac 19
Alati za DM
� Statistički softverski paketi (npr. SAS, Statistika, SPSS, i dr.)
� Matematički softverski paketi (npr. MathLab, Matematica)
� Alati uključeni u skladištenje podataka (OLAP) ili sustav za upravljanje bazom podataka (npr. Microsoft SQL Server Business Intelligence – uključuje i Enterprise Miner)
� Specijalizirani alati za općenite ili poslovne primjene (npr. DataMiner, IntelliMiner, i sl.)
M. Zekić- Sušac 20
SQL Server BI� SQL Server BI Development Studio (2008)
� Alat koji dolazi zajedno s MS SQL server bazom podataka
� Omogućava upotrebu:� Neuronskih mreža� Stabala odlučivanja� Statističkih prognostičkih metoda (ARIMA)� i dr. statističkih metoda (npr. klasteriranje, regresija)
� Podaci se pri tome učitavaju iz SQL server baze podataka ili iz kocke skladišta podataka
� Kreira se Data mining projekt u kojem se vrši izbor metode i izgradnja modela
11
M. Zekić- Sušac 21
SQL Server BI Development Studio – izgled sučelja
Nakon otvaranja novog projekta, i izbora baze ili kocke koja će se koristiti kao izvor podataka, kreiran je BI projekt u SQL Server BI alatu.
M. Zekić- Sušac 22
SQL Server BI – kreiranje modela neuronske mreže
Izbor metode koja će se koristiti u okviru datamining strukture, npr. Microsoft Neural network
12
M. Zekić- Sušac 23
SQL Server BI – izbor varijabli
Izbor načina uzorkovanja podataka, npr. 30% podataka izdvojiti za testiranje
M. Zekić- Sušac 24
SQL Server BI – izbor varijabli
Izbor ulaznih i izlaznih varijabli u modelu
- Potrebno je označiti koja varijabla je identifikator slučajeva (key varijabla), koje su ulazne, a koje izlazne (predicted) varijable.
13
M. Zekić- Sušac 25
SQL Server BI – prikaz modela
U gornjem dijelu prozora vidljive su kartice s pomoću kojih se dobiva uvid u izgrađeni model neuronske mreže i njegove rezultate.
Varijable u modelu
M. Zekić- Sušac 26
SQL Server BI – grafičkih prikaz rezultata
Grafikon prikazuje stvarne i predviđene vrijednosti u obliku dijagrama rasipanja (scatter plot). Ako su točke na dijagramu oko dijagonale, točnost modela je visoka.
14
M. Zekić- Sušac 27
SQL Server BI – značajnost varijabli
Značajnost varijabli dobiva se analizom osjetljivosti izlazne varijable na ulazne – trake na grafikonu prikazuju jačinu utjecaja neke ulazne varijable na izlaznu
M. Zekić- Sušac 28
SQL Server BI
� Nakon grafičke analize rezultata moguće je dobivanje greške modela neuronske mreže na uzorku za validaciju (Enterprise inačica alata)
� Upotrebu modela neuronske mreže u praksi na novim podacima omogućava kartica “Mining model prediction)
� Na sličan način izgrađuje se model stabla odlučivanja, ili druge metode.
15
M. Zekić- Sušac 29
Budućnost upotrebe DM u poslovanju
Trend razvoja:� DM metode se integriraju u alate za upravljanje
bazama podataka, te tako softverski postaju raspoložive brojnim tvrtkama
� Uklopljene u web alate postaju dostupne svim uposlenima
Problem:� Još uvijek zahtijevaju visoku razinu stručnog znanja
o metodama, pa se razvijaju alati koji će omogućiti korištenje menadžerima i bez tog specijaliziranog znanja stručnog znanja
� Nedovoljna edukacija korisnika o mogućnostima primjene ovih metoda
M. Zekić- Sušac 30
Slučajevi upotrebe poslovne inteligencije
� Klepac, Mršić (2007) opisuju desetak slučajeva upotrebe poslovne inteligencije u poduzećima� U tekstilnoj industriji� U prodaji (kataloška prodaja, web prodaja, prodaja u
prodavaonicama)� U osiguravajućem društvu� Itd.
� Od metoda se najviše koriste statističke prognoze (trend i dr.), zatim neuronske mreže za asocijaciju, predviđanje i klasifikaciju, te stabla odlučivanja
16
M. Zekić- Sušac 31
Poslovni problemi na kojima se primjenjuju inteligentne metode
� Problem potrošačke košarice (koje proizvode kupci najčešće kupuju zajedno u jednoj kupovini)� Poslovne odluke koje su uz to vezane: raspored
robe na policama, akcije i popusti, reklame, direktne reklame različitim skupinama kupaca i dr.
� Cross-selling (istraživanje o tome koje proizvode najčešće kupuju kupci koji su jednom već kupili nešto kod nas)� Poslovne odluke koje su uz to vezane: akcije i
popusti, reklame, direktne reklame različitim skupinama kupaca, izrada kataloga za pojedine skupine kupaca i dr.
M. Zekić- Sušac 32
Analiza slučaja
� Slučaj: Povećanje učinkovitosti kataloške prodaje
� Autori: Klepac, Mršić, Poslovna inteligencija kroz poslovne slučajeve, TIM Press, 2006. str. 131-155.
17
M. Zekić- Sušac 33
Pitanja za analizu slučajeva
1. Identifikacija problema – što je bio problem u tvrtci
2. Analiza postojećeg stanja – postojeći IS, nedostaci, prednosti
3. Prijedlog rješenja 1. Ciljevi2. Metode koje se koriste i softverski alati3. Rješavanje problema
4. Analiza prednosti i nedostataka novog rješenja
M. Zekić- Sušac 34
Literatura
� Čerić, V., Varga, M., Birola, H.: Informacijska tehnologija u poslovanju, Element, Zagreb, 2006.
� Bidgoli, H., Intelligent Management Support System,Quorum, London, 1998.
� Jackson, J., Data Mining: A Conceptual Overview, Communications of the AIS, Volume 8, 2002, pp. 267-296.
� Klepac, G., Mršić, L., Poslovna inteligencija kroz poslovne slučajeve, Lider Press, Tim Press, Zagreb, 2006.
� Microsoft SQL Server BI Development Studio – help� Panian, Ž., Klepac, G., Poslovna inteligencija,
Masmedia, Zagreb, 2003.