Upload
ideep13
View
86
Download
10
Tags:
Embed Size (px)
DESCRIPTION
FAX - MMK Telekomunikacijska omrežja 1.letnik
Citation preview
1
Rudarjenje podatkov
Dragan Savić
2
Pregled vsebine
Vpogled v rudarjenje podatkovNalogeTehnikeMetodologija
Rudarjenje podatkov v telekomunikacijahVrsta podatkov Aplikacije pri rudarjenju podatkovPraktični izračun izgube strank - churnProgramska opremaZaključek
3
Iskanje informacij
Kako analizirati veliko količino podatkov?Uporaba tehnik rudarjenja podatkov.Različni izzivi:
obdelava velike količine podatkov,priprava surovih podatkov,napoved zelo redkih dogodkov,delovanje v realnem času.
4
Rudarjenje podatkov - uvod
Definicija: Raziskovanje in analiza velikih količin podatkov z namenom odkrivanja pomembnih vzorcev in pravil.Kaj rudarjenje podatkov ni?
skladiščenje podatkov,Ad-hoc poizvedovanje/poročanje,OLAP – On-Line Analitical Processing (hitro poizvedovanje),vizualizacija podatkov.
5
Rudarjenje podatkov - postavitev
Povečanje možnostiza podporo poslovnihodločitev
Končni uporabnik
Poslovni analitiki
Podatkovni analitiki
DBA
Izvajanjeodločitev
Prikaz podatkov
Vizualizacijske tehnike
Rudarjenje podatkovOdkrivanje informacijRaziskovanje podatkov
OLAP (On-Line Analytical Processing)
Statistična analiza, poizvedovanje in poročanjePodatkovna skladišča
Izvori podatkovDokumenti, datoteke, ponudniki informacij, sistemi pod. baz
6
Rudarjenje podatkov - oblike
Prihaja v dveh oblikah:Usmerjena – iskanje vzorcev, ki pojasnjujejo določen izid (npr. razvrščanje kupcev glede na njihove nakupovalne navade – majhen, srednji ali velik potrošnik)Neusmerjena – iskanje zanimivih vzorcev brez upoštevanja posebne ciljne spremenljivke.
7
Rudarjenje podatkov - naloge
KlasifikacijaRazvrščanje podatkov v vnaprej določene razrede – diskretni izidi (nizek, srednji in visoki kreditni rizik)
OcenjevanjePodobno kot klasifikacija, le daimamo opravka z zveznimi izidi(ocena otrok v družini, ocena vrednosti
hiše, ocena LTVja – Life Time Value)
NapovedovanjeNapoved izidov (verjetnost, da naročnik zapusti operaterja)
8
Rudarjenje podatkov - naloge
Razvrščanje po podobnosti ali asociativna pravila
Katere stvari sodijo skupaj (pelenice in pivo, lutka in čokolada)
GrozdenjeRazvrščanje brez upoštevanja določene ciljne spremenljivke. Segmentacija heterogene populacije v večhomogenih podgrup ali grozdov(različni grozdi simptomov lahko indicirajorazlične bolezni)
9
Rudarjenje podatkov - naloge
Opisovanje ali profiliranje opis dogajanja v podatkovnih zbirkah z velikim količinami podatkov(ženske v Ameriki podpirajo demokrate v večjem številu kot moški)
10
Modeli
Testiranje hipotez:generiranje hipotez,testiranje hipotez.
Modeliranje – ustvarjanjemodelov na osnovi podatkov:
učna množica,validacijska množica intestna množica.
ModelVhodi – vhodne spremenljivke
Izhodi – ciljnespremenljivke
11
Tehnike rudarjenja podatkov
Nevronske mreže
∑W
1
biasW2
izhod
W3 W4
I1
I2I3 I4
tanh(x) = (ex-e-x)/(ex+e-x)
Uteženavsota
12
Tehnike rudarjenja podatkov
Primer uporabe nevronskih mrež pri razvrščanju – slab/dober policaj
13
Tehnike rudarjenja podatkov
Odločitvena drevesa
Bilanca>10 Bilanca<=10
Starost<=32 Starost>32
Poročen=NE Poročen=DA
14
Tehnike rudarjenja podatkov
Dodaten primer – igranje golfa
Modelvreme
vlažnost
vetrovno
igra golfa (DA ali NE)
15
Tehnike rudarjenja podatkov
Genetski algoritmiSelekcija – izbira najboljših vzorcev in kopiranje le teh
Primer: izračun maximuma funkcije: y=31x – x2
Generacija N Generacija N + 1
Gen Vrednost (y) Delež Gen x Vrednost (y)
Populacija pred selekcijo Populacija po selekciji
16
Tehnike rudarjenja podatkov
Križanje - novi vzorci
Gen x Vrednost (y)Gen x Vrednost (y)
Populacija po selekciji Populacija po križanju
Funkcija: y=31x – x2
17
Tehnike rudarjenja podatkov
Mutacija – spreminjanje bitov1 -> 0 ali 0 -> 1
Gen X Vrednost
Populacija po križanju
Gen X Vrednost
Populacija po mutaciji
1
1
0
0
1
1
1
1
0
1
18
Tehnike rudarjenja podatkov
Funkcija y=31x – x2
spremenljivka x
Vred
nost fu
nkcije y
19
Metodologija - koraki
1. Pretvorba poslovnega problema v problem za rudarjenje podatkov – specifični cilji, ?rezultati?2. Izbira primernih podatkov (količina, starost, …)3. Spoznavanje podatkov4. Izdelava podatkovnih zbirk za model5. Odpravljanje pomanjkljivosti podatkov6. Transformacija podatkov s postavljanjem informacije na površino (anomalije, razredi, …)7. Izgradnja modelov (iskanje relacij)8. Vrednotenje modelov (graf dviga, natančnost, obsežnost, …)9. Razvoj modelov (programiranje ☺)10. Vrednotenje rezultatov11. Začni znova (testiranje novih hipotez)
20
Metodologija - koraki
21
Rudarjenje podatkov v telekomunikacijah
22
Vrsta podatkov
Pri mobilnih operaterjih ločimo tri glavne vrste podatkov:
podrobni zapisi klicev (povprečni čas klica, procent neodgovorjenih klicev, procent klicev v/iz različne področne kode, procent klicev med tednom, …)omrežni podatki (alarmi omrežnih komponent, parametri povezave, …) innaročniški podatki (ime in naslov naročnika, uporaba storitev, detajli naročniške pogodbe, …).
23
Aplikacije pri rudarjenju podatkov
Delimo jih na štiri večja področja:Trženje in prodaja – ugotavljanje skupin uporabnikov z določenim klicnimi značilnostmi, analiza ter segmentacija trga, pridobivanje novih naročnikov preko različnih kanalov, itd.Poslovanje – ocena izgube stranke, ocena življenjske dobičkonosnosti stranke, detekcija goljufij, itd. Zagotavljanje kakovosti – izolacija omrežnih napak, spremljanje kvalitete posamezne storitve, itd.
24
Sistem za obdržanje strank in maksimiranje dobička
25
Zadovoljstvo uporabnikov
Faktor Pomembnost [%] Narava podatkov potrebnih za napoved
kvaliteta klicev 21 omrežni
cenovne opcije 18 trženjski, zaračunavanje
korporativna sposobnost 17 trženjski, upor. storitve
naročniške storitve 17 uporabniške storitve
komunikacija z naročniki 10 trženjski, upor. storitve
roaming/pokritost 7 omrežni
ročni terminal 4 aplikacijski
izstavljanje računov 3 zaračunavanje
stroški roaminga 3 trženjski, zaračunavanje
26
Ocena izgube strank
Pridobitev nove stranke stane od 5 do 10 krat več kot zadržitev obstoječe stranke!
27
Življenjska dobičkonosnost naročnika
Definirana kot celotni neto prihodek za mobilnega operaterja, ki ga lahko pričakuje od stranke skozi njeno življenjsko obdobje.Izračun trenutne življenjske dobičkonosnosti stranke:
vrednost stranke skozi čas – v(t) za t ≥ 0model dolžine storitve – S(t) (S(t)=0.95t)faktor popusta – D(t)
eksponentna funkcija: D(t)=exp(-at) za nek a ≥ 0 (a = 0 pomeni nobenega popusta)pragovna funkcija: D(t)=I( t ≤ T) za nek T > 0
0
( ) ( ) ( )LTV S t v t D t dt∞
= ∫
28
Detekcija goljufij
Kloniranje mobilnih terminalov.Profiliranje klicnih aktivnosti uporabnikov.Absolutna in diferencialna analiza:
Detekcija goljufij z upoštevanjem pravil.Detekcija goljufij z uporabo nevronskih mrež:
nadzorovano učenje innenadzorovano učenje.
29
Izolacija omrežnih napak
Korelacija dogodkov: relacije med alarmnimi dogodki – sekvence.Vrste pristopov na podlagi:
pravil,kod,modelov,ali rudarjenja podatkov (nevronske mreže, genetski algoritmi,…)
30
Metode s časovnimi okni
Del časovne sekvence se pretvori v množico razvrščenih primerov.Problem: pri transformaciji pride do izgube nekaterih podatkov.
31
Praktični primer – churn
Izračun izgube strank (ang. churn) s pomočjo statističnega orodja SPSS.Uporabljen model: logična regresija.Podatki namišljenega operaterja Cell2Cell:
71047 naročnikov s 75 vhodnimi spremenljivkami,učna množica: 40000 uporabnikov - 50% churn,validacijska množica: 31047 uporabnikov –2% churn.
32
Praktični primer – churn
Mean monthly revenue Mean number of blocked voice calls
Mean monthly minutes of use Mean number of unanswered voice calls
Mean total recurring charge Mean number of customer care calls
Mean number of director assisted calls Mean number of threeway calls
Mean overage minutes of use Mean unrounded mou received voice calls
Mean number of roaming calls Mean number of outbound voice calls
% Change in minutes of use Mean number of inbound voice calls
% Change in revenues Mean number of in and out peak voice calls
Mean number of dropped voice calls Mean number of in and out off-peak voice calls
Mean number of call waiting calls Mean number of dropped or blocked calls
Months in Service Mean number of call forwarding calls
Vhodne spremenljivke:
33
Praktični primer – churn
Kumulativni dobitek
34
Programska oprema
Klasifikacijska shema sestavljena iz treh skupin:
splošne značilnostistatus produkcije, zakoniti status, demo, …
povezljivost s podatkovno bazopodatkovni izvori, tipi povezave, velikost podatkov, …
karakteristike značilne za rudarjenje podatkov
vrste raziskovalnih nalog in tehnik, interakcija s človekom, …
35
Programska oprema
Pregled komercialnih produktov – med vodilnimi so: SAS, SPSS in Oracle.
36
Zaključek
Izkoriščanje informacij, ki jih najdemo v podatkih.Uporaba rudarjenja podatkov na različnih področjih:
trženje in prodaja, poslovanje in,zagotavljanje kakovosti.
Veliko različne programske opreme na voljo.Številna podjetja že izkoriščajo prednosti rudarjenja podatkov.
37
Za konec…
“Data mining suggests, business decide!”