37
1 Rudarjenje podatkov Dragan Savić

Rudarjenje podatkov

  • Upload
    ideep13

  • View
    86

  • Download
    10

Embed Size (px)

DESCRIPTION

FAX - MMK Telekomunikacijska omrežja 1.letnik

Citation preview

Page 1: Rudarjenje podatkov

1

Rudarjenje podatkov

Dragan Savić

Page 2: Rudarjenje podatkov

2

Pregled vsebine

Vpogled v rudarjenje podatkovNalogeTehnikeMetodologija

Rudarjenje podatkov v telekomunikacijahVrsta podatkov Aplikacije pri rudarjenju podatkovPraktični izračun izgube strank - churnProgramska opremaZaključek

Page 3: Rudarjenje podatkov

3

Iskanje informacij

Kako analizirati veliko količino podatkov?Uporaba tehnik rudarjenja podatkov.Različni izzivi:

obdelava velike količine podatkov,priprava surovih podatkov,napoved zelo redkih dogodkov,delovanje v realnem času.

Page 4: Rudarjenje podatkov

4

Rudarjenje podatkov - uvod

Definicija: Raziskovanje in analiza velikih količin podatkov z namenom odkrivanja pomembnih vzorcev in pravil.Kaj rudarjenje podatkov ni?

skladiščenje podatkov,Ad-hoc poizvedovanje/poročanje,OLAP – On-Line Analitical Processing (hitro poizvedovanje),vizualizacija podatkov.

Page 5: Rudarjenje podatkov

5

Rudarjenje podatkov - postavitev

Povečanje možnostiza podporo poslovnihodločitev

Končni uporabnik

Poslovni analitiki

Podatkovni analitiki

DBA

Izvajanjeodločitev

Prikaz podatkov

Vizualizacijske tehnike

Rudarjenje podatkovOdkrivanje informacijRaziskovanje podatkov

OLAP (On-Line Analytical Processing)

Statistična analiza, poizvedovanje in poročanjePodatkovna skladišča

Izvori podatkovDokumenti, datoteke, ponudniki informacij, sistemi pod. baz

Page 6: Rudarjenje podatkov

6

Rudarjenje podatkov - oblike

Prihaja v dveh oblikah:Usmerjena – iskanje vzorcev, ki pojasnjujejo določen izid (npr. razvrščanje kupcev glede na njihove nakupovalne navade – majhen, srednji ali velik potrošnik)Neusmerjena – iskanje zanimivih vzorcev brez upoštevanja posebne ciljne spremenljivke.

Page 7: Rudarjenje podatkov

7

Rudarjenje podatkov - naloge

KlasifikacijaRazvrščanje podatkov v vnaprej določene razrede – diskretni izidi (nizek, srednji in visoki kreditni rizik)

OcenjevanjePodobno kot klasifikacija, le daimamo opravka z zveznimi izidi(ocena otrok v družini, ocena vrednosti

hiše, ocena LTVja – Life Time Value)

NapovedovanjeNapoved izidov (verjetnost, da naročnik zapusti operaterja)

Page 8: Rudarjenje podatkov

8

Rudarjenje podatkov - naloge

Razvrščanje po podobnosti ali asociativna pravila

Katere stvari sodijo skupaj (pelenice in pivo, lutka in čokolada)

GrozdenjeRazvrščanje brez upoštevanja določene ciljne spremenljivke. Segmentacija heterogene populacije v večhomogenih podgrup ali grozdov(različni grozdi simptomov lahko indicirajorazlične bolezni)

Page 9: Rudarjenje podatkov

9

Rudarjenje podatkov - naloge

Opisovanje ali profiliranje opis dogajanja v podatkovnih zbirkah z velikim količinami podatkov(ženske v Ameriki podpirajo demokrate v večjem številu kot moški)

Page 10: Rudarjenje podatkov

10

Modeli

Testiranje hipotez:generiranje hipotez,testiranje hipotez.

Modeliranje – ustvarjanjemodelov na osnovi podatkov:

učna množica,validacijska množica intestna množica.

ModelVhodi – vhodne spremenljivke

Izhodi – ciljnespremenljivke

Page 11: Rudarjenje podatkov

11

Tehnike rudarjenja podatkov

Nevronske mreže

∑W

1

biasW2

izhod

W3 W4

I1

I2I3 I4

tanh(x) = (ex-e-x)/(ex+e-x)

Uteženavsota

Page 12: Rudarjenje podatkov

12

Tehnike rudarjenja podatkov

Primer uporabe nevronskih mrež pri razvrščanju – slab/dober policaj

Page 13: Rudarjenje podatkov

13

Tehnike rudarjenja podatkov

Odločitvena drevesa

Bilanca>10 Bilanca<=10

Starost<=32 Starost>32

Poročen=NE Poročen=DA

Page 14: Rudarjenje podatkov

14

Tehnike rudarjenja podatkov

Dodaten primer – igranje golfa

Modelvreme

vlažnost

vetrovno

igra golfa (DA ali NE)

Page 15: Rudarjenje podatkov

15

Tehnike rudarjenja podatkov

Genetski algoritmiSelekcija – izbira najboljših vzorcev in kopiranje le teh

Primer: izračun maximuma funkcije: y=31x – x2

Generacija N Generacija N + 1

Gen Vrednost (y) Delež Gen x Vrednost (y)

Populacija pred selekcijo Populacija po selekciji

Page 16: Rudarjenje podatkov

16

Tehnike rudarjenja podatkov

Križanje - novi vzorci

Gen x Vrednost (y)Gen x Vrednost (y)

Populacija po selekciji Populacija po križanju

Funkcija: y=31x – x2

Page 17: Rudarjenje podatkov

17

Tehnike rudarjenja podatkov

Mutacija – spreminjanje bitov1 -> 0 ali 0 -> 1

Gen X Vrednost

Populacija po križanju

Gen X Vrednost

Populacija po mutaciji

1

1

0

0

1

1

1

1

0

1

Page 18: Rudarjenje podatkov

18

Tehnike rudarjenja podatkov

Funkcija y=31x – x2

spremenljivka x

Vred

nost fu

nkcije y

Page 19: Rudarjenje podatkov

19

Metodologija - koraki

1. Pretvorba poslovnega problema v problem za rudarjenje podatkov – specifični cilji, ?rezultati?2. Izbira primernih podatkov (količina, starost, …)3. Spoznavanje podatkov4. Izdelava podatkovnih zbirk za model5. Odpravljanje pomanjkljivosti podatkov6. Transformacija podatkov s postavljanjem informacije na površino (anomalije, razredi, …)7. Izgradnja modelov (iskanje relacij)8. Vrednotenje modelov (graf dviga, natančnost, obsežnost, …)9. Razvoj modelov (programiranje ☺)10. Vrednotenje rezultatov11. Začni znova (testiranje novih hipotez)

Page 20: Rudarjenje podatkov

20

Metodologija - koraki

Page 21: Rudarjenje podatkov

21

Rudarjenje podatkov v telekomunikacijah

Page 22: Rudarjenje podatkov

22

Vrsta podatkov

Pri mobilnih operaterjih ločimo tri glavne vrste podatkov:

podrobni zapisi klicev (povprečni čas klica, procent neodgovorjenih klicev, procent klicev v/iz različne področne kode, procent klicev med tednom, …)omrežni podatki (alarmi omrežnih komponent, parametri povezave, …) innaročniški podatki (ime in naslov naročnika, uporaba storitev, detajli naročniške pogodbe, …).

Page 23: Rudarjenje podatkov

23

Aplikacije pri rudarjenju podatkov

Delimo jih na štiri večja področja:Trženje in prodaja – ugotavljanje skupin uporabnikov z določenim klicnimi značilnostmi, analiza ter segmentacija trga, pridobivanje novih naročnikov preko različnih kanalov, itd.Poslovanje – ocena izgube stranke, ocena življenjske dobičkonosnosti stranke, detekcija goljufij, itd. Zagotavljanje kakovosti – izolacija omrežnih napak, spremljanje kvalitete posamezne storitve, itd.

Page 24: Rudarjenje podatkov

24

Sistem za obdržanje strank in maksimiranje dobička

Page 25: Rudarjenje podatkov

25

Zadovoljstvo uporabnikov

Faktor Pomembnost [%] Narava podatkov potrebnih za napoved

kvaliteta klicev 21 omrežni

cenovne opcije 18 trženjski, zaračunavanje

korporativna sposobnost 17 trženjski, upor. storitve

naročniške storitve 17 uporabniške storitve

komunikacija z naročniki 10 trženjski, upor. storitve

roaming/pokritost 7 omrežni

ročni terminal 4 aplikacijski

izstavljanje računov 3 zaračunavanje

stroški roaminga 3 trženjski, zaračunavanje

Page 26: Rudarjenje podatkov

26

Ocena izgube strank

Pridobitev nove stranke stane od 5 do 10 krat več kot zadržitev obstoječe stranke!

Page 27: Rudarjenje podatkov

27

Življenjska dobičkonosnost naročnika

Definirana kot celotni neto prihodek za mobilnega operaterja, ki ga lahko pričakuje od stranke skozi njeno življenjsko obdobje.Izračun trenutne življenjske dobičkonosnosti stranke:

vrednost stranke skozi čas – v(t) za t ≥ 0model dolžine storitve – S(t) (S(t)=0.95t)faktor popusta – D(t)

eksponentna funkcija: D(t)=exp(-at) za nek a ≥ 0 (a = 0 pomeni nobenega popusta)pragovna funkcija: D(t)=I( t ≤ T) za nek T > 0

0

( ) ( ) ( )LTV S t v t D t dt∞

= ∫

Page 28: Rudarjenje podatkov

28

Detekcija goljufij

Kloniranje mobilnih terminalov.Profiliranje klicnih aktivnosti uporabnikov.Absolutna in diferencialna analiza:

Detekcija goljufij z upoštevanjem pravil.Detekcija goljufij z uporabo nevronskih mrež:

nadzorovano učenje innenadzorovano učenje.

Page 29: Rudarjenje podatkov

29

Izolacija omrežnih napak

Korelacija dogodkov: relacije med alarmnimi dogodki – sekvence.Vrste pristopov na podlagi:

pravil,kod,modelov,ali rudarjenja podatkov (nevronske mreže, genetski algoritmi,…)

Page 30: Rudarjenje podatkov

30

Metode s časovnimi okni

Del časovne sekvence se pretvori v množico razvrščenih primerov.Problem: pri transformaciji pride do izgube nekaterih podatkov.

Page 31: Rudarjenje podatkov

31

Praktični primer – churn

Izračun izgube strank (ang. churn) s pomočjo statističnega orodja SPSS.Uporabljen model: logična regresija.Podatki namišljenega operaterja Cell2Cell:

71047 naročnikov s 75 vhodnimi spremenljivkami,učna množica: 40000 uporabnikov - 50% churn,validacijska množica: 31047 uporabnikov –2% churn.

Page 32: Rudarjenje podatkov

32

Praktični primer – churn

Mean monthly revenue Mean number of blocked voice calls

Mean monthly minutes of use Mean number of unanswered voice calls

Mean total recurring charge Mean number of customer care calls

Mean number of director assisted calls Mean number of threeway calls

Mean overage minutes of use Mean unrounded mou received voice calls

Mean number of roaming calls Mean number of outbound voice calls

% Change in minutes of use Mean number of inbound voice calls

% Change in revenues Mean number of in and out peak voice calls

Mean number of dropped voice calls Mean number of in and out off-peak voice calls

Mean number of call waiting calls Mean number of dropped or blocked calls

Months in Service Mean number of call forwarding calls

Vhodne spremenljivke:

Page 33: Rudarjenje podatkov

33

Praktični primer – churn

Kumulativni dobitek

Page 34: Rudarjenje podatkov

34

Programska oprema

Klasifikacijska shema sestavljena iz treh skupin:

splošne značilnostistatus produkcije, zakoniti status, demo, …

povezljivost s podatkovno bazopodatkovni izvori, tipi povezave, velikost podatkov, …

karakteristike značilne za rudarjenje podatkov

vrste raziskovalnih nalog in tehnik, interakcija s človekom, …

Page 35: Rudarjenje podatkov

35

Programska oprema

Pregled komercialnih produktov – med vodilnimi so: SAS, SPSS in Oracle.

Page 36: Rudarjenje podatkov

36

Zaključek

Izkoriščanje informacij, ki jih najdemo v podatkih.Uporaba rudarjenja podatkov na različnih področjih:

trženje in prodaja, poslovanje in,zagotavljanje kakovosti.

Veliko različne programske opreme na voljo.Številna podjetja že izkoriščajo prednosti rudarjenja podatkov.

Page 37: Rudarjenje podatkov

37

Za konec…

“Data mining suggests, business decide!”