44
Adatbányászati, data science tevékenység projektmenedzsmentje IPE képzés II. félév 2017. 03. 14. Körmendi György Clementine Consulting

Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, data science tevékenység projektmenedzsmentje

IPE képzés II. félév

2017. 03. 14.

Körmendi GyörgyClementine Consulting

Page 2: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Bemelegítés

Page 3: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászat célja

3

Szegmentálás

Jellemző mintázatok feltárása

Csoportok differenciált kezelése

Leíró modellek

Kapcsolatok feltárása

Összefüggések megértése

Előrejelző modellek

Események előrejelzése

Megelőzés

Page 4: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

• Van ilyen?• Ki végzi?• Hol végzi?• Mit csinál?• Hogyan végzi?• Mi az eredménye?

Page 5: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati projektek

• Ki végzi?

Adatbányász, adattudós, adatelemző (gyakran matematikus fizikus végzettségű)

Általában NEM programozó Gyakran NEM üzleti szakértő (pl. marketinges, értékesítő,

vagy ügyfélszolgálatos De általában masszív informatikai, és üzleti tudással IS

rendelkezik

L

Page 6: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati , DS projektek

• Hol végzi?

Általában belsős, ritkábban külsős Általában üzleti területhez tartozik, ritkábban IT

Page 7: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati , DS projektek

• Mit csinál?

Leíró statisztikákat gyárt(gyakoriság, eloszlások, kereszttáblák)

Riportokat készít, diagramokat gyárt Prediktív modelleket készít, fejleszt Prediktív analitikai rendszert üzemeltet

De persze többnyire (80%): Adatot tisztít, formáz, kérdez le Adatot „gyurmáz” (number crunching)

L

Page 8: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati , DS projektek

• Hogyan végzi?

Meglehetősen kötetlenül,nem szigorú lépésekben Gyakran egyedül, de legalábbis szeparálva Sok kreativitással Módszertanok

• CRISP-DM • SEMMA• …

L

Page 9: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Módszertan

Page 10: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

History of data analytics terminologies

1985 1995 20001990 2005 2010 2015

Statistics

KDD (Knowledge Discovery from Databases)

Machine learning

Data science

Data mining

Predictive Modeling

Page 11: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Alkalmazási területek

Bárhol ahol:• Van matematikailag megfelelő

probléma• Van hozzá adat• És megéri….

Page 12: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Alkalmazási területek

Bárhol ahol:• Van matematikailag megfelelő

probléma• Van hozzá adat• És megéri….

Page 13: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Alkalmazási területek

Bárhol ahol:• Van matematikailag megfelelő

probléma• Van hozzá adat• És megéri….

Page 14: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Alkalmazási területek

Bárhol ahol:• Van matematikailag megfelelő

probléma• Van hozzá adat• És megéri….

Page 15: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Eszközök

/Rexer, 2015/

Platformok vs programnyelvekOpen source vs fizetős

Page 16: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Eszközök

/Gartner, 2017/

Page 17: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Eszközök

Page 18: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati , DS projektek

• Mi az eredménye?

Riportok, diagramok, előrejelzések „célváltozó” (pl. lemorzsolódók, vagy csalók) Gépi automaták lelke (pl. ajánlórendszerek, optimalizáló

rendszerek )

L

Page 19: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Módszertan

Page 20: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Módszertan

CRoss-Industry

Standard

Process for

Data Mining

(CRISP-DM)

Adatbányászati

folyamatok

iparágak közötti

szabványa

L

Page 21: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

CRISP-DM• Üzleti célok meghatározása

• Üzleti problémák és célok megfogalmazása

• Helyzet értékelés – mi valósítható meg, és hogyan

• Feladat adatbányászati megfogalmazása

• Projekt terv elkészítése

• Adatok megismerése• Adatok begyűjtése

• Adatok vizsgálata, megértése

• Adatminőség felmérése

• Adatok előkészítése• Adatok kiválogatása

• Adattisztítás

• Adattranszformálás

L

Page 22: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

CRISP-DM• Modellezés

• Modellezési technika kiválasztása

• Tesztkörnyezet kialakítása (tanító, tesztelő, validáló minta)

• Modellek építése

• Generált modell értelmezése

• Kiértékelés• Eredmények kiértékelése

• Eredmény összevetése az üzleti célokkal

• Folyamat áttekintése

• Következő adatbányászati lépés meghatározása

• Alkalmazás• Alkalmazási terv elkészítése

• Monitoring terv

• A kész modellek átadása/telepítése

• Végső jelentések elkészítése

L

Page 23: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Algoritmusok

Sok ezer létezikNagy családokba rendezhetőkA legtöbb csak Pythonban, R-ben érhető elÜzleti életben csak néhányat használnak

Feladat, adat specifikusakNINCS csodaalgoritmusAz általánosan elterjedtek

általában elég jók

Page 24: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Irányított, felügyelt tanításNem irányított tanításMegerősített tanulás

Page 25: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

*A folytonos változókat kategóriákra osztja.

Irányított tanuló modellek összefoglalás

AlgoritmusCélváltozó

Input Hiányzó értékekFlag Kat. Folyt.

Regresszió x Folytonos eldobás v. használat

Linear x Bármi Nem kezeli

Log. Regr. x x Bármi Nem kezeli

Discriminant x x Folytonos Nem kezeli

Genlin x x x Bármi Nem kezeli

SVM x x x Bármi Nem kezeli

C5.0 x x Bármi kezeli

C&RT x x x Bármi pótvágás

CHAID x x x Bármi* becslés, külön kategória

QUEST x x Bármi pótvágás

Decision list x Bármi* külön kat. v. eldobás

Neurális háló x x x Bármi Semleges érték

Bayes háló x x Bármi* eldobás v. használat

KNN x x x Bármi Nen kezeli

Page 26: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt eljárásokat értékeljük, a célváltozó modellezési

pontosságát Modellek két módon javíthatók:

Több adattal, jobban előkészített adattal Algoritmus megválasztásával (próbálgatás)

Modell értékelési módszerek: Gains, Lift görbe Gini ROC AUC

Szakmai kérdés, hogy hogyan történik de a projekt elején megadhatóak, elvárható a megadása!

L

Page 27: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

No Score Target CustID Age

1 0.97 Y 1746 …

2 0.95 N 1024 …

3 0.94 Y 2478 …

4 0.93 Y 3820 …

5 0.92 N 4897 …

… … … …

99 0.11 N 2734 …

100 0.06 N 2422

1. A modell alapján minden esethez egy pontszámot rendelünk (score

érték)

2. A rekordokat a pontszám alapján csökkenő sorba rendezzük

3. A lista elején több találatot várunk

3 találat a lista első

5%-ában

Ha a mintában

összesen 15 találat

van, akkor a top 5%-

kal a találatok 20%-

át (3/15=0,2) találjuk

meg.

Page 28: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

100hitsofNrTotal

P%topinhitsofNr

Gains ~ CPH ~

Cumulative % Hits

Véletlen rendezés esetén a

lista első 5%-ában a találatok

5%-a szerepel.

Gains chart

Page 29: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

100hitsofNrTotal

P%topinhitsofNr

Véletlen rendezés esetén a

lista első 5%-ában a találatok

5%-a szerepel.

A modell alapján rendezett lista

első 5%-ában a találatok 21%-a

szerepel.

Gains ~ CPH ~

Cumulative % Hits

Gains chart

Page 30: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

PGain(P%)Lift(P%)

Lift

hitsofrateTotal

P%topinhitsofRate

Lift chart

Page 31: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

• Bináris célváltozó esetén a rangsorolás minőségének mérésére

• True positive / false positive

• Görbe alatti terület ~ modell jósága

• Egy véletlen pozitív példa milyen valószínűséggel van előrébb a rangsorban, mint egy véletlen negatív példa.

• Véletlen modell: 0.5

• Tökéletes modell: 1

• Jó: 0.8 fölött

Klasszifikáció - modellértékelés

ROC görbe

Page 32: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

ROC görbe alakja

Kiváló rangsorolás és

szeparáció eseteMegfelelő rangsorolás

kevés konkáv résszel

Gyenge rangsorolás: a

középső tartományban

a rangsorolás teljesen

véletlenszerű

A rangsorolás

minősége egyenlő

egy véletlen

rangsorolás

minőségével

Page 33: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Gini• A Gini index a Gain görbe

és az átló (véletlen modell) közötti terület normálva az elméleti legjobb modell és az átló közötti területtel (PSZÁF definíció)

• Elvárt érték: 0.27

Page 34: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Kolmogorov-Smirnov• A KS mutató a várható defaultos- és nem defaultos ügyfelek scoring értékeinek eloszlásfüggvényei közötti maximális különbség

• Elvárt érték 0.25

34

Performance mutató

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

PD_Scoring

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Ará

ny

Default

Nem Default

Együtt

Várható össz átengedési arány

Nem defaultos várható csökkenése

Defaultos várható csökkenése

cu

tt off

KS=max(Fndf(scoring)-Fdf(scoring))

Page 35: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció

35Training Testing

Cut-off

0 01 1

Page 36: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Klasszifikáció - modellértékelés

FNTP

TP

FPTN

TN

Találati mátrix ~ misclassification matrix

Predicted class

Yes No

Actual

class

Yes TP: True

positive

FN: False

negative

No FP: False

positive

TN: True

negative

Pontosság: helyes osztályozás aránya

Érzékenység ~ sensitivity (Recall): helyesen

osztályozott pozitív minták aránya

Sajátosság ~ specificity: helyesen osztályozott negatív

minták aránya

Megbízhatóság ~ precision: helyesen pozitív osztályba

sorolt minták aránya

N

TNTP

FPTP

TP

Első

-fajú

hiba

Másodfajú

hiba

Page 37: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Szakmai hatékonyság

Az adattudomány ugyan „művészet”, de mennyi idő egy „műalkotás” létrehozása?

• Kaggle.com – Give me some credit

• Tiszta adatok

• Nagyon kevés változó

• Nagyon világos probléma

Befektetett munka: 1,5 nap

37

Page 38: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

A verseny eredménye (87 nap)

38

XX

Best0,869558

X

CC0,866496(-0,003062)

Benchmark0,864249(-0,005309)

A javulás pénz, tehát kérdés, hogy mekkora befektetést ér meg? (Nagyon ritkán igazán sokat.)

Page 39: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

• Mikor hatékony egy projekt? A tipikus DS projekt eredményterméke a projekt

egy – már gyakran korai – fázisától létrejön, és fejlődik, javul

Ezért az értelmes kérdés, hogy mikor elég jó, mennyit (mennyi időt) érdemes invesztálni bele?

Ez üzleti megtérülési modellel támoatható

L

Page 40: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

• Mikor jó egy projekt? Reprodukálható Összehasonlítható, mérhető Standard kimenet képes (PMML, SQL, stb.) Módosítható

L

Page 41: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

• Milyen dokumentáció várható? Programnyelv (R, Python) alapúnál fejlesztésekhez

hasonlóan részletes (bár szinte sohasem készül) Fejlett GUI-nál, vizuális kódnál (pl. Modeler)

egyszerűbb leírás is elég Architektúra ábra, leírás

L

Page 42: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

• Mik a DS projektek specifikus jellemzői?

A jó DS tevékenység igazából nem projekt(!) hanem folyamatszemléletű

Erősen üzleti fókuszú Jellemzően 2 hét-2 hónap, (ha nem igényel extra

adatelőkészítést) 70-80%-a adatmanipuláció, adattisztítás Általában 1-2 elemző végzi a fő tevékenységet

(ezért sem igényel klasszikus menedzsmentet) Erősen integrált, eredménye beépül

L

Page 43: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

Adatbányászati, DS projektek

Tétel:

Mik az adatbányászati, data science projektek legfontosabb megkülönböztető jegyei? Milyen dokumentáció várható el? Hogyan mérhető a modellek teljesítőképessége, performanciája?

Page 44: Adatbányászati, data science tevékenység …KNN x x x Bármi Nen kezeli. Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt

[email protected]

Kérdések?