Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
Úvod do hospodárskej informatiky (8)
• Prehľad histórie systémov na podporu rozhodovania a manažmentu, podniková inteligencia (BI)
• Objavovanie znalostí
– Základné definície, typické aplikačné oblasti
– Proces objavovania znalostí podľa metodiky CRISP-DM
– Príklady pre jednotlivé typy dolovaných znalostí: zhlukovanie, asociačné pravidlá, klasifikácia, predikcia
– Metodológia vyhodnotenia úloh prediktívnej analýzy
História systémov na podporu rozhodovania a manažmentu
1960 1970 1980 1990 2000+
Dopytovacie a reportovacie systémy
Systémy na podporu rozhodovania (DSS)
Expertné systémy (ES)
Dátové sklady (DWS)
OLAP
Objavovanie znalostí
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 2
Podniková inteligencia (BI)
Podniková inteligencia
CRM
ERP
www
.xls
Dátový sklad
(Datawarehouse)Prediktívna analytika
Optimalizácia rozhodnutí
(preskriptívna analytika)
Reportovanie
(deskriptívna analytika)
OL
AP
.doc
Architektúra systému podnikovej inteligencieÚvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 3
Podniková analytika
4
• Deskriptívna (reportovacia):– Popis, využíva dáta z minulosti na jej lepšie pochopenie
– Čo sa deje v organizácii, aké sú trendy, príčiny?
– Vhodné vizualizáce, reporty, dashboard-y, dátové sklady
• Prediktívna analytika:– Predikovanie, predpovedanie vývoja na základe historický dát
– Čo, kedy, ako sa stane? Nehovorí však, čo máme urobiť.
– Objavovanie znalostí – prediktívne dolovanie v dátach.
• Preskriptívna analytika (normatívna / rozhodovacia): – Predpis, čo je potrebné urobiť, aby sme dosiahli čo najlepšiu
výkonnosť?
– Operačný výskum, optimalizačné metódy (predmety RaL, HOP), multikriteriálne rozhodovanie, simulácie, rozhodovacie procesy
5
História používania relevantných pojmov (1)
História používania relevantných pojmov (2)
Základné definície• Objavovanie znalostí v databázach (Knowledge
Discovery in Databases) je proces semi-automatickej extrakcie znalostí z databáz.
• Takto získané znalosti musia byť:– platné (v štatistickom zmysle)
– doposiaľ neznáme
– potenciálne užitočné (pre danú aplikáciu)
• KDD je iteratívny a interaktívny proces– iteratívny znamená, že jednotlivé kroky sa často
opakujú v rôznych iteráciách
– interaktívny znamená, že sa nedá realizovať úplne bez asistencie človeka
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 7
Typické aplikačné oblasti KDD (1)
• Marketing
– Segmentácia trhu – identifikácia rôznych skupín zákazníkov
• Hodnotová (ako často nakupuje, za koľko, kedy naposledy)
• Behaviorálna (podľa typického správania sa zákazníkov)
– Cielený marketing
• Up sell - komu ešte predáme?
Máme databázu 100 000 zákazníkov, chceme ponúknuť nový produkt a môžeme osloviť 10 000 z nich – ktorí to majú byť, aby sme predali čo najviac produktov?
• Cross sell - čo mu ešte predáme?
Máme e-shop a chceme nakupujúcim poskytnúť čo najvyšší komfort pri objednávaní – aké ďalšie produkty im ponúknuť, ak si kupujú produkt XY?
8Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 8
Typické aplikačné oblasti KDD (2)• Manažment rizika
• Aplikačné modely – požičiame mu?
• Behaviorálne modely – požičali sme, vráti?
Ponúkame naše pôžičky skoro každému, ale 10% klientov nám ich nespláca
a my tak strácame. Možno tomu predísť?
– Odchod zákazníkov (Churn)
• Voluntary – prejde ku konkurencii? Zruší objednané služby?
Každý mesiac nám odíde 5% zákazníkov ku konkurencii. Ak by sme ich
poznali vopred, udržíme si ich. Ktorí to budú?
• Involuntary (Fraud) – zneužije naše služby?
Poisťujeme autá, avšak máme 2x viac hlásených poistných udalostí,
ako je priemer v okolitých krajinách a ich prešetrovanie nás stojí
nemalé prostriedky. Nevieme automaticky odlíšiť oprávnené udalosti
od špekulatívnych? 9
10
Metodika CRISP-DM (1)
Pochopenie cieľa
Pochopenie dát
Príprava dát
Modelovanie
Príprava dát
Vyhodnotenie
Nasadenie Data
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 11
Metodika CRISP-DM (2)1. Fáza: Pochopenie problému
Pochopenie cieľov úlohy z manažérskeho pohľadu (stanovenie biznis cieľov) a ich preloženie do technických kritérií úspechu DM
2. Fáza: Pochopenie dátPočiatočný zber dát a oboznámenie sa s nimi (popis, vizualizácia), identifikácia problémov s kvalitou dát (napr. chýbajúce dáta)
3. Fáza: Príprava dátVýber dát (tabuliek, záznamov, atribútov), čistenie a transformácia dát (napr. normalizácia) – iteratívne, rôzne poradie krokov
4. Fáza: ModelovanieIteratívny proces aplikovania metód DM s kalibráciou ich parametrov, vyhodnotenie modelov z pohľadu DM
5. Fáza: VyhodnotenieVyhodnotenie dosiahnutých výsledkov z pohľadu biznis cieľov
6. Fáza: NasadenieVypracovať plán nasadenia výsledkov DM do praxe, opakovateľná implementácia DM procesu 12
Dolovanie v dátach (DM)• Dolovanie v dátach (z angl. data mining) je aplikácia inteligentných
metód pre získanie platných vzorov
• Ide o kľúčový krok v procese KDD, aj keď časovo najnáročnejšie sa ukazuje samotné predspracovanie dát
• Najdôležitejšie typy úloh dolovania v dátach sú:
1) Popisné dolovanie v dátach:a) Zhlukovanie proces zoskupovania fyzických alebo
abstraktných objektov do skupín podobných objektov
b) Popis konceptov (zovšeobecňovanie) sa snaží poskytnúť stručný a výstižný popis určitej množiny dát (konceptu)
c) Asociačné pravidlá
2) Prediktívne dolovanie v dátach:a) Klasifikácia
b) PredikciaÚvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 13
1) Popisné dolovanie v dátach
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 14
1a) Zhlukovanie – príklad 1
K učeniu nie je potrebné označenie trénovacích príkladov (žiaden cieľový atribút, všetky atribúty slúžia ako vstup) => ide o nekontrolované učenie (unsupervised learning)
16
1b) Zhlukovanie – príklad s popisom
Viac o zhlukovaní na báze GHSOM nájdete tu: http://www.ifs.tuwien.ac.at/~andi/ghsom/Experimenty na rôznych dátových kolekciách:http://www.ifs.tuwien.ac.at/~andi/somlib/experiments.html
1c) Asociačné pravidlá• Dolovanie asociačných pravidiel znamená
– Hľadanie frekventovaných a zaujímavých asociácií, t.j. častých spolu-
výskytov niektorých kombinácií hodnôt atribútov
• Aplikácie: analýza nákupného košíka pre podporu rozhodovacích procesov
v obchode
• Pravidlá vo forme “Telo Hlava [podpora, spoľahlivosť]”.
• Podpora (s) a spoľahlivosť (c) pravidla X Y:
– podpora (s) je pravdepodobnosť že transakcia obsahuje X aj Y
– spoľahlivosť (c) je podmienená pravdepodobnosť, že transakcia obsahujúca X obsahuje aj Y
• Príklady asociačných pravidiel:
– kupuje(x, “pampersky”) kupuje(x, “pivo”) [0.5%, 60%]
– študijný_odbor(x, HI) prospech(x, výborný) uplatnenie(x, vynikajúce)
[5%, 100%]
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 17
1c) Asociačné pravidlá (príklad)
Pre pravidlo A C:podpora = podpora({A, C}) = 2 / 4 = 50%spoľahlivosť = podpora({A, C})/podpora({A}) = 2 / 3 = 66.6%
Pre pravidlo C A:podpora = podpora({C, A}) = 2 / 4 = 50%spoľahlivosť = podpora({C, A})/podpora({C}) = 2 / 2 = 100%
frekventované množiny položiek podpora
{A} 75%
{B} 50%
{C} 50%
{A,C} 50%
Min. podpora 50%
Min. spoľahlivosť 50%ID transakcie kúpené položky
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 18
2) Prediktívne dolovanie v dátach
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 19
2. Klasifikácia a predikcia
a) Klasifikácia:– Predikuje kategorické označenia tried (predikovaný
atribút je nominálny)
b) Predikcia:– Modeluje funkcie spojitých premenných, t.j. predikuje
neznáme alebo chýbajúce hodnoty spojitého atribútu (predikovaný atribút je numerický)
• V oboch prípadoch ide o dvojkrokový proces:1. Model sa konštruuje na základe trénovacej množiny,
u ktorej máme informácie o predikovanom atribúte (=> ide o kontrolované učenie, t.j. supervised learning)
2. Skonštruovaný model sa potom využíva pre klasifikáciu, resp. predikciu nových príkladov (u ktorých skutočnú hodnotu predikovaného atribútu ešte nepoznáme)
20
2a) Klasifikácia – príklad úlohy a jej riešenia
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 21
Príklad trénovacej množiny - klasifikácia
22
Počasie Teplota [°C] Vlhkosť [%] Vietor? Trieda
Slnečno 24 70 Áno Hrá sa
Slnečno 27 90 Áno Nehrá sa
Slnečno 29 85 Nie Nehrá sa
Slnečno 22 95 Nie Nehrá sa
Slnečno 21 70 Nie Hrá sa
Zamračené 22 90 Áno Hrá sa
Zamračené 28 78 Nie Hrá sa
Zamračené 18 65 Áno Hrá sa
Zamračené 27 75 Nie Hrá sa
Dážď 22 80 Áno Nehrá sa
Dážď 18 70 Áno Nehrá sa
Dážď 24 80 Nie Hrá sa
Dážď 20 80 Nie Hrá sa
Dážď 21 96 Nie Hrá sa
Príklad skonštruovaného klasifikačného modelu vo forme rozhodovacieho stromu
Teplota
Počasie
> 28.5 28.5
Nehrá sa
slnečnozamračené
Vlhkosť Vietor
dážď
Hrá sa
80 > 80 áno nie
Hrá saHrá sa Nehrá sa Nehrá sa
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 23
2b) Predikcia – príklad úlohy a jej riešenia
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 24
Príklad trénovacej množiny –predikcia
• Daná je tabuľka dvojrozmerných hodnôt
• Nezávislá premenná X označuje počet rokov praxe daného absolventa vysokej školy
• Predikovaná premenná Y vyjadruje výšku jeho zárobku v tisícoch dolárov ročne
Počet rokov
praxe3 8 9 13 3 6 11 21 1 16
Príjem 30 57 64 72 36 43 59 90 20 83
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 25
Grafické znázornenie zadaných dát (trénovacia množina)
(X)
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 26
Príklad skonštruovaného predikčného modelu vo forme
regresnej priamky
• Z údajov možno vypočítať lineárny regresný
model v tvare:
• Použitím tejto rovnice možno napr. predikovať,
že absolvent danej vysokej školy s 10-ročnou
praxou (t.j. pre X=10) by mal zarábať
zhruba 58.600,- dolárov ročne (Y=23,6 + 3,5*10)
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 27
Grafické znázornenie lineárneho predikčného modelu
(X)
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 28
U nás na katedre vyvinutý systém na podporu OZ: KDD package
Klasifikácia/
popis
Predikcia
Vizualizácia
objavených znalostí
Moduly
DM
Prí
stu
pk d
áta
m
Viz
uá
lne
ná
str
oje
pre
ma
nip
ulá
ciu
s d
áta
mi
Moduly
predspracovania dát
. . .
DB,
Dátový
sklad,
Textový
súbor
`
KDD Package: rozhodovacie stromy
Nastavenia
parametrov C4.5
Odvodený
rozhodovací strom
v textovej podobe
Odvodený
rozhodovací strom
v grafickej podobe
Popis aktuálneho
uzla stromu
Distribúcia príkladov v
aktuálnom uzle stromu
2. Postup pri prediktívnej analýze
Trénovacie
dátaCieľ
predikcie
Testovacie
dáta
Model
Predikcia
Znalosti
Nové dáta
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 31
Príklad – kto nepodá daňové priznanie?
32
Dáta o subjektoch
za minulý rok
Nepodané/nesprávne daňové
priznania v minulom roku
Dáta o
subjektoch za
predminulý rokIf … then ... else …
z = a +b*x + c*y + … ID P SkupinaIČO1 30% Vysoké riziko
IČO2 5% Stredné riziko
IČO3 1% Nízke riziko
...
Nepodávajú:
- nové subjekty (15%)
- neziskovky (9%)
- stratové firmy (5%)
Nové dáta
o subjektoch
za tento rok
Dáta dostupné na: http://www.compumine.com/web/public/newsletter/20071/tax-audit-data-mining
Ciele:
- urýchliť a zvýšiť výber daní
- zistiť kto a prečo nepodáva
daňové priznania
Výstupy:
- poradie auditu podľa hodnoty rizika
- informačná kampaň pre rizikové
skupiny
Čo chceme dosiahnuť prediktívnym modelom?
• Náhodný výber – pozitívne prípady rovnomerne distribuované
• Ideálny model – všetky pozitívne prípady na jednej strane
• Reálny model – čím viac pozitívnych prípadov na jednej strane
Model vs. bežný výber
40%
25%
14%
8%4% 3% 2% 2% 1% 1%
0%
5%
10%15%
20%
25%
30%35%
40%
45%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
% celkového počtu klientov
% t
arge
t v
sku
pin
e model
random
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 33
Metodológia vyhodnotenia (1)
• A – najlepší klienti, oslovená skupina
• B – najlepší klienti, neoslovená (kontrolná) skupina
• C – ostatní klienti, neoslovená skupina
• D – ostatní klienti, oslovená skupina
Najvyššia šanca
Najnižšia šanca
Univerzum klientov
D
A
C
B
34Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 34
Metodológia vyhodnotenia (2)• Efekt oslovenia (úspešnosť A / úspešnosť B)
– vyjadruje prínos dosiahnutý komunikáciou s klientom oproti situácii, kedy klient nebol oslovený žiadnou ponukou.
• Efekt cielenia úspešnosť (A+B) / úspešnosť (C+D)– vyjadruje koľko krát je vyššia úspešnosť vo vybranej skupine
oproti úspešnosti medzi ostatnými klientmi
• Lift cielenia úspešnosť (A+B) / úspešnosť (A+B+C+D)– koľko kráť je vyššia úspešnosť vo vybranej skupine oproti
priemernej úspešnosti medzi všetkými zákazníkmi
• Ako vybrať správnu veľkosť oslovenej skupiny?– Závisí od strategických plánov, nákladov na oslovenie
a prínosu z pozitívnej reakcie
– Finančný prínos = (Počet reakcií * Zisk z reakcie) – (Počet oslovených * Náklady na oslovenie) – Paušálne náklady
3535
Najvyššia šanca
Najnižšia šanca
Univerzum klientov
D
A
C
B
Príklad z praxe – splátková spoločnosť
• Predstavme si konkrétny produkt, pôžičku 20 000 SKK na 2
roky, so splátkou 1199 SKK mesačne
• Priemerný mesačný predaj: 5000 pôžičiek
• Priemerná miera nesplácania: 10% z celkového počtu, t.j. 500
pôžičiek mesačne
• Odhad hrubého zisku na pôžičku: 1199*24 – 20 000 SKK = 8776
SKK (na jednu splatenú pôžičku)
• Odhad priemernej straty na pôžičku: 20 000 SKK
• Priemerný zisk: 8776 * 5000 * 0.9 = 39 492 000 SKK
• Priemerná strata: 20 000 * 5000 * 0.1 = 10 000 000 SKK
• 10 mil. straty – čo s tým môžu urobiť?36Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 36
Príklad – pokračovanie • Možno použiť prediktívnu analýzu založenú
na takýchto dátach:
• Model predikujúci pravdepodobnosť, že dotyčný žiadateľ pôžičku nesplatí P(nesplatí)
• Usporiadať klientov podľa P(nesplatí) a vytvoriť napr. 100 skupín po 1% klientov a vyhodnotíme efekt zamietnutia ich žiadostí
37
Výber
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 37
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 38
Príklad – pokračovanie
• Lift a finančný prínos v grafickom vyjadrení:
• Ak zamietneme 2% až 6% žiadostí o pôžičku, ušetríme mesačne vyše 1.5 mil. Sk
Úvod do hospodárskej informatiky (8) Ján Paralič (people.tuke.sk/jan.paralic) 39