GUI Enterprise ML? AI? DS? nyelvek - BI...

Preview:

Citation preview

Mi a big data? ML? AI? DS?

Az adatelemzés szintjeiCRISP-DM módszertan

GUI –Enterprise eszközökProgramozási nyelvek

McKinsey Global Institute, 2011

Egy magyar fejvadászcég tapasztalatai

80

0-1

30

0

80

0-2

00

0

Mennyi adat is ez körülbelül?

Ennyi adatot tudunk ebből a pénzből tárolni egy évig

Egy másfélórás, három részvevős meeting költsége

(bruttó-bruttó)

Nettó átlagos órabér

Nettó átlagkereset

* Ha nem szeretnénk folyamatosan használni az adatot, akkor akár 368 GB

Analyzing the analyzers, O’Reilly

InfrastruktúraAdattárolásAdatmozgatás

AdatátalakításGépi tanulásOptimalizáció

FolyamatokKiértékelésRiporting

AdatvezéreltdöntésekStratégia

Nyers adatokTranzakciókKlikkek és weblogokSzenzoradatokMobil adatokSocial feeds

AdatelőkészítésMapReduceETLAdattisztításMintavételezésSelect, join

Az adathalmazKorrelációKovarianciaDimenzionalitásRelevanciaHiányzó adatok

Adatok feltárásaTanulás az adatokból

Gépi tanulásRegresszió

Hálózatok és gráfokKlaszterezésOsztályozás

Data Product

Üzleti érték feltárása és kommunikációja

A VilágTermékekHívásokFogyasztott energiaCsalások

Mi az a Data Product?

… egy alkalmazás, amely képes feldolgozni a nyers adatokat… egy szoftver, amely automatikusan képes tanulni az adatokból… egy mechanizmus, amely egy üzleti mértéket realtime értékel ki… egy esemény előrejelzésére képes modell…

Standard riportok

Mi történt? Mikor történt?

Statisztikai elemzés

Miért történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

Forecasting

Mi lesz, ha ez a trend folytatódik? Mennyi lesz?

OLAP

Hol van pontosan a probléma?

Prediktív modellezés

Mi fog történni legközelebb?

Alertek

Mikor kellene reagálni?

Optimalizáció

Hogyan lehetne ezt jobban csinálni?

Standard riportok

Mi történt? Mikor történt?

Standard riportok

Mi történt? Mikor történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

Standard riportok

Mi történt? Mikor történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

OLAP

Hol van pontosan a probléma?

Standard riportok

Mi történt? Mikor történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

OLAP

Hol van pontosan a probléma?

Alertek

Mikor kellene reagálni?

Standard riportok

Mi történt? Mikor történt?

Statisztikai elemzés

Miért történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

OLAP

Hol van pontosan a probléma?

Alertek

Mikor kellene reagálni?

Standard riportok

Mi történt? Mikor történt?

Statisztikai elemzés

Miért történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

Forecasting

Mi lesz, ha ez a trend folytatódik? Mennyi lesz?

OLAP

Hol van pontosan a probléma?

Alertek

Mikor kellene reagálni?

Standard riportok

Mi történt? Mikor történt?

Statisztikai elemzés

Miért történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

Forecasting

Mi lesz, ha ez a trend folytatódik? Mennyi lesz?

OLAP

Hol van pontosan a probléma?

Prediktív modellezés

Mi fog történni legközelebb?

Alertek

Mikor kellene reagálni?

Standard riportok

Mi történt? Mikor történt?

Statisztikai elemzés

Miért történt?

Ad-hoc riportok

Hány darab? Milyen gyakran? Mikor?

Forecasting

Mi lesz, ha ez a trend folytatódik? Mennyi lesz?

OLAP

Hol van pontosan a probléma?

Prediktív modellezés

Mi fog történni legközelebb?

Alertek

Mikor kellene reagálni?

Optimalizáció

Hogyan lehetne ezt jobban csinálni?

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

42 280 000 82 3 1 SIKERÜLT

88 90 000 44 0 0 NEM

22 180 000 32 0 1 SIKERÜLT

38 400 000 102 1 2 NEM

Tulajdonságleíró változók – input attribútumok

MODELL

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

55 180 000 62 1 3 ????

CélváltozóTargetCímke

Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a címkéket (osztályt) • És van egy új sor, ahol• … ismerem a tulajdonságokat• … és a modell mondja meg a címkét Klasszifikáció

Címkézés

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

42 280 000 82 3 1 SIKERÜLT

88 90 000 44 0 0 NEM

22 180 000 32 0 1 SIKERÜLT

38 400 000 102 1 2 NEM

Tulajdonságleíró változók – input attribútumok

MODELL

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

55 180 000 62 1 3 ????

CélváltozóTargetCímke

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

42 280 000 82 3 1 SIKERÜLT

88 90 000 44 0 0 NEM

22 180 000 32 0 1 SIKERÜLT

38 400 000 102 1 2 NEM

Tulajdonságleíró változók – input attribútumok

MODELL

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás

55 180 000 62 1 3 ????

Célváltozó

Target

Címke

Alapkérdés:Mennyire találtam el az osztályt?

Milyen pontos volt az osztályozás?

Pontosság (Accuracy) = Eltalált esetek / Összes eset

Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a címkéket (osztályt) • És van egy új sor, ahol• … ismerem a tulajdonságokat• … és a modell mondja meg a címkét Klasszifikáció

Címkézés

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

42 0432 82 3 1 280 000

88 0312 44 0 0 90 000

22 0101 32 0 1 180 000

38 4003 102 1 2 400 000

Tulajdonságleíró változók – input attribútumok

CélváltozóTarget

Mennyiség

MODELL

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

55 3257 62 1 3 ????

Felügyelt tanulási algoritmusok

Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a mennyiséget• És van egy új sor, ahol• … ismerem a tulajdonságokat• … modell mondja meg mekkora a mennyiség

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

42 0432 82 3 1 280 000

88 0312 44 0 0 90 000

22 0101 32 0 1 180 000

38 4003 102 1 2 400 000

Tulajdonságleíró változók – input attribútumok

CélváltozóTarget

Mennyiség

MODELL

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

55 3257 62 1 3 ????

Felügyelt tanulási algoritmusok

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

42 0432 82 3 1 280 000

88 0312 44 0 0 90 000

22 0101 32 0 1 180 000

38 4003 102 1 2 400 000

Tulajdonságleíró változók – input attribútumok

CélváltozóTarget

Mennyiség

MODELL

Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a mennyiséget• És van egy új sor, ahol• … ismerem a tulajdonságokat• … modell mondja meg mekkora a mennyiség

Alapkérdés:Mekkorát tévedtem?

Átlagosan mekkora a hiba?

Hiba (Error) = |Tipp – Valós érték|

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem

55 3257 62 1 3 ????

Feladat

1. Churn feladat – El fog-e vándorolni a konkurenciához az ügyfél?

2. Kinek érdemes kiküldeni egy hitelkártyát?3. Hány percet fog az ügyfél a következő hónapban

telefonálni?4. 1 és 5 között milyen osztályzatot ad a filmre majd a

felhasználó?5. Többet fog-e jövőre költeni az ügyfél, mint 1 MFt?

Életkor Jövedelem Lakásméret Gyerekek Autók száma

42 280 000 82 3 1

88 90 000 44 0 0

22 180 000 32 0 1

38 400 000 102 1 2

Tulajdonságleíró változók – input attribútumok

Csoport

A. klaszter

A. klaszter

B. klaszter

B. klaszter

MO

DE

LL

Nem felügyelt tanulási algoritmusok

Tulajdonságleíró változók – input attribútumok

Nem felügyelt tanulási algoritmusok

Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat • Kérdés, hogy milyen csoportokba rakható úgy, hogy• … csoporton belül hasonlóak• …. csoportok ne hasonlítsanak egymásra

Életkor Jövedelem Lakásméret Gyerekek Autók száma

42 280 000 82 3 1

88 90 000 44 0 0

22 180 000 32 0 1

38 400 000 102 1 2

Csoport

A. klaszter

A. klaszter

B. klaszter

B. klaszter

MO

DE

LL

Business understanding

Data understanding

Data preparation

Modeling

Business evaluation

Deployment

• Legyen az adatelemzési projekt egy kevésbé

hozzáértő számára is megbízható és

megismételhető

• Keretrendszer az eredmények létrehozására

• Projekttervezés és menedzsment

• Komfortfaktor

• Nem szabadalmaztatott, független

• Felhasználási és alkalmazási területtől

független

• Eszközfüggetlen

• Az üzleti célokat tartja szem előtt

• Valós projekttapasztalatokon alapul

• Nem vízesés-modell

Business understanding

Mi a projekt üzleti célja? Hogyan lehet ezt megoldani adatelemzéssel?

Data understanding

Honnan az adat? Milyen minőségű az adat?

Data preparation

Adatmasszírozás

Modeling

Modellezés

Evaluation

Sikerült elérni a kitűzött célokat?

Deployment

Hogyan tudjuk felhasználni az eredményeket?

Forrás: http://www.kdnuggets.com

Forrás: http://www.kdnuggets.com

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Forrás: Kaggle 2017 The State of Data Science& Machine Learning

Forrás: Kaggle 2017 The State of Data Science& Machine Learning

Forrás: Kaggle 2017 The State of Data Science& Machine Learning

Forrás: Kaggle 2017 The State of Data Science& Machine Learning

Forrás: Kaggle 2017 The State of Data Science& Machine Learning

Forrás: az előadó tapasztalata & szubjektív véleménye

As experts, we organize and lecture at conferences of our Hungarian data analytics community and also take part in international scientific projects and data mining competitions.

As educators, we teach our students to define real-world business problems and give their own effective data analysis solutions.

As consultants, we provide innovative solutions from defining business challenges to deploying applications for our business partners.

Our goal is to determine the next trends of data analysis and to create new kinds of services which go beyond the classical solutions. On our corporate courses the primary consideration is

that the provided knowledge is tailored to cover the needs of our professional partners.

Corporate courses with our training partners

meetup speeches to Hungarian data analytics community

conferencespeeches

Custom company training

Our analysts regularly enter and excel at international data mining competitions that add to our team’s inspiration to invent and test the most novel processes and solutions

Energy forecasting competition. Solar and wind forecasting tracks

Predicting compounds' interference in biochemical pathways using only chemical structure data

Implementing an agent that takes on pricing for an online shop

Predicting probability of loan default for a Brazilian retail bank

Some members of Dmlab team with consistent and stellar competition results in the top of the international competitors of Kaggle.

Dmlab aspires to become a venture-builder organization that build companies using their own ideas and resources

Big data analytics company with the goal of lowering the barrier for using Hadoop systems. The Radoop package allows even non-technical people to access and analyse big data, but also provides scripting and advanced predictive analytics for experts.

Most of the founders come from Dmlab

RapidMiner (a leading data analytics company) acquired Radoop in 2014

Unviewable ads, non-human generated clicks, malevolent publishers and negligent middlemen -this is the reality of online advertising. With enbrite.ly’s technology, actors of online advertiser market expose the facts, both good and bad, protecting their bottom line.

The technology is based on research and development of Dmlab

Enbrite.ly won the $500,000 cash prize for the best start-up at Slush 2014

Electric power consumption

Load forecasting for wind and solar

Decision support system for scoring of severity of rheumatics

Breast cancer diagnosis based on image processing

Predictive driver behaviour scoring system

Waste diagnostics within production line

Conversion booster in online shops based on user behaviour

Indoor positioning

gaspar.csaba@dmlab.hu+36 (20) 823-4154

Founder senior partner

nagy.istvan@dmlab.hu+36 (70) 459-5669

Founder senior partner

Recommended