View
7
Download
0
Category
Preview:
Citation preview
Mi a big data? ML? AI? DS?
Az adatelemzés szintjeiCRISP-DM módszertan
GUI –Enterprise eszközökProgramozási nyelvek
McKinsey Global Institute, 2011
Egy magyar fejvadászcég tapasztalatai
80
0-1
30
0
80
0-2
00
0
Mennyi adat is ez körülbelül?
Ennyi adatot tudunk ebből a pénzből tárolni egy évig
Egy másfélórás, három részvevős meeting költsége
(bruttó-bruttó)
Nettó átlagos órabér
Nettó átlagkereset
* Ha nem szeretnénk folyamatosan használni az adatot, akkor akár 368 GB
Analyzing the analyzers, O’Reilly
InfrastruktúraAdattárolásAdatmozgatás
AdatátalakításGépi tanulásOptimalizáció
FolyamatokKiértékelésRiporting
AdatvezéreltdöntésekStratégia
Nyers adatokTranzakciókKlikkek és weblogokSzenzoradatokMobil adatokSocial feeds
AdatelőkészítésMapReduceETLAdattisztításMintavételezésSelect, join
Az adathalmazKorrelációKovarianciaDimenzionalitásRelevanciaHiányzó adatok
Adatok feltárásaTanulás az adatokból
Gépi tanulásRegresszió
Hálózatok és gráfokKlaszterezésOsztályozás
Data Product
Üzleti érték feltárása és kommunikációja
A VilágTermékekHívásokFogyasztott energiaCsalások
Mi az a Data Product?
… egy alkalmazás, amely képes feldolgozni a nyers adatokat… egy szoftver, amely automatikusan képes tanulni az adatokból… egy mechanizmus, amely egy üzleti mértéket realtime értékel ki… egy esemény előrejelzésére képes modell…
Standard riportok
Mi történt? Mikor történt?
Statisztikai elemzés
Miért történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
Forecasting
Mi lesz, ha ez a trend folytatódik? Mennyi lesz?
OLAP
Hol van pontosan a probléma?
Prediktív modellezés
Mi fog történni legközelebb?
Alertek
Mikor kellene reagálni?
Optimalizáció
Hogyan lehetne ezt jobban csinálni?
Standard riportok
Mi történt? Mikor történt?
Standard riportok
Mi történt? Mikor történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
Standard riportok
Mi történt? Mikor történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
OLAP
Hol van pontosan a probléma?
Standard riportok
Mi történt? Mikor történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
OLAP
Hol van pontosan a probléma?
Alertek
Mikor kellene reagálni?
Standard riportok
Mi történt? Mikor történt?
Statisztikai elemzés
Miért történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
OLAP
Hol van pontosan a probléma?
Alertek
Mikor kellene reagálni?
Standard riportok
Mi történt? Mikor történt?
Statisztikai elemzés
Miért történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
Forecasting
Mi lesz, ha ez a trend folytatódik? Mennyi lesz?
OLAP
Hol van pontosan a probléma?
Alertek
Mikor kellene reagálni?
Standard riportok
Mi történt? Mikor történt?
Statisztikai elemzés
Miért történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
Forecasting
Mi lesz, ha ez a trend folytatódik? Mennyi lesz?
OLAP
Hol van pontosan a probléma?
Prediktív modellezés
Mi fog történni legközelebb?
Alertek
Mikor kellene reagálni?
Standard riportok
Mi történt? Mikor történt?
Statisztikai elemzés
Miért történt?
Ad-hoc riportok
Hány darab? Milyen gyakran? Mikor?
Forecasting
Mi lesz, ha ez a trend folytatódik? Mennyi lesz?
OLAP
Hol van pontosan a probléma?
Prediktív modellezés
Mi fog történni legközelebb?
Alertek
Mikor kellene reagálni?
Optimalizáció
Hogyan lehetne ezt jobban csinálni?
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
42 280 000 82 3 1 SIKERÜLT
88 90 000 44 0 0 NEM
22 180 000 32 0 1 SIKERÜLT
38 400 000 102 1 2 NEM
Tulajdonságleíró változók – input attribútumok
MODELL
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
55 180 000 62 1 3 ????
CélváltozóTargetCímke
Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a címkéket (osztályt) • És van egy új sor, ahol• … ismerem a tulajdonságokat• … és a modell mondja meg a címkét Klasszifikáció
Címkézés
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
42 280 000 82 3 1 SIKERÜLT
88 90 000 44 0 0 NEM
22 180 000 32 0 1 SIKERÜLT
38 400 000 102 1 2 NEM
Tulajdonságleíró változók – input attribútumok
MODELL
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
55 180 000 62 1 3 ????
CélváltozóTargetCímke
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
42 280 000 82 3 1 SIKERÜLT
88 90 000 44 0 0 NEM
22 180 000 32 0 1 SIKERÜLT
38 400 000 102 1 2 NEM
Tulajdonságleíró változók – input attribútumok
MODELL
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás
55 180 000 62 1 3 ????
Célváltozó
Target
Címke
Alapkérdés:Mennyire találtam el az osztályt?
Milyen pontos volt az osztályozás?
Pontosság (Accuracy) = Eltalált esetek / Összes eset
Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a címkéket (osztályt) • És van egy új sor, ahol• … ismerem a tulajdonságokat• … és a modell mondja meg a címkét Klasszifikáció
Címkézés
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
42 0432 82 3 1 280 000
88 0312 44 0 0 90 000
22 0101 32 0 1 180 000
38 4003 102 1 2 400 000
Tulajdonságleíró változók – input attribútumok
CélváltozóTarget
Mennyiség
MODELL
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
55 3257 62 1 3 ????
Felügyelt tanulási algoritmusok
Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a mennyiséget• És van egy új sor, ahol• … ismerem a tulajdonságokat• … modell mondja meg mekkora a mennyiség
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
42 0432 82 3 1 280 000
88 0312 44 0 0 90 000
22 0101 32 0 1 180 000
38 4003 102 1 2 400 000
Tulajdonságleíró változók – input attribútumok
CélváltozóTarget
Mennyiség
MODELL
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
55 3257 62 1 3 ????
Felügyelt tanulási algoritmusok
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
42 0432 82 3 1 280 000
88 0312 44 0 0 90 000
22 0101 32 0 1 180 000
38 4003 102 1 2 400 000
Tulajdonságleíró változók – input attribútumok
CélváltozóTarget
Mennyiség
MODELL
Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat és• … ahol ismerem a mennyiséget• És van egy új sor, ahol• … ismerem a tulajdonságokat• … modell mondja meg mekkora a mennyiség
Alapkérdés:Mekkorát tévedtem?
Átlagosan mekkora a hiba?
Hiba (Error) = |Tipp – Valós érték|
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem
55 3257 62 1 3 ????
Feladat
1. Churn feladat – El fog-e vándorolni a konkurenciához az ügyfél?
2. Kinek érdemes kiküldeni egy hitelkártyát?3. Hány percet fog az ügyfél a következő hónapban
telefonálni?4. 1 és 5 között milyen osztályzatot ad a filmre majd a
felhasználó?5. Többet fog-e jövőre költeni az ügyfél, mint 1 MFt?
Életkor Jövedelem Lakásméret Gyerekek Autók száma
42 280 000 82 3 1
88 90 000 44 0 0
22 180 000 32 0 1
38 400 000 102 1 2
Tulajdonságleíró változók – input attribútumok
Csoport
A. klaszter
A. klaszter
B. klaszter
B. klaszter
MO
DE
LL
Nem felügyelt tanulási algoritmusok
Tulajdonságleíró változók – input attribútumok
Nem felügyelt tanulási algoritmusok
Feladat:• Van egy tanító adathalmazom• … ahol ismerem a tulajdonságokat • Kérdés, hogy milyen csoportokba rakható úgy, hogy• … csoporton belül hasonlóak• …. csoportok ne hasonlítsanak egymásra
Életkor Jövedelem Lakásméret Gyerekek Autók száma
42 280 000 82 3 1
88 90 000 44 0 0
22 180 000 32 0 1
38 400 000 102 1 2
Csoport
A. klaszter
A. klaszter
B. klaszter
B. klaszter
MO
DE
LL
Business understanding
Data understanding
Data preparation
Modeling
Business evaluation
Deployment
• Legyen az adatelemzési projekt egy kevésbé
hozzáértő számára is megbízható és
megismételhető
• Keretrendszer az eredmények létrehozására
• Projekttervezés és menedzsment
• Komfortfaktor
• Nem szabadalmaztatott, független
• Felhasználási és alkalmazási területtől
független
• Eszközfüggetlen
• Az üzleti célokat tartja szem előtt
• Valós projekttapasztalatokon alapul
• Nem vízesés-modell
Business understanding
Mi a projekt üzleti célja? Hogyan lehet ezt megoldani adatelemzéssel?
Data understanding
Honnan az adat? Milyen minőségű az adat?
Data preparation
Adatmasszírozás
Modeling
Modellezés
Evaluation
Sikerült elérni a kitűzött célokat?
Deployment
Hogyan tudjuk felhasználni az eredményeket?
Forrás: http://www.kdnuggets.com
Forrás: http://www.kdnuggets.com
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Forrás: Kaggle 2017 The State of Data Science& Machine Learning
Forrás: Kaggle 2017 The State of Data Science& Machine Learning
Forrás: Kaggle 2017 The State of Data Science& Machine Learning
Forrás: Kaggle 2017 The State of Data Science& Machine Learning
Forrás: Kaggle 2017 The State of Data Science& Machine Learning
Forrás: az előadó tapasztalata & szubjektív véleménye
As experts, we organize and lecture at conferences of our Hungarian data analytics community and also take part in international scientific projects and data mining competitions.
As educators, we teach our students to define real-world business problems and give their own effective data analysis solutions.
As consultants, we provide innovative solutions from defining business challenges to deploying applications for our business partners.
Our goal is to determine the next trends of data analysis and to create new kinds of services which go beyond the classical solutions. On our corporate courses the primary consideration is
that the provided knowledge is tailored to cover the needs of our professional partners.
Corporate courses with our training partners
meetup speeches to Hungarian data analytics community
conferencespeeches
Custom company training
Our analysts regularly enter and excel at international data mining competitions that add to our team’s inspiration to invent and test the most novel processes and solutions
Energy forecasting competition. Solar and wind forecasting tracks
Predicting compounds' interference in biochemical pathways using only chemical structure data
Implementing an agent that takes on pricing for an online shop
Predicting probability of loan default for a Brazilian retail bank
Some members of Dmlab team with consistent and stellar competition results in the top of the international competitors of Kaggle.
Dmlab aspires to become a venture-builder organization that build companies using their own ideas and resources
Big data analytics company with the goal of lowering the barrier for using Hadoop systems. The Radoop package allows even non-technical people to access and analyse big data, but also provides scripting and advanced predictive analytics for experts.
Most of the founders come from Dmlab
RapidMiner (a leading data analytics company) acquired Radoop in 2014
Unviewable ads, non-human generated clicks, malevolent publishers and negligent middlemen -this is the reality of online advertising. With enbrite.ly’s technology, actors of online advertiser market expose the facts, both good and bad, protecting their bottom line.
The technology is based on research and development of Dmlab
Enbrite.ly won the $500,000 cash prize for the best start-up at Slush 2014
Electric power consumption
Load forecasting for wind and solar
Decision support system for scoring of severity of rheumatics
Breast cancer diagnosis based on image processing
Predictive driver behaviour scoring system
Waste diagnostics within production line
Conversion booster in online shops based on user behaviour
Indoor positioning
gaspar.csaba@dmlab.hu+36 (20) 823-4154
Founder senior partner
nagy.istvan@dmlab.hu+36 (70) 459-5669
Founder senior partner
Recommended