34
Advances in Data Mining and Big Data Analytics Prof. dr. Bart Goethals Advanced Database Research & Modelling Department of Mathematics & Computer Science Cevora 19 November 2014

It it's happening now analytics in een wereld van big data

Embed Size (px)

DESCRIPTION

Big data? Volgens schattingen van IBM genereren we dagelijks 2.5 quintiljoen bytes aan gegevens. Dagelijks, u leest het goed. Of, bekijk het zo: 90% van de beschikbare gegevens wereldwijd zijn aangemaakt in de afgelopen twee jaar. Hallucinant. Gartner voorspelt dat tegen 2015 minstens 4,4 miljoen jobs zullen gecreëerd worden, gelinkt aan big data en analytics. Mogen we over een trend spreken? Wij denken het wel. Een trend die u niet wilt missen! Want ook ú haalt uw voordeel uit de analyse van uw gegevens. Komen aan bod in de workshop, mét talrijke voorbeelden: het analytics proces model in vogelperspectief, de verschillende stappen: data preprocessing, analytics en post processing, recente nieuwe toepassingen, zoals proces analytics, social media analytics en fraude analytics.

Citation preview

Page 1: It it's happening now   analytics in een wereld van big data

Advances  in  Data  Mining  and  Big  Data  Analytics

Prof.  dr.  Bart  Goethals  Advanced  Database  Research  &  Modelling  Department  of  Mathematics  &  Computer  Science

Cevora    -­‐  19  November  2014

Page 2: It it's happening now   analytics in een wereld van big data

Big  Data  Analytics    or  …

• Statistics  • Data  Mining  • Knowledge  Discovery  in  Data  • Analytics  • Data  Science  • …

2

Page 3: It it's happening now   analytics in een wereld van big data

Big  Data  is  like  teenage  sex:    

• everyone  talks  about  it,    • nobody  really  knows  how  to  do  it,  • everyone  thinks  everyone  else  is  doing  it,    • so  everyone  claims  they  are  doing  it…  

[Dan  Ariely]        

3See  also  Data  News  Survey  March  2014

Page 4: It it's happening now   analytics in een wereld van big data

The  Goal  of  Big  Data

Goal  is  the  same:     Find  useful  patterns  or  models  in  Data  

Emphasis  Changes:     Volume     Velocity     Variety     V…      

4

Page 5: It it's happening now   analytics in een wereld van big data

Big  Data  Volume

5

[source:  EMC]

Page 6: It it's happening now   analytics in een wereld van big data

Is  Big  better?

• Yes!  But,  some  fundamental  principles:  [U.  Fayyad]  • Data  gains  value  exponentially  when  integrated  and  coalesced.  When  fragmented:  dramatic  value  loss.  

• Fusing  data  together  from  disparate  or  independent  sources  is  difficult  and  impossible  to  maintain.      

• 80%  of  the  effort  of  Data  Mining  goes  to  getting  the  right  data  together.      

• Standardisation.  Data  governance  and  policy.  Data  privacy,  encryption  and  masking.  Data  infrastructure.  

• Data  is  a  primary  competency  and  not  a  side-­‐activity.

6

Page 7: It it's happening now   analytics in een wereld van big data

Is  Big  a  problem?

• Data  can  (not)  be  summarised  (sampling)  • Too  much  information  lost  for  reasonable  sizes  • We  need  to  find  patterns  that  are  useful  and  valid  for  all  data    • Personalized  Recommendation  • Personalized  Advertising  • Rare  diseases  

• Current  analytics  methods  do  not  scale  or  produce  satisfactory  results

7

Page 8: It it's happening now   analytics in een wereld van big data

Big  Data  Velocity  (60s  on  the  internet)

8[Source:  Qmee]

Page 9: It it's happening now   analytics in een wereld van big data

Big  Data  Variety

• Data  can  be    • structured,    • semi-­‐structured,    • text,    • images,    • video,    • time  series,    • click-­‐streams,    • graphs  or  (social)  networks,  …  • …

9

Page 10: It it's happening now   analytics in een wereld van big data

Big  Data  Value• Predict  voting  behaviour  based  on  Twitter  (~1M  tweets)[UA  Master  thesis  Christophe  Van  Gysel]  

• Detect  Fiscal  Fraud  based  on  network  of  ~7M  transactions[UA  Applied  Data  Mining,  Prof.  dr.  David  Martens]  

• Recognise  cyberpedophiles [UA  Computational  Linguistics,  Prof.  dr.  Walter  Daelemans]  

• e-­‐Health,  predict  rare  diseases[UA  Biomina,  UZA,  Prof.  dr.  Bart  Goethals]  

• Mining  Train  Delays [UA,  Prof.  dr.  Bart  Goethals  and  Infrabel]  

• Personalised  Advertising,  Recommendation,  Cross-­‐selling,  Product  placement,  Distribution  planning  

• …

10

Page 11: It it's happening now   analytics in een wereld van big data

What  about  the  methods?  

• Association-­‐,  Pattern  Discovery  • Classification,  Prediction,  Regression  • Clustering  • Recommendation  • Exploration  • Summarization  • Visualization

11

Page 12: It it's happening now   analytics in een wereld van big data

Association-­‐,  Pattern  Discovery

• Imagine  a  supermarket  • What  sets  of  products  frequently  bought  together?  • What  products  influence  the  sales  of  each  other?

12

Page 13: It it's happening now   analytics in een wereld van big data

Challenge

Number  of  potentially  interesting  patterns  is  larger  than  the  number  of  particles  in  the  universe

13

Page 14: It it's happening now   analytics in een wereld van big data

Association-­‐,  Pattern  Discovery

• “75%  of  all  customers  that  buy  diapers  also  buy  beer”

14

Page 15: It it's happening now   analytics in een wereld van big data

1515

Page 16: It it's happening now   analytics in een wereld van big data

Different  patterns  for  different  data

• Patients,  symptoms,  diseases  • Movies,  ratings,  viewers  • Friends,  Likes,  Status  Updates,  Interactions  • Routes,  Trucks,  Packages,  Distributors,  Locations  

• Sequences,    spatial,  time  series,  graphs,  multi-­‐relations,  RDF,  …

16

Page 17: It it's happening now   analytics in een wereld van big data

Classification  /  Prediction

17

How  to  separate  two  classes  of  objects  from  each  other

Page 18: It it's happening now   analytics in een wereld van big data

Rare  diseases

• Neonatal  heel  prick  used  for  detection  of  potential Medium-­‐chain  acyl-­‐coenzyme  A  dehydrogenase  deficiency  

• Classify  whether  expensive  genetic  test  is  required  

• Intensive  Care,  fast  prediction  of  e.g.  kidney  failure

18

[UA  Biomina]

Page 19: It it's happening now   analytics in een wereld van big data

Fraud  detection

19

[De  Standaard,  Prof.  dr.  David  Martens,  UA  Applied  Data  Mining  research  group]

Page 20: It it's happening now   analytics in een wereld van big data

Twitter  brengt  raad

20

Page 21: It it's happening now   analytics in een wereld van big data

Voting  behaviour  prediction  on  Twitter

21

[UA  Master  thesis  Christophe  Van  Gysel]

Page 22: It it's happening now   analytics in een wereld van big data

22

Page 23: It it's happening now   analytics in een wereld van big data

Classification  methods

• Pattern  Based  Classification  • Nearest  Neighbour  Classification  • Decision  Trees  • Support  Vector  Machines  • Neural  Networks  • Random  Forsests  • Conditional  Random  Fields  • …

23

Page 24: It it's happening now   analytics in een wereld van big data

Recommendation  methods

• A  customer  arrives  on  your  web-­‐shop:  show  her  the  product  she  doesn’t  know  yet,  but  might  be  interested  in  

• For  Any  (online)  shop!    Famous  example:  Netflix   (pattern  mining  is  even  used  to  produce  new  series:  ‘House  of  Cards’)  

• Recommendation  is  everywhere.  • Understand  user-­‐intent!  

• Methods:  • Collaborative  Filtering  • Matrix  Factorisation  • …

24

Page 25: It it's happening now   analytics in een wereld van big data

Sentiment  analysis

25

Page 26: It it's happening now   analytics in een wereld van big data

Clustering:  grouping  similar  things  together

What  is  a  natural  grouping  of  these  objects?

26

Page 27: It it's happening now   analytics in een wereld van big data

Male  vs.  Female

27

Page 28: It it's happening now   analytics in een wereld van big data

Young  vs.  Old

28

Page 29: It it's happening now   analytics in een wereld van big data

Simpson  family  vs.  Others

29

Page 30: It it's happening now   analytics in een wereld van big data

Similarity  is  hard  to  measure

curse  of  dimensionality

30

Page 31: It it's happening now   analytics in een wereld van big data

Enough  about  the  MethodsWhat  about  privacy?  

• Most  methods  function  on  anonymised  data  • Problem  solved:  No!  • Patterns  or  predictions  themselves  can  also  cause  Privacy  Infringement

31

Page 32: It it's happening now   analytics in een wereld van big data

32

Privacy  Preserving  Data  Mining  Discrimination  Aware  Data  Mining     methods  exist!

Page 33: It it's happening now   analytics in een wereld van big data

Conclusion

33

Page 34: It it's happening now   analytics in een wereld van big data

http://www.uantwerpen.be/bart-­‐goethals  [email protected]