Transcript
Page 1: It it's happening now   analytics in een wereld van big data

Advances  in  Data  Mining  and  Big  Data  Analytics

Prof.  dr.  Bart  Goethals  Advanced  Database  Research  &  Modelling  Department  of  Mathematics  &  Computer  Science

Cevora    -­‐  19  November  2014

Page 2: It it's happening now   analytics in een wereld van big data

Big  Data  Analytics    or  …

• Statistics  • Data  Mining  • Knowledge  Discovery  in  Data  • Analytics  • Data  Science  • …

2

Page 3: It it's happening now   analytics in een wereld van big data

Big  Data  is  like  teenage  sex:    

• everyone  talks  about  it,    • nobody  really  knows  how  to  do  it,  • everyone  thinks  everyone  else  is  doing  it,    • so  everyone  claims  they  are  doing  it…  

[Dan  Ariely]        

3See  also  Data  News  Survey  March  2014

Page 4: It it's happening now   analytics in een wereld van big data

The  Goal  of  Big  Data

Goal  is  the  same:     Find  useful  patterns  or  models  in  Data  

Emphasis  Changes:     Volume     Velocity     Variety     V…      

4

Page 5: It it's happening now   analytics in een wereld van big data

Big  Data  Volume

5

[source:  EMC]

Page 6: It it's happening now   analytics in een wereld van big data

Is  Big  better?

• Yes!  But,  some  fundamental  principles:  [U.  Fayyad]  • Data  gains  value  exponentially  when  integrated  and  coalesced.  When  fragmented:  dramatic  value  loss.  

• Fusing  data  together  from  disparate  or  independent  sources  is  difficult  and  impossible  to  maintain.      

• 80%  of  the  effort  of  Data  Mining  goes  to  getting  the  right  data  together.      

• Standardisation.  Data  governance  and  policy.  Data  privacy,  encryption  and  masking.  Data  infrastructure.  

• Data  is  a  primary  competency  and  not  a  side-­‐activity.

6

Page 7: It it's happening now   analytics in een wereld van big data

Is  Big  a  problem?

• Data  can  (not)  be  summarised  (sampling)  • Too  much  information  lost  for  reasonable  sizes  • We  need  to  find  patterns  that  are  useful  and  valid  for  all  data    • Personalized  Recommendation  • Personalized  Advertising  • Rare  diseases  

• Current  analytics  methods  do  not  scale  or  produce  satisfactory  results

7

Page 8: It it's happening now   analytics in een wereld van big data

Big  Data  Velocity  (60s  on  the  internet)

8[Source:  Qmee]

Page 9: It it's happening now   analytics in een wereld van big data

Big  Data  Variety

• Data  can  be    • structured,    • semi-­‐structured,    • text,    • images,    • video,    • time  series,    • click-­‐streams,    • graphs  or  (social)  networks,  …  • …

9

Page 10: It it's happening now   analytics in een wereld van big data

Big  Data  Value• Predict  voting  behaviour  based  on  Twitter  (~1M  tweets)[UA  Master  thesis  Christophe  Van  Gysel]  

• Detect  Fiscal  Fraud  based  on  network  of  ~7M  transactions[UA  Applied  Data  Mining,  Prof.  dr.  David  Martens]  

• Recognise  cyberpedophiles [UA  Computational  Linguistics,  Prof.  dr.  Walter  Daelemans]  

• e-­‐Health,  predict  rare  diseases[UA  Biomina,  UZA,  Prof.  dr.  Bart  Goethals]  

• Mining  Train  Delays [UA,  Prof.  dr.  Bart  Goethals  and  Infrabel]  

• Personalised  Advertising,  Recommendation,  Cross-­‐selling,  Product  placement,  Distribution  planning  

• …

10

Page 11: It it's happening now   analytics in een wereld van big data

What  about  the  methods?  

• Association-­‐,  Pattern  Discovery  • Classification,  Prediction,  Regression  • Clustering  • Recommendation  • Exploration  • Summarization  • Visualization

11

Page 12: It it's happening now   analytics in een wereld van big data

Association-­‐,  Pattern  Discovery

• Imagine  a  supermarket  • What  sets  of  products  frequently  bought  together?  • What  products  influence  the  sales  of  each  other?

12

Page 13: It it's happening now   analytics in een wereld van big data

Challenge

Number  of  potentially  interesting  patterns  is  larger  than  the  number  of  particles  in  the  universe

13

Page 14: It it's happening now   analytics in een wereld van big data

Association-­‐,  Pattern  Discovery

• “75%  of  all  customers  that  buy  diapers  also  buy  beer”

14

Page 15: It it's happening now   analytics in een wereld van big data

1515

Page 16: It it's happening now   analytics in een wereld van big data

Different  patterns  for  different  data

• Patients,  symptoms,  diseases  • Movies,  ratings,  viewers  • Friends,  Likes,  Status  Updates,  Interactions  • Routes,  Trucks,  Packages,  Distributors,  Locations  

• Sequences,    spatial,  time  series,  graphs,  multi-­‐relations,  RDF,  …

16

Page 17: It it's happening now   analytics in een wereld van big data

Classification  /  Prediction

17

How  to  separate  two  classes  of  objects  from  each  other

Page 18: It it's happening now   analytics in een wereld van big data

Rare  diseases

• Neonatal  heel  prick  used  for  detection  of  potential Medium-­‐chain  acyl-­‐coenzyme  A  dehydrogenase  deficiency  

• Classify  whether  expensive  genetic  test  is  required  

• Intensive  Care,  fast  prediction  of  e.g.  kidney  failure

18

[UA  Biomina]

Page 19: It it's happening now   analytics in een wereld van big data

Fraud  detection

19

[De  Standaard,  Prof.  dr.  David  Martens,  UA  Applied  Data  Mining  research  group]

Page 20: It it's happening now   analytics in een wereld van big data

Twitter  brengt  raad

20

Page 21: It it's happening now   analytics in een wereld van big data

Voting  behaviour  prediction  on  Twitter

21

[UA  Master  thesis  Christophe  Van  Gysel]

Page 22: It it's happening now   analytics in een wereld van big data

22

Page 23: It it's happening now   analytics in een wereld van big data

Classification  methods

• Pattern  Based  Classification  • Nearest  Neighbour  Classification  • Decision  Trees  • Support  Vector  Machines  • Neural  Networks  • Random  Forsests  • Conditional  Random  Fields  • …

23

Page 24: It it's happening now   analytics in een wereld van big data

Recommendation  methods

• A  customer  arrives  on  your  web-­‐shop:  show  her  the  product  she  doesn’t  know  yet,  but  might  be  interested  in  

• For  Any  (online)  shop!    Famous  example:  Netflix   (pattern  mining  is  even  used  to  produce  new  series:  ‘House  of  Cards’)  

• Recommendation  is  everywhere.  • Understand  user-­‐intent!  

• Methods:  • Collaborative  Filtering  • Matrix  Factorisation  • …

24

Page 25: It it's happening now   analytics in een wereld van big data

Sentiment  analysis

25

Page 26: It it's happening now   analytics in een wereld van big data

Clustering:  grouping  similar  things  together

What  is  a  natural  grouping  of  these  objects?

26

Page 27: It it's happening now   analytics in een wereld van big data

Male  vs.  Female

27

Page 28: It it's happening now   analytics in een wereld van big data

Young  vs.  Old

28

Page 29: It it's happening now   analytics in een wereld van big data

Simpson  family  vs.  Others

29

Page 30: It it's happening now   analytics in een wereld van big data

Similarity  is  hard  to  measure

curse  of  dimensionality

30

Page 31: It it's happening now   analytics in een wereld van big data

Enough  about  the  MethodsWhat  about  privacy?  

• Most  methods  function  on  anonymised  data  • Problem  solved:  No!  • Patterns  or  predictions  themselves  can  also  cause  Privacy  Infringement

31

Page 32: It it's happening now   analytics in een wereld van big data

32

Privacy  Preserving  Data  Mining  Discrimination  Aware  Data  Mining     methods  exist!

Page 33: It it's happening now   analytics in een wereld van big data

Conclusion

33

Page 34: It it's happening now   analytics in een wereld van big data

http://www.uantwerpen.be/bart-­‐goethals  [email protected]


Recommended