34
22. 10. 2014

Skryté nebezpečenstvá čísel

Embed Size (px)

DESCRIPTION

Prezentacia z meetupu Banalytics (22. 10. 2014) zaoberajuca sa casto prehliadanymi javmi, ktore mozu v ramci kvantitativnej analyzy nastat.

Citation preview

Page 1: Skryté nebezpečenstvá čísel

22. 10. 2014

Page 2: Skryté nebezpečenstvá čísel

Skryté nebezpečenstvá

čísiel

@rgavuliak

[email protected]

Page 3: Skryté nebezpečenstvá čísel

Obsahuje

● Zlé zlé priemery● Simpsonov paradox

● Korelácia a kauzalita

● Benfordov zákon

● Base rate fallacy

● Regression to the mean

Page 4: Skryté nebezpečenstvá čísel

Zlé zlé priemery

Stránka s obsahom

Priemer: 16.57

Medián: 2

Modus: 1

Zlé zlé stredné hodnoty

Page 5: Skryté nebezpečenstvá čísel

Zlé zlé priemery

Page 6: Skryté nebezpečenstvá čísel

Zlé zlé priemery

● Histogram

● Box-plot graf

● Frekvenčné tabuľky

Page 7: Skryté nebezpečenstvá čísel

D'oh!

● Zlé zlé priemery

● Simpsonov paradox● Korelácia a kauzalita

● Benfordov zákon

● Base rate fallacy

● Regression to the mean

Page 8: Skryté nebezpečenstvá čísel

Simpsonov paradox

a.k.a priveľa agregácie

Page 9: Skryté nebezpečenstvá čísel

Simpsonov paradox

Page 10: Skryté nebezpečenstvá čísel

Simpsonov paradox

● Skontrolovať break downy

● Zvážiť všetky možné faktory

Page 11: Skryté nebezpečenstvá čísel

Každá SME (Projekt-N) diskusia

● Zlé zlé priemery

● Simpsonov paradox

● Korelácia a kauzalita● Benfordov zákon

● Base rate fallacy

● Regression to the mean

Page 12: Skryté nebezpečenstvá čísel

Korelácia neznamená kauzalitu

Ale koreluje s ňou

Page 13: Skryté nebezpečenstvá čísel

Korelácia neznamená kauzalitu

Page 14: Skryté nebezpečenstvá čísel

Korelácia neznamená kauzalitu

Page 15: Skryté nebezpečenstvá čísel

Korelácia neznamená kauzalitu

64.5 %

Page 16: Skryté nebezpečenstvá čísel

Korelácia neznamená kauzalitu

● Spoločná príčina

● Predikcia vs A/B testy

● Common sense (a.k.a. domain knowledge)

Page 17: Skryté nebezpečenstvá čísel

Zákony sú na to aby sa porušovali

● Zlé zlé priemery

● Simpsonov paradox

● Korelácia a kauzalita

● Benfordov zákon● Base rate fallacy

● Regression to the mean

Page 18: Skryté nebezpečenstvá čísel

Benfordov zákon

Ako často čísla začínajú na

konkrétne číslice?

Page 19: Skryté nebezpečenstvá čísel

Benfordov zákon

Prvá číslica Pravdepodobnosť

1 30.1%

2 17.6%

3 12.5%

4 9.7%

5 7.9%

6 6.7%

7 5.8%

8 5.1%

9 4.6%

Page 20: Skryté nebezpečenstvá čísel

Benfordov zákon - kde všade?

Účty za elektrinu, adresy domov,

burzové dáta, populácia, dĺžka riek...

Page 21: Skryté nebezpečenstvá čísel

Huh?

● Zlé zlé priemery

● Simpsonov paradox

● Korelácia a kauzalita

● Benfordov zákon

● Base rate fallacy● Regression to the mean

Page 22: Skryté nebezpečenstvá čísel

Base rate fallacy

● V meste A operujú 2 taxi spoločnosti, Modrá (85 %) a

Zelená (15 %)

● V noci vodič taxíku zrazil chodca a ušiel z miesta

nehody

● Svedok nehody identifikoval taxík modrej farby

● Polícia otestovala schopnosť svedka rozoznať tieto dve

farby za rovnakých podmienok v akých sa stala nehoda

s 80 % úspešnosťou rozoznávajúce schopnosti

● Verili by ste výpovedi svedka?

Page 23: Skryté nebezpečenstvá čísel

Base rate fallacy

12 %

17 %

Page 24: Skryté nebezpečenstvá čísel

Base rate fallacy

Šanca, že taxík je naozaj modrý

41 %

Page 25: Skryté nebezpečenstvá čísel

Base rate fallacy

● Bayesovský prístup

Page 26: Skryté nebezpečenstvá čísel

Návrat k priemeru

● Zlé zlé priemery

● Simpsonov paradox

● Korelácia a kauzalita

● Benfordov zákon

● Base rate fallacy

● Regression to the mean

Page 27: Skryté nebezpečenstvá čísel

Regression to the mean

Máte pocit, že...

po tom, ako Vás šef za niečo “zjazdí”, Vaše

výsledky sa zlepšia?

keď už kvôli prechladnutiu vypľúvate dušu,

pomôže Vám med s maslom?

Nezúfajte, je tu návrat k priemeru!

Page 28: Skryté nebezpečenstvá čísel

Regression to the mean

Skúste hádzať kockou a vždy keď hodíte

jednotku, nakričte na ňu …

Čo by sa stalo ak si ten med s maslom nedáte?

... Áno, presne pre toto kontrolná skupina berie

placebo...

Page 29: Skryté nebezpečenstvá čísel

Regression to the mean

● Data beats intuition

Naozaj neškodný?

Page 30: Skryté nebezpečenstvá čísel

Určite ste počuli...

“Statistics are like bikinis. What they reveal is

suggestive, but what they conceal is vital.”

― Aaron Levenstein

"Lies, damned lies, and statistics„

― Mark Twain

Page 31: Skryté nebezpečenstvá čísel

Ale...

It is easy to lie with statistics but it is easier to

lie without them.

- Frederick Mosteller

Essentially, all models are wrong, but some are

useful.

- George E. P. Box

Page 32: Skryté nebezpečenstvá čísel

Zdroje

http://vudlab.com/simpsons/

http://www.drmaciver.com/2014/05/spurious-correlations-and-causation/

http://www.kirix.com/blog/2008/07/22/fun-and-fraud-detection-with-benfords-

law/

http://en.wikipedia.org/wiki/Representativeness_heuristic#The_taxicab_proble

m

http://understandinguncertainty.org/node/545

http://matheducators.stackexchange.com/questions/1325/impressive-common-

misleading-interpretations-in-statistics-to-make-students-awar/1464#1464

http://ije.oxfordjournals.org/content/34/1/215.full

Page 33: Skryté nebezpečenstvá čísel

Ďakujem za pozornosť

otázky, pripomienky, skúsenosti?

Page 34: Skryté nebezpečenstvá čísel

6.11.2014Refinery Gallery

User Experience / Ecommerce / Data Mining / Data VisualisationPerformance Marketing / Software Development

More info and registration at conversionmeetup.net

Jozo Kovac7Segments

Customer Retention, The Key to Business Success

Thomas HitthalerStrukt

Interactive Data Visualization of an Airport

in real-time

Stefan KonopatzkiStilago

Active Buyers – The source of each conversion

Dejan PekterNordeus

Reactor design pattern