17
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! Marcin Zadroga https://www.linkedin.com/in/mzadroga/ ML Gdańsk http://www.mlgdansk.pl/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING

Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

Drzewa decyzyjne

i lasy losowe

Im dalej w las tym więcej drzew!

— Marcin Zadrogahttps://www.linkedin.com/in/mzadroga/ML Gdańsk

http://www.mlgdansk.pl/

20 Czerwca 2017

WPROWADZENIE DO

MACHINE LEARNING

Page 2: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

CZYM JEST DRZEWO?

Skierowany spójny graf acykliczny

Pierwszy wierzchołek –korzeń

Krawędzie – gałęzie

Węzły końcowe - liście

Droga – przejście od korzenia wzdłuż kolejnych gałęzi (do liścia)

Źródło: https://blogs.msdn.microsoft.com/chrsmith/2009/11/02/awesome-f-decision-trees-part-ii/

Page 3: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

ZADANIA DLA DRZEWA

Zadania klasyfikacji

Zadania regresji

Uczenie na podstawie zbioru, czego nie ma w zbiorze tego nie wiemy ...

Źródło: http://www.saedsayad.com/decision_tree.htm

Page 4: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

PODZIAŁ DRZEWA

Podział ma być przeprowadzony tak aby różnorodność próbek docierających do wezłów dzieci była możliwie najmniejsza – podział lokalnie optymalny

Miary różnorodności klas Proporcja błędnych klasyfikacji

Indeks Giniego

Entropia

Miarę różnorodności klas w dzieciach węzła obliczamy jako ważoną sumę

Indeks Giniego i Entropia są bardziej czułe na zmiany rozkładów klas

Page 5: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

PRZYKŁAD

Źródło: https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

Page 6: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

PRZYCINANIE DRZEWA

Drzewo odzwierciedli tylko nasz zbiór – przeuczy się, trzeba je przyciąć!

Budujemy „pełne” drzewo (w węzłach obserwacje z tej samej klasy)

Sposoby:1. Heurystyka – 5 elementów w liściu i nie idziemy dalej

2. Heurystyka – Ograniczenie wysokości drzewa

3. Ucinamy po liściu, tak aby zmniejszyć błąd na zbiorze walidacyjnym

4. Kryterium kosztu – złożoności 𝑅𝛼 𝑇 = 𝑅 𝑇 + 𝛼|𝑇| , zadanie znalezienia minimum

5. Algorytm Breimana – wybór optymalnego Alfa (współczynnika złożoności), 1SE

Page 7: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

ZADANIE REGRESJI DLA DRZEWA

Źródło: „An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani

Page 8: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

ZADANIE REGRESJI DLA DRZEWA

Źródło: „An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani

Page 9: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

DRZEWA – PLUSY I MINUSY

Łatwe do wytłumaczenia i zrozumienia – prezentacja dla managerów ;)

Odwzorowują ludzkie podejście

Zadanie klasyfikacji możliwe do realizacji bez tworzenia „dummy variables” – łatwo je zastosować bez inżynierii danych

Duża niestabilność – mała zmiana danych, duża zmiana drzewa

Podatne na przeuczenie

Page 10: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

BAGGING

Mamy dane C „lichych” klasyfikatorów (problem z dwiema klasami) – słabi uczniowie, niewiele lepsi niż rzut monetą (0,55)

Jeżeli C jest duże, to większość klasyfikatorów dokona poprawnej klasyfikacji

Wytrenujmy „pełne” drzewa na pseudopróbach, o liczności n < N (Breinman) Losowanie z rokładu 1/n z zwracaniem

Drzewa „głosują” zwykłą większością

Page 11: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

BOOSTING

Zaproponowana w 1990 przez Schapire’a

Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby

Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa wylosowania próby, która została niepoprawnie zaklasyfikowana przez poprzedni klasyfikator

(META)Algorytm AdaBoost – dyskretny adaptacyjny boosting, bez losowania

Page 12: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

Źródło: https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

Page 13: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

LASY LOSOWE

1. Wylosuj ze zwracaniem n-elementową pseudopróbę

2. W każdym węźle (!) wylosuj m spośród p atrybutów (bez zwracania) i zastosuj wybraną metodę podziału, b. często m<<p np. m=sqrt(p)

3. Zbuduj drzewo bez przycinania, aż do otrzymania liści z elementami z jednej klasy

4. Zbuduj C takich drzew

5. Drzewa „głosują” nad rozwiązaniem, wybór zwykłą większością głosów

Lasy losowe to uogólnienie bagging, gdzie m<>p

Page 14: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

LASY LOSOWE - UŻYCIE

Źródło (1): https://databricks.com/blog/2015/01/21/random-forests-and-boosting-in-mllib.html

Źródło (2): http://www.iis.ee.ic.ac.uk/icvl/iccv09_tutorial.html

Page 15: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

LASY LOSOWE – PLUSY DODATNIE I PLUSY UJEMNE

+ Dobre wyniki!

+ Odpowiednie dla dużych zbiorów m<<p

+ „Dają” oszacowanie, które zmienne są ważne (zwiększone prawdopodobieństwo)

- Czasem niestety się przeuczają (dane zaszumione)

Page 16: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

LITERATURA

„Statystyczne systemy uczące się” – J. Koronacki, J. Ćwik

„An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani

„The elements of statistical learning” – T. Hastie, R. Tibshirani, J. Friedman

Page 17: Drzewa Decyzyjne i Lasy Losowe...2017/06/02  · Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa

DZIĘKUJĘ ZA UWAGĘ!