Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Drzewa decyzyjne
i lasy losowe
Im dalej w las tym więcej drzew!
— Marcin Zadrogahttps://www.linkedin.com/in/mzadroga/ML Gdańsk
http://www.mlgdansk.pl/
20 Czerwca 2017
WPROWADZENIE DO
MACHINE LEARNING
CZYM JEST DRZEWO?
Skierowany spójny graf acykliczny
Pierwszy wierzchołek –korzeń
Krawędzie – gałęzie
Węzły końcowe - liście
Droga – przejście od korzenia wzdłuż kolejnych gałęzi (do liścia)
Źródło: https://blogs.msdn.microsoft.com/chrsmith/2009/11/02/awesome-f-decision-trees-part-ii/
ZADANIA DLA DRZEWA
Zadania klasyfikacji
Zadania regresji
Uczenie na podstawie zbioru, czego nie ma w zbiorze tego nie wiemy ...
Źródło: http://www.saedsayad.com/decision_tree.htm
PODZIAŁ DRZEWA
Podział ma być przeprowadzony tak aby różnorodność próbek docierających do wezłów dzieci była możliwie najmniejsza – podział lokalnie optymalny
Miary różnorodności klas Proporcja błędnych klasyfikacji
Indeks Giniego
Entropia
Miarę różnorodności klas w dzieciach węzła obliczamy jako ważoną sumę
Indeks Giniego i Entropia są bardziej czułe na zmiany rozkładów klas
PRZYKŁAD
Źródło: https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/
PRZYCINANIE DRZEWA
Drzewo odzwierciedli tylko nasz zbiór – przeuczy się, trzeba je przyciąć!
Budujemy „pełne” drzewo (w węzłach obserwacje z tej samej klasy)
Sposoby:1. Heurystyka – 5 elementów w liściu i nie idziemy dalej
2. Heurystyka – Ograniczenie wysokości drzewa
3. Ucinamy po liściu, tak aby zmniejszyć błąd na zbiorze walidacyjnym
4. Kryterium kosztu – złożoności 𝑅𝛼 𝑇 = 𝑅 𝑇 + 𝛼|𝑇| , zadanie znalezienia minimum
5. Algorytm Breimana – wybór optymalnego Alfa (współczynnika złożoności), 1SE
ZADANIE REGRESJI DLA DRZEWA
Źródło: „An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani
ZADANIE REGRESJI DLA DRZEWA
Źródło: „An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani
DRZEWA – PLUSY I MINUSY
Łatwe do wytłumaczenia i zrozumienia – prezentacja dla managerów ;)
Odwzorowują ludzkie podejście
Zadanie klasyfikacji możliwe do realizacji bez tworzenia „dummy variables” – łatwo je zastosować bez inżynierii danych
Duża niestabilność – mała zmiana danych, duża zmiana drzewa
Podatne na przeuczenie
BAGGING
Mamy dane C „lichych” klasyfikatorów (problem z dwiema klasami) – słabi uczniowie, niewiele lepsi niż rzut monetą (0,55)
Jeżeli C jest duże, to większość klasyfikatorów dokona poprawnej klasyfikacji
Wytrenujmy „pełne” drzewa na pseudopróbach, o liczności n < N (Breinman) Losowanie z rokładu 1/n z zwracaniem
Drzewa „głosują” zwykłą większością
BOOSTING
Zaproponowana w 1990 przez Schapire’a
Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby
Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa wylosowania próby, która została niepoprawnie zaklasyfikowana przez poprzedni klasyfikator
(META)Algorytm AdaBoost – dyskretny adaptacyjny boosting, bez losowania
Źródło: https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/
LASY LOSOWE
1. Wylosuj ze zwracaniem n-elementową pseudopróbę
2. W każdym węźle (!) wylosuj m spośród p atrybutów (bez zwracania) i zastosuj wybraną metodę podziału, b. często m<<p np. m=sqrt(p)
3. Zbuduj drzewo bez przycinania, aż do otrzymania liści z elementami z jednej klasy
4. Zbuduj C takich drzew
5. Drzewa „głosują” nad rozwiązaniem, wybór zwykłą większością głosów
Lasy losowe to uogólnienie bagging, gdzie m<>p
LASY LOSOWE - UŻYCIE
Źródło (1): https://databricks.com/blog/2015/01/21/random-forests-and-boosting-in-mllib.html
Źródło (2): http://www.iis.ee.ic.ac.uk/icvl/iccv09_tutorial.html
LASY LOSOWE – PLUSY DODATNIE I PLUSY UJEMNE
+ Dobre wyniki!
+ Odpowiednie dla dużych zbiorów m<<p
+ „Dają” oszacowanie, które zmienne są ważne (zwiększone prawdopodobieństwo)
- Czasem niestety się przeuczają (dane zaszumione)
LITERATURA
„Statystyczne systemy uczące się” – J. Koronacki, J. Ćwik
„An introduction to statistical learning” – G. James, D. Witten, T. Hastie, R. Tibshirani
„The elements of statistical learning” – T. Hastie, R. Tibshirani, J. Friedman
DZIĘKUJĘ ZA UWAGĘ!