50
First Prev Next Last Go Back Full Screen Close Quit Konwersatorium – Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych Podstawowe pojęcia Wyklad 2 Marcin Szczuka http://www.mimuw.edu.pl/szczuka/mme/

Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Konwersatorium – Matematyczne Metody Ekonomiinarzędzia matematyczne w eksploracji danych

Podstawowe pojęcia

Wykład 2Marcin Szczuka

http://www.mimuw.edu.pl/∼szczuka/mme/

Page 2: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Many mickles make muckle.

Page 3: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Plan wykładu

•Wprowadzenie podstawowych pojęć.• Proces uczenia się.• Ocena rezultatów.• Przygotowywanie danych wejściowych.

Page 4: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Dziedzina, przykłady

Dziedzina (przestrzeń, uniwersum) to pewien zbiórX, z którego pochodzą (którego elementami są)nasze przykłady.Element x ∈ X nazywamy przykładem (instancją,przypadkiem, rekordem, entką, wektorem, obiek-tem, wierszem).

Page 5: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Atrybuty

Atrybut (cecha, pomiar, kolumna) to pewna funk-cja

a : X → A.Zbiór A jest nazywany dziedziną wartości atrybutu,lub prościej – dziedziną atrybutu.

Page 6: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Atrybuty c.d.

Zakładamy, że każdy przykład x ∈ X jest całkowi-cie reprezentowany przez wektor

a1(x), ..., an(x),

gdzieai : X → Ai

dla i = 1, ..., n. n nazywamy czasem rozmiarem(długością) przykładu.W pewnych zastosowaniach wyróżniamy specjalnyatrybut nazywany decyzją (klasą) lub atrybutemdecyzyjnym.

Page 7: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Atrybuty nominalne

Nominalne ( dyskretne, skończone, wyliczeniowe) -przestrzeń wartości atrybutu jest skończona (i nie-wielka) oraz nie występuje porządek na wartościachatrubutu.Na przykład atrybut Płeć ma przestrzeń wartości M,K,NW .

Page 8: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Atrybuty porządkowe

Porządkowe (uporządkowane) - przestrzeń wartościatrybutu jest skończona (i zwykle niewielka), alemożna wprowadzić porządek na wartościach atry-butu.Na przykład atrybut Wysokość może przyjmowaćwartości Zero, Nisko, Kosmos, Wysoko, Średnio,Bardzo Wysoko i wiemy, że:Zero < Nisko < Średnio < Wysoko < Bardzo Wysoko < Kosmos

Zauważmy jednak, że znajomość porządku nieoznacza znajomości odległości pomiędzy warto-ściami atrybutu.

Page 9: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Atrybuty ciągłe

Ciągłe (numeryczne) - przestrzeń atrybutu jest do-brze zdefiniowanym zbiorem liczbowym np. liczbycałkowite czy rzeczywiste. Znamy porządek na war-tościach atrybutu, a zwykle także odległość. Moż-liwe są operacje algebraiczne na wartościach atry-butów.Na przykład Temperatura może być wyrażona wstopniach Celsjusza (lub Kelwina) i wiemy, że róż-nica między −1C a 35C wynosi 36.

Page 10: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Typy atrybutów

Rozróżnienie między rodzajami atrybutów nie jestścisłe. Istnieją także inne rodzaje atrybutów, któremożemy chcieć wyróżniać:

• Binarne - przyjmują tylko dwie wartości(zwykle 0 i 1).

• Przedziałowe - uporządkowane i mierzone wustalonych przedziałach (data, temperatura).

• Stosunek - określone przez odniesienie dopunktu referencyjnego (odległość od stacji ko-lejowej).

Page 11: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Zbiory danych - dane tablicowe

Outlook Temp Humid Wind EnjoySptsunny hot high FALSE nosunny hot high TRUE noovercast hot high FALSE yesrainy mild high FALSE yesrainy cool normal FALSE yesrainy cool normal TRUE noovercast cool normal TRUE yessunny mild high FALSE no... ... ... ... ...rainy mild high TRUE no

Page 12: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Zbiory danych - dane tablicowe

Outlook Temp Humid Wind EnjoySptsunny 85 85 FALSE nosunny 80 90 TRUE noovercast 83 86 FALSE yesrainy 70 96 FALSE yesrainy 68 80 FALSE yesrainy 65 70 TRUE noovercast 64 65 TRUE yessunny 72 95 FALSE no... ... ... ... ...rainy 71 91 TRUE no

Page 13: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pojęcia

Pojęcie (pojęcie docelowe) to przyporządkowanie

c : X → 0, 1.

Równoważne określenie - pojęcie jest podzbioremXc ⊆ X.W praktyce rozważamy pojęcia wielokrotne tzn.c : X → C dla |C| > 2.Dla przykładu x ∈ X wartość c(x) nazywamy ety-kietą (decyzją, kategorią, klasą) x-a.

Page 14: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Przestrzeń pojęć

Przestrzeń pojęć (klasa pojęć) jest to rodzina Cwszystkich pojęć dla dziedziny XJeśli posłużymy się definicją pojęcia jako podzbioru,możemy powiedzieć, że dla skończonej dziedzinyC ⊆ 2X .

Page 15: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Hipotezy

Hipoteza to funkcja

h : X → 0, 1

reprezentująca przybliżenie pojęcia docelowego uzy-skane w wyniku uczenia.W przypadku pojęć wielokrotnych definicja hipo-tezy ulega odpowiedniej modyfikacji.

Page 16: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Przestrzeń hipotez

Przestrzeń hipotez jest to zbiór H wszystkich hipo-tez, które mogą być zbudowane w procesie uczenia.Kształt tego zbioru zależy od sposobu reprezentacjihipotez i wybranego algorytmu uczenia.Chcemy faworyzować podejścia w których C ⊆ Htzn. c ∈ H. W takim przypadku pojęcie doce-lowe jest wyuczalne. Niestety, przeważnie dosta-jemy H ⊂ C

Page 17: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Przykłady etykietowane, klasy

Przykład etykietowany (obiekt z decyzją) dla poję-cia c jest parą 〈x, c(x)〉, x ∈ X.Przykład pozytywny dla c: x ∈ X, c(x) = 1.Przykład negatywny dla c: x ∈ X, c(x) = 0.Klasa (klasa decyzyjna, kategoria) przykładów zdziedziny: Cci = x ∈ X|c(x) = i. Przeważnieużywamy zapisu Ci.

Page 18: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Zbiór treningowy

Zbiór treningowy (próbka treningowa/ucząca) dlanadzorowanego (z nauczycielem) wyuczania pojęciac jest to zbiór

Tc = 〈x, c(x)〉|x ∈ T ⊆ X.

W większości przypadków, gdy c(.) jest ustalone,używamy prostszego oznaczenia T .Zbiór treningowy (próbka treningowa/ucząca) dlauczenia nienanadzorowanego (bez nauczyciela) topodzbiór T ⊆ X.

Page 19: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Błąd próbki

Błąd próbki dla hipotezy h ze względu na pojęciec i zbiór przykładów D określamy jako:

ecD(h) =∑x∈D δ(h(x), c(x))

|D|,

gdzie

δ(h(x), c(x)) =1 gdy c(x) 6= h(x)0 w.p.p.

Page 20: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Błąd rzeczywisty

Błąd rzeczywisty (całkowity, globalny) dla hipotezyh ze względu na pojęcie c irozkład prawdopodo-bieństwa Ω na X określamy jako:

ecΩ(h) = Prx∈Ω(h(x) 6= c(x)).

Wykorzystujcc metody rodem ze statystyki, mo-żemy próbować wyestymować błąd rzeczywisty uży-wając błędu próbki dla różnych próbek.

Page 21: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Macierz błędu

Macierz błędu jest powszechnie wykorzystywana doprzedstawiania rozkładu błędów w przypadku hipo-tez (i pojęć) wielokrotnych. Macierz błędu to ma-cierz kwadratowa rozmiaru n× n

E =

e11 . . . e1n... . . . ...en1 . . . enn

W macierzy tej eij jest liczbą przykładów w próbcedla których c(x) = i i h(x) = j; i, j = 1, . . . , n.n jest liczbą klas decyzyjnych.

Page 22: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Indukcyjne uczenie z nadzorem

Mając zbiór treningowy Tc znajdź taką hipotezęh ∈ H, która najlepiej aproksymuje pojęcie doce-lowe c ze względu na ustalone kryterium.Kryterium jest zwykle (choć nie wyłącznie) opartena błędzie (błędach) próbki. Dokładne (naiwne)kryterium formułuje się jako:

∀x∈X(h(x) = c(x))

Page 23: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Indukcyjne uczenie bez nadzoru

Mając zbiór treningowy Tc znajdź taką hipotezęh ∈ H, która daje najlepszą klasyfikację przykła-dów ze względu na ustalone kryterium.Kryterium jest zwykle bardzo zależne od konkret-nego zadania.

Page 24: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Obciążenie indukcyjne, założenie induk-cyjne

Obciążenie indukcyjne – preferencje w wyborzepewnych hipotez przez system uczący się. Kombi-nacja wszystkich czynników, które w połączeniu zezbiorem treningowym determinują wybór ostatecz-nej hipotezy.Założenie indukcyjne – hipoteza, która jest akcep-towalna dla dostatecznie dużej próbki treningowej,jest także dopuszczalna dla całej dziedziny.

Page 25: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Założenie zamkniętości świata

Closed world assumption (CWA) - jeśli nie potra-fimy zweryfikować, czy jakiś przykład jest pozy-tywny, czy negatywny to przyjmujemy, że jest ne-gatywny.

Page 26: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Uczenie w praktyce

• Zapoznaj się z danymi• Przygotuj zbiór treningowy (i testowy).• Zastosuj algorytm uczący się.• Oceń uzyskane hipotezy.• Powtarzaj powyższe tyle razy, ile trzeba.

Page 27: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Zbiór testowy, próbka testowa

Hipotezy wyuczone na podstawie samego zbiorutreningowego mogą odzwierciedlać zależności,które są charakterystyczne tylko dla tej właśniepróbki. Aby zapewnić sobie właściwy poziom ogól-ności, powinniśmy stosować procedury testowe.Dlatego często fragment etykietowanych danychnie jest wykorzystywany w uczeniu, lecz używanyjako próbka testowa.Efekt wyuczania się zależności lokalnych, zbytszczegółowych i charakterystycznych jedynie dlapróbki nazywamy przeuczeniem (ang. overfitting).

Page 28: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Ocena błędu

W większości zastosowań uczenia z nadzorem wy-korzystujemy poziom błędu jako kryterium oceny.Jest to po prostu błąd próbki, ale rozpatrywany za-równo dla zbioru treningowego, jak i walidacyjnegooraz testowego. W przypadku wielokrotnych war-tości decyzji posługujemy się odpowiednimi macie-rzami błędów.

Page 29: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Przygotowanie próbek

Popularne metody wyboru próbki treningowej i te-stowej:

• Train-and-test.• Cross-validation – walidacja krzyżowa, kroswali-dacja.

• Leave-one-out.• Bootstrap.

Page 30: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Train-and-test

To najbardziej komfortowa sytuacja. Podział naczęść treningową i testową jest zadany.Uwaga! Próbka treningowa i/lub testowa mogąbyć kiepsko dobrane.

Page 31: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Cross-validation

k krotna walidacja krzyżowa (k-fold cross-validation):

1. Podziel dane na k równych części (np. losowo).

2. Wybierz jedną z części jako zbiór testowy, asumę pozostałych k-1 jako zbiór treningowy.

3. Wykonaj uczenie i testowanie.

4. Powtażaj 2-3 dla każdej z k części.

Page 32: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Cross-validation

Najczęściej wykorzystywane: 10-krotna, 3-krotna i5-krotna walidacja krzyżowa.Dla zapewnienia lepszej stabilności warto jest po-wtórzyć wielokrotnie walidację krzyżową (np. 10razy 10-krotną) i przyjąć średnią z tych powtórzeńjako wynik. Niestety, w wielu praktycznych sytu-acjach nie możemy sobie pozwolić na wykonanietylu eksperymentów.

Page 33: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Leave-one-out

Technika leave-one-out to w zasadzie n-krotna wa-lidacja krzyżowa, gdzie n jest liczbą przykładówktórymi dysponujemy. Jest to kosztowna technika,gdyż wymaga n wykonań algorytmu uczącego. Jestpolecana tylko dla zadań, w których liczba przykła-dów jest relatywnie mała.

Page 34: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Bootstrap

Wybieramy losowo ze zwracaniem n przykładówze zbioru T , dla n = |T |. Te przykłady stają sięzbiorem treningowym.Wszystkie przykłady, które nie zostały wybrane dozbioru treningowego tworzą zbiór testowy.Wyliczamy błąd próbki dla zbioru treningowego itestowego, a następnie składamy te błędy.

Page 35: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

0.632 bootstrap

Szansa nie wybrania jakiegoś przykładu w n pró-bach ze zwracaniem wynosi:

1−1n

n≈ 1e= 0.36787944

Zatem, aby oszacować całkowity błąd wykorzystu-jemy formułę:

e = 0.632 · etest + 0.368 · etrain.

Page 36: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Przygotowywanie przykładów

Typowe zadania przy przygotowywaniu próbki douczenia:

• Zadbanie o brakujące wartości.•Wyrównywanie i wygładzanie (aligning and pre-smoothing).

• Dyskretyzacja.•Wybór atrybutów.

Page 37: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Brakujące wartości

Wyróżniamy dwa podstawowe typy brakującychwartości:

• Niosące informacje.• Nieniosące informacji.

Page 38: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Uzupełnianie brakujących wartości

Proces wypelniania brakujących wartości nazywamyuzupełnianiem.Metody bezpośrednie:

• Usuwanie obiektów z brakującymi wartościami.Dość drastyczne i nie zawsze dopuszczalne.

• Zastępowanie braków pewną specjalną warto-ścią np. -1 dla atrybutu o wartościach natural-nych czy∞ dla rzeczywistych. Działa dobrze takdługo jak metoda uczenia nie zaczyna produko-wać nonsensownych hipotez.

(hair = blonde)∧(temp. = −1)⇒ (Heat = Y es)

Page 39: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Uzupełnianie w oparciu o dane

Metody zupełniania w oparciu o dane:

•Metody lokalne. Zastąp braki wykorzystując in-formację o rozkładzie jednego atrybutu.

•Metody globalne. Zastąp braki wykorzystując in-formację o rozkładzie wszystkich atrybutów(całych danych).

Page 40: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Metody lokalne

Najpopularniejsze metody lokalne:

• Ustalamy domyślną wartość dla atrybutu.• Zastępujemy brakujące wartości medianą powartościach atrybutu występujących w próbce.Ta metoda działa pod warunkiem, że medianama jakąś interpretację. Wzięcie zwykłej średniejnie jest zalecanym posunięciem. Dla atrybutówdyskretnych/tekstowych możemy zamiast me-diany wstawić najczęściej występującą wartość.

Page 41: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Metody lokalne

Zastępowanie wielokrotne (uzupełnianie kombina-toryczne). Uzupełniany obiekt jest zastępowanyprzez zbiór nowych, po jednym na każdą możliwąwartość brakującego atrybutu.To podejście sprawdza się tylko dla danych o sto-sunkowo niewielkiej liczbie brakujących wartości iatrybutów o małej liczbie możliwych wartości. Dlawiększych danych i skomplikowanych atrybutówmoże dojść do eksplozji kombinatorycznej.

Page 42: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Metody globalne

Estymujemy globalny rozkład przykładów na pod-stawie próbki treningowej. Następnie wstawiamyw brakujące miejsce wartość, ktora jest najbar-dziej prawdopodobna według tak wyznaczonegorozkładu. Możemy mieć kontrolę nad parametramiestymatora, a także nakładać inne dodatkowe ogra-niczenia.Jedna z najbardziej popularnych metod estymacjijest algorytm EM (Expectation Maximization) -technika znajdowania estymacji dla wielowymiaro-wych złożonych rozkładów gaussowskich. Technikętą omówimy później w kontekście grupowania po-jęciowego.

Page 43: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Wyrównywanie, formatowanie

Wyrównywanie i formatowanie danych (ang. ali-gning ) – w wielu przypadkach dokonujemy pew-nych prostych transformacji atrybutów, aby zapew-nić sobie właściwe działanie algorytmu uczącego.Typowe przykłady:

• Normalizacja - sprowadzenie do przedziału [0,1].• Przesunięcie wartości o stałą.• Zmiana skali na logarytmiczną.

Page 44: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Wygładzanie

Wygładzanie (ang. presmoothing) - gdy wartościatrybutu są nieprecyzyjne, zakłócone lub podlegająnadmiernym wahaniom. W takich sytuacjach zbiórwartości powinien zostać “wygładzony”. Nazwa po-chodzi ze statystyki.Typowe zastosowanie - analiza szeregów czaso-wych.

Page 45: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Dyskretyzacja

Niektóre metody uczenia albo wprost zakładają, żezbiór watości atrybutu jest dyskretny, albo działająlepiej gdy tak jest. Dlatego pojawia się zapotrze-bowanie na metody odpowiedniej zamiany zbiorówwartości atrybutów.Dyskretyzacja – zwykle rozumiana jako zamianaatrybutów ciągłych na dyskretne (symboliczne).Grupowanie lub kwantyzacja - zmniejszanie roz-miaru przestrzeni wartości atrybutu (zwykle dys-kretnego) przez sklejenie pewnych jego wartości.

Page 46: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Dyskretyzacja

Dwie metody kategoryzacji algorytmów dyskretyza-cji (grupowania):

• Arbitralne vs. oparte na mierze.• Lokalne vs. globalne.

Page 47: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Nadzorowane vs. oparte na mierze

Bez nadzoru (arbitralne) - Dzielimy przestrzeń atry-butu na mniejsze kawałki w sposób arbitralny, bezoglądania się na zależności między atrybutami i nadecyzję (etykietę).Nadzorowane (oparte na mierze) - Wykorzystujemypewną numeryczną miarę wyliczaną dla zbioru da-nych, aby ocenić czy dany podział atrybutu popra-wia sytuację.Przykład: dyskretyzacja wykorzystująca miarę en-tropii i regułę MDL (Minimal Description Length).

Page 48: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Lokalne vs. globalne

Lokalne – jeden atrybut na raz. Zmienia się zbiórwartości tylko jednego atrybutu.Globalne – różne (czasem wszystkie) atrybuty naraz. Przebudowa przykładów, możliwa jest kon-strukcja nowych i/lub usuwanie istniejących atry-butów.

Page 49: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Wybór atrybutów

Fakt – niewłaściwe atrybuty obniżają jakość działa-nia algorytmów uczących się.Fakt – nie da się wywnioskować sensownej hipotezyz bezsensownych danych.

Page 50: Podstawowe pojęciaszczuka/mme/wyklad2.pdfNa przykład atrybut Płe ć ma przestrzeń wartości { M,K,NW }. •First •Prev •Next •Last •Go Back •Full Screen ... Dość drastyczne

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Theory in when we know everythingand nothing works.

Practice is when everything worksand no one knows why.

We combine theory with practice,nothing works and no one knows why.