Dwie metody

  • View
    52

  • Download
    4

Embed Size (px)

DESCRIPTION

Dwie metody. Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego w danych trenujących. Przykład eksploracji danych o naturze statystycznej. - PowerPoint PPT Presentation

Text of Dwie metody

  • Dwie metodyKlasyczna metoda histogramu jako narzdzie do postawienia hipotezy, jaki rozkad prawdopodobiestwa pasuje do danychIndukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego w danych trenujcych

  • Przykad eksploracji danych o naturze statystycznejPrba 1 wartoci zmiennej losowej odlego 21 5 36 54 7 14 43 7 3 24 22 41 56 2 10 39 48 2 43 14 36 29 49 8 42 35 23 35 41 28 56 30 22 9 46 15 58 28 21 56 37 40 14 55 41 36 23 55 53 52 69 35 51 62 41 15 65 15 29 26 60 29 22 70 44 42 16 48 77 44 29 22 28 41 48 3 54 55 42 68 30 29 11 46 17 69 68 4 76 28 31 32 47 56 21 55 36 52 48 83 Czy mona prognozowa procent odlegoci powyej 40 km? Prba 2 wartoci zmiennej losowej odlego 51 8 47 36 28 31 51 36 26 56 3 11 74 21 56 30 67 56 60 44 55 39 42 22 14 39 3 48 23 38 48 46 77 56 26 6 42 22 48 70 15 39 30 38 51 38 19 15 43 59 55 38 52 69 26 35 37 52 66 55 27 44 21 58 55 29 15 22 16 12 36 48 37 29 67 22 35 28 54 8 3 17 43 31 28 30 36 9 65 2 7 21 4 30 83 29 14 47 36 50

  • Przykad dyskretnej zmiennej losowej Rzut kostk

    k : X {1, 2, 3, 4, 5, 6}

    Dla i {1, 2, 3, 4, 5, 6}

    Pr(k = i) = 1/6

  • Drugi przykad dyskretnej zmiennej losowej Dzienna sprzeda jednostek towaru x w pewnym sklepie.

    sp : X N={0, 1, 2, . . .}

  • Przykad cigej zmiennej losowej Odlego miejsca zamwienia takswki od zajezdni.

    od : X R

  • Konstrukcja histogramu danych cigychPosortuj dane.Podziel posortowane dane na przedziay (w przypadku 100 danych powszechn praktyk jest wzicie od 10 do 15 przedziaw); jeszcze bardziej powszechn praktyk jest branie takich przedziaw, e przypada co najmniej od 5 do 8 danych na przedzia. W naszym przypadku po prostu bierzemy przedziay potencjalnie po 7 danych: [0,7) [7,14) [14,21) [21,28) [28,35) [35,42) [42,49) [49,56) [56,63) [63,70) [70,77) [77,84)oblicz, ile danych wpada do pierwszego przedziau ile danych wpada do drugiego przedziau ile danych wpada do ostatniego przedziau to jest wanie histogram pocztkowyczymy przylegajce przedziay, do ktrych wpado mniej ni 5 danych i dostajemy wynikowy histogram.

  • Wynikowe histogramy

    Nr. przedziau[lewy kraniecprawy kraniec)Liczba danych0076171472142183212811428351353542156424914749561185663796370510707721177842

  • Wynikowy histogram po zczeniu przedziaw

    Nr. przedziau[lewy kraniecprawy kraniec)Liczba danych007617147214218321281142835135354215642491474956118566379639999

  • Wykres supkowy histogramu

    1 - przedzia [0,7) Pasujcy do danych rozkad 2 - przedzia [7,14) itd. itd. prawdopodobiestwa to prawo ukryte w danych

    Wykres4

    6

    7

    8

    11

    13

    15

    14

    11

    7

    5

    2

    2

    liczba danych

    Arkusz1

    PosortowOdleglosci

    1221

    225Nr. przedz.[lewykr.prawykr.)liczba danych

    33360076

    435417147

    547214218

    65143212811

    77434283513

    8775354215

    9836424914

    109247495611

    111022856637

    121141963705

    1314561070772

    141421177832

    151410

    161539

    171548

    18152Nr. przedz.[lewykr.prawykr.)liczba danych

    1916430076

    20171417147

    212136214218

    2221293212811

    2321494283513

    242285354215

    2522426424914

    2622357495611

    272223856637

    2823359639999

    292341

    302428

    312656

    322830Nr. przedz.liczba d.

    33282206

    3428917

    35284628

    362915311

    372958413

    382928515

    392921614

    402956711

    41303787

    42304099

    433114

    443255

    453541

    463536

    473523

    483655

    493653

    503652

    513669

    523735

    533951

    544062

    554141

    564115

    574165

    584115

    594129

    604226

    614260

    624229

    634322

    644370

    654444

    664442

    674616

    684648

    694777

    704844

    714829

    724822

    734828

    744941

    755148

    76523

    775254

    785355

    795442

    805468

    815530

    825529

    835511

    845546

    855617

    865669

    875668

    88564

    895876

    906028

    916231

    926532

    936847

    946856

    956921

    966955

    977036

    987652

    997748

    1008383

    Arkusz1

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    liczba danych

    Arkusz2

    Arkusz3

  • Wykres gstoci standaryzowanego rozkadu normalnego i interpretacja powierzchni pod krzywCaa powierzchnia pod krzyw = 1 = 100% z=0.1787 standaryzowana warto 40-stu p prawdopodobiestwo, e zmienna losowa przyjmie warto > 40 Wyliczone z tablic statystycznych p = 0.4291 Prognoza procentu odlegoci > 40 km 42.9%

  • Eksploracja danych o naturze kombinatorycznej

    Drzewa decyzyjne

  • Przykad 1

    x n kklasyfikacja181612102013611046 121553064707112218206099181104590111121125101138501484015481161224?171015? . .

  • Przykad 2

    x n kklasyfikacja 1 8 161 2 10 201 3 6 110 4 6 121 5 5 31 6 4 70 7 11 220 8 20 61 9 9 180 10 45 900 11 1 20 12 5 100 13 8 50 14 8 41 15 4 81 16 12 24?

  • Przykad 3

    xindeksWartoKlasyfikacja 1 1 15Drugi 2 2 9Pierwszy 3 3 4Pierwszy 4 4 20Trzeci 5 5 11Pierwszy 6 6 15Drugi 7 7 21Trzeci 8 8 18Trzeci 9 9 13Pierwszy 10 10 17 Trzeci 11 11 2Pierwszy 12 12 12Pierwszy 13 13 14Pierwszy 14 14 32Trzeci 15 15 28Trzeci 16 16 1Pierwszy 17 17 10Pierwszy 18 18 18 ?

  • Algorytm uczenia wejcie: pewien zbir treningowy . . . dziaanie . . wyjcie: hipoteza oglnej klasyfikacji dowolnego przykadu do jednej z rozwaanych kategorii

  • Kolejny przykad tabela stanw pogody

    xauratemperaturawilgotnowiatrKlasyfikacja1sonecznaciepadua saby02sonecznaciepadua silny03pochmurnaciepaduasaby14deszczowaumiarkowanaduasaby15deszczowazimnanormalnasaby16deszczowazimnanormalnasilny07pochmurnazimnanormalnasilny18sonecznaumiarkowanaduasaby09sonecznazimnanormalnasaby110deszczowaumiarkowananormalna saby111sonecznaumiarkowananormalnasilny112pochmurnaumiarkowanaduasilny113pochmurnaciepanormalnasaby114deszczowaumiarkowanaduasilny015deszczowa ciepa dua saby ?

  • Testy

    soneczna gdy atrybutem aura obiektu x jest soneczna taura(x) = pochmurna gdy atrybutem aura obiektu x jest pochmurna deszczowa gdy atrybutem aura obiektu x jest deszczowa

    dostpne testy : taura, ttemperatura, twilgotno, twiatr

  • Podzia zbioru treningowego przez testKady test generuje pewien podzia zbioru treningowego. Kady zbir tego podziau dzieli si na elementy poszczeglnych kategorii.Dla testu taura otrzymujemy trzy podziay: podzia obiektw x zbioru treningowego z atrybutem aura = soneczna na te zakwalifikowane do kategorii 0 i na te zakwalifikowane do kategorii 1podzia obiektw x zbioru treningowego z atrybutem aura = pochmurna na te zakwalifikowane do kategorii 0 i na te zakwalifikowane do kategorii 1 podzia obiektw x zbioru treningowego z atrybutem aura = deszczowa na te zakwalifikowane do kategorii 0 i na te zakwalifikowane do kategorii 1

  • Entropia podziau E = -pi*log(pi) i przebiegajce kategorie.

    pi prawdopodobiestwo wylosowania elementu kategorii nr. i

  • Entropia podziau rozpitego na skoczonym zbiorze X = A1A2 . . . An

    E = -(|Ai|/|X|) * log(|Ai|/|X|) 1 i n

    Uamek |Ai|/|X| mona interpretowa jako prawdopodobiestwo wylosowania elementu kategorii nr. i ze zbioru X.

  • Entropia testu wzgldem zbioru treningowegoPrzykad entropia testu taura ze wzgldu na nasz zbir treningowy stanw pogody Dla testu taura dostajemy trzy podziay: podzia obiektw x zbioru treningowego z atrybutem aura = soneczna na te zakwalifikowane do kategorii 0 i