68
PROC GLMSELECT selection=LAR Bartosz Szymecki Damian Wróblewski Gda ´ nsk, 2014

PROC GLMSELECT selection=LAR · 2014. 6. 12. · cv - Walidacja krzyzowa (˙ ang. Cross Validation) ANOVA - Analiza wariancji (ang. ANalysis Of VAriance) Cp - Statystyka Mallow’a

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • PROC GLMSELECT selection=LAR

    Bartosz Szymecki Damian Wróblewski

    Gdańsk, 2014

  • Spis treści

    Spis treści i

    1 Wstęp 21.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Motywacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2 Zagadnienia teoretyczne 42.1 Regresja Wieloraka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.1.1 Zależność między zmiennymi . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.2 Zmienne zależne i niezależne . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.3 Definicja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.4 Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.2 Analiza wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Ogólne modele liniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Uogólnione modele liniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5 Least Angle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.5.1 Opis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5.2 Oznaczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.5.3 Algorytm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.6 Kryteria informacyjne dopasowania modelu . . . . . . . . . . . . . . . . . . . . . . . . 102.7 Walidacja krzyżowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3 Selekcja modelu w SAS 123.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2 proc glmselect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.2.1 Opis procedury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2.2 Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4 Przykład 1 164.1 Dane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Analiza 1 - (stop=none) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Analiza 2 - (stop=cp) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.4 Analiza 3 - (stop=none choose=sbc) . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5 Analiza 4 - (stop=none choose=cv) cvMethod=Split(10) . . . . . . . . . . . . . . 274.6 Analiza 5 - (stop=none choose=cp) lscoeffs . . . . . . . . . . . . . . . . . . . . . 314.7 Analiza 6 - (stop=none choose=cp) modelaverage . . . . . . . . . . . . . . . . . . 364.8 Podsumowanie analiz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.9 Wybrany model - zastosowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5 Przykład 2 45

    i

  • SPIS TREŚCI ii

    5.1 Dane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.1.1 Komenda CLASS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.1.2 Wybór początkowych zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . 46

    5.2 Analiza 1 - (stop=none choose=cv) cvMethod=Split(5) . . . . . . . . . . . . . . . 475.3 Analiza 2 - by=typ (stop=none choose=cv) . . . . . . . . . . . . . . . . . . . . . . 535.4 Wybrany model - zastosowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    6 Podsumowanie 58

    Bibliografia 59

    Spis rysunków 60

    Spis tabel 62

    Kody programów 63Przykład 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Przykład 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

  • SPIS TREŚCI 1

    WYKAZ WAŻNIEJSZYCH OZNACZEŃ I SKRÓTÓW

    GLM - Ogólne Modele Liniowe (ang. General Linear Models)UML - Uogólnione Modele linoweLAR - ang. Least Angle RegressionMNK - Metoda najmniejszych kwadratówcv - Walidacja krzyżowa (ang. Cross Validation)ANOVA - Analiza wariancji (ang. ANalysis Of VAriance)Cp - Statystyka Mallow’a.czcionka maszynowa oznacza element kodu programu, bądź pojęcia związanego z algorytmem

  • Rozdział 1

    Wstęp

    1.1 Wprowadzenie

    Praca poświęcona jest zagadnieniu modelowania regresji wielorakiej z rozszerzeniem do uogólnio-nych modeli linowych, przy pomocy programu SAS. Uogólnione modele liniowe w przeciwieństwie domodeli regresji wielorakiej, mogą posiadać zmienne nie będące ciągłymi, w szczególności zmienneklasyfikujące. Opis UML jest szczegółowo omówiony w rozdziale teoretycznym. Algorytmem używa-nym do budowania modelu będzie Least Angle Regression. Cały temat został więc przedstawionyna przykładzie procedury GLMSELECT z opcją komendy MODEL, SELECTION=LAR. Praca składa się zdwóch części. Pierwsza (rozdział 2) to omówienie zagadnień teoretycznych, a druga część (rozdziały3,4,5) ukazuje działanie procedury w praktyce.Celem budowy modelu jest znalezienie zależności pomiędzy zmienną objaśnianą a zmiennymi obja-śniającymi. Taki model daje możliwość prognozowania wartości zmiennej objaśnianej wyłącznie napodstawie zmiennych objaśniających. Ta własność znajduje szerokie zastosowanie w wycenie nie-ruchomości, przedsiębiorstw a także przy ocenie wartości wynagrodzeń i innych zmiennych którychwartość nie jest znana wprost. Celem niniejszej pracy jest przybliżenie zagadnienia regresji wielo-rakiej i uogólnionych modeli liniowych często wykorzystywanych w owych przypadkach. Zaletą jestprosta budowa i łatwa interpretacja modelu.

    1.2 Motywacja

    Motywacją naszej pracy była możliwość znalezienia odpowiedzi na interesujące nas pytania. Pierw-sze z nich - pytanie związane z naturą sportową a zarazem finansową, mogące być ciekawostką dlaosób nie zainteresowanych sportem, w odpowiedzi przedstawia przykład budowania matematyczne-go modelu mogącego realnie przydać się w pracy scouta klubu piłkarskiego, czy też w pracy osobyzajmującej się ustalaniem płac pracowników.Drugie pytanie wydaje się być istotne, dla osób interesujących się rynkiem nieruchomości w Gdań-sku, biur deweloperskich, czy osób sprzedających nieruchomość.Oba te pytania posiadają wspólną część, którą można przedstawić w formie takich pytań jak: "conajmocniej wpływa na...?", "jakie parametry decydują o ...?" , "jakie cechy najmocniej przyczyniająsię do...?". Są to bardzo ważne pytania natury poznawczej, kluczowe dla zrozumienia wielu mechani-zmów działających w życiu. Na kolejnych przykładach pokażemy, że wybranie poprawnej odpowiedzize zbioru wszystkich możliwych jest zajęciem trudnym, prowadzącym niekoniecznie do otrzymanianajlepszej - "właściwej" odpowiedzi.

    Pierwszy przykład oparty jest na bazie danych składającej się z ponad 2000 piłkarzy a konkretniebramkarzy. Baza danych zawiera 37 cech bramkarzy, takie jak: Pªaca, Wzrost, Wiek, Chwytanie,Szybko±¢, Ustawianie si¦ itd. Szczegółowy spis wszystkich cech został umieszczony w tabeli: 4.1.Pytania na które staramy się odpowiedzieć budując ten model to:

    2

  • ROZDZIAŁ 1. WSTĘP 3

    1. "Które z cech bramkarzy najbardziej wpływają na wielkość ich zarobków"

    2. "W jakim stopniu wybrane cechy wpływają na wielkość zarobków" - szukamy parametrów mo-delu regresji wielorakiej.

    Drugi przykład opiera się na aktualnych danych, z Gdańskiego rynku nieruchomości. Dane zawie-rają podstawowe informacje o nieruchomościach, takie jak powierzchnia, typ nieruchomości, cena,dzielnica nieruchomości itd. Jak widać, w odróżnieniu od pierwszego przykładu, ten przykład zawierawiele zmiennych klasyfikujących, których wykorzystanie zostanie szczegółowo omówione. Posiada-jąc takie dane oczywistymi pytaniami, które mogą się nasunąć są:

    1. "Jakie cechy nieruchomości najbardziej wpływają na jej cenę?"

    2. "Czy dana nieruchomość, jest przewartościowana czy niedowartościowana?"

    3. "Czy kluczowe cechy, będą inne dla innych typów nieruchomości?"

    Aby odpowiedzieć na zadane pytania, w obu przykładach będziemy szukać optymalnego modeluregresji wielorakiej.

  • Rozdział 2

    Zagadnienia teoretyczne

    2.1 Regresja Wieloraka

    2.1.1 Zależność między zmiennymi

    W badaniach empirycznych wykorzystujemy zmienne, czyli wielkości opisujące daną cechę, którymprzypisujemy pewne wartości na podstawie pomiaru. Badania empiryczne dzielimy na korelacyjne,czyli takie gdzie badacz pełni rolę obserwatora i nie ma wpływu na wartości zmiennych oraz ekspe-rymentalne, gdzie badacz manipuluje zmiennymi w celu znalezienia zależności. Warto zaznaczyć,że jedynie w tych drugich można dowieść zależności przyczynowo - skutkowej między zmiennymi. Wbadaniach korelacyjnych badacz nigdy nie udowodni takich zależności jednak na podstawie własnejwiedzy może wyeliminować zmienne bezużyteczne przy budowaniu modelu.

    2.1.2 Zmienne zależne i niezależne

    Zmienne niezależne to takie, których wartość możemy zmieniać, natomiast zmienne zależne mogąjedynie zostać zmierzone. Terminy te mają zastosowanie głównie w badaniach typu eksperymental-nego.

    2.1.3 Definicja

    Regresja liniowa wieloraka jest to metoda statystyczna pozwalająca analizować związki pomiędzykilkoma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą). Estymuje onawarunkową wartość oczekiwaną zmiennej losowej zależnej dla zadanego wektora zmiennych loso-wych niezależnych. Dane dla n obserwacji:

    y1 x1,1 · · · x1,p−1...

    .... . .

    ...yn xn,1 · · · xn,p−1

    xi,j – wartość j-tej zmiennej objaśniającej dla i-tego obiektuyi – wartość zmiennej objaśnianej dla i-tego obiektu.

    Wektory będziemy zapisywać w postaci kolunowej:

    xi = (xi,1, · · · , xi,p−1)′

    gdzie ′ oznacza transpozycję.Przyjmujemy, że wartości zmiennych niezależnych dla każdego obiektu są deterministyczne, zaś

    nyii=1

    4

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 5

    są wartościami zmiennych losowychn

    Yii=1

    spełniających następujące równanie:

    Dla pewnego wektora β = (β0, . . . , βp−1)′ ∈ Rp

    Yi = β0 + β1xi,1 + β2xi,2 + · · ·+ βpxi,p−1 + εi, i = 1, . . . , n

    gdzie εi - błąd o rozkładzie normalnym N (0, σ)Postać macierzowa modeluβ = (β0, . . . , βp−1)

    ′ - wektor parametrów(p× 1)ε = (ε1, . . . , εn)

    ′ - wektor błędów(n× 1)Y = (Y1, . . . , Yn)

    ′ - wektor odpowiedzi(n× 1)X - macierz eksperymentu (n× p)Równanie modelowe:

    Y = Xβ + ε (2.1) Y1...Yn

    = 1 x1,1 . . . x1,p−1... ... . . . ...

    1 xn,1 . . . xn,p−1

    β0...

    βp−1

    + ε1...

    εn

    (2.2)Problemem do rozwiązania jest dopasowanie linii prostej (lub przestrzeni n-wymiarowej w prze-

    strzeni n+1 wymiarowej, gdzie n oznacza liczbę zmiennych niezależnych) do zbioru punktów. Za-zwyczaj jako miarę błędów stosuje się sumę kwadratów odległości punktów od prostej regresji, gdyżwówczas obliczenia są najłatwiejsze - dopasowanie modelu sprowadza się do zastosowania prostejmatematycznie metody najmniejszych kwadratów. Nie sprawdza się ona jednak gdy w zbiorze uczą-cym występują elementy odstające.W przypadku gdy zależności między zmiennymi mają charakter nieliniowy, model można łatwo spro-wadzić do postaci liniowej poprzez utworzenie sztucznych zmiennych.Przykład:

    Y = β0 + β1 sinx1 + β2 log x2 + ε

    x̃1 = sinx1 x̃2 = log x1

    Podczas tworzenia modelu istotny jest wybór liczby zmiennych niezależnych, gdyż istnieje ryzykoprzetrenowania, tzn. w modelu będą brane pod uwagę nieistotne efekty które będą psuły jakośćpredykcji. Takie przypadki występują zazwyczaj gdy nie dysponujemy odpowiednią liczbą obserwacjiw zbiorze danych. Zaleca się [1] by do badań brać około 20 razy więcej obserwacji niż predyktorówwystępujących w bazie danych.

    2.1.4 Metoda najmniejszych kwadratów

    Metoda najmniejszych kwadratów pozwala na znalezienie optymalnej estymacji wektora β. Chcemyznaleźć taki wektor b = (b0, b1, ..., bp−1)′ , że Yi będzie dobrze przybliżone przez b0 + b1xi,1 +bp−1xi,p−1 i = 1, ..., n.

    Szukamu minimum funkcji kryterialnej:

    S(b) =

    n∑i=1

    (Yi − (b0 + b1xi,1 + bp−1xi,p−1))2 = (Y −Xb)′(Y −Xb).

    Wektor b minimalizujący S(b) jest estymatorem MNK wektora β.Szukamy rozwiązania równania dS(b)b = 0

    ∂bj

    n∑i=1

    (Yi −p−1∑k=0

    xikbk)2 = 0 , j = 0, ..., p− 1. (2.3)

    Stądn∑i=1

    xij

    p−1∑k=0

    xikbk =

    n∑i=1

    xijYi , j = 0, ..., p− 1. (2.4)

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 6

    WięcX′Xb = X′Y (2.5)

    O ile X′X jest odwracalna, tob = β̂ = (X′X)

    −1X′Y (2.6)

    Opracowanie na podstawie [4].

    2.2 Analiza wariancji

    Analiza wariancji jest to metoda statystyczna pozwalająca na porównywanie obserwacji zależnychod jednego lub wielu czynników. Celem analizy wariancji jest sprawdzenie czy zmienne niezależne(czynniki) mają wpływ na zmienną zależną. W zależności od rodzaju czynników stosujemy różnerodzaje analizy wariancji.Założenia:

    • niezależność obserwacji - założenie ułatwiające analizę statystyczną

    • normalność - reszty przyjmują rozkład normalny

    • homogeniczność wariancji w poszczególnych podgrupach

    Ważne pojęcia, które będą wykorzystywane w późniejszych analizach danych:

    1. MSS - suma kwadratów modelu

    MSS =

    n∑i=1

    (ŷi − ȳ)2

    ŷi - wartość prognozowana (z obecnego modelu) i-tej obserwacji zmiennej zależnej.ȳ - średnia zmiennej zależnej.

    2. SSE - suma kwadratów reszt

    SSE =

    n∑i=1

    (ŷi − yi)2

    yi - i-ta obserwacja zmiennej zależnej.

    3. SST - całkowita suma kwadratów SST = SSE +MSS

    4. DF - stopnie swobody

    5. ASE, AMS - średnie kwadratów ASE = MSSDFM ; AMS =SSEDFE

    6. statystyka F - Wartość F wyznacza prawostronny przedział krytyczny w teście. F = ASEAMS marozkład F Snedecora z DFM i DFE stopniami swobody.

    7. Wartość p - wartość testu statystycznego. Prawdopodobieństwo, otrzymania większej wartościF od obliczonej, dla zmiennej spełniającej hipotezę H0.

    8. H0 - hipoteza zerowa mówiąca o tym, że zmienna jest równa 0, a w przypadku analizy wielo-czynnikowej, że wszystkie analizowane zmienne są równe 0 z wyjątkiem wyrazu wolnego.

    9. H1 - hipoteza alternatywna mówiąca o tym, że zmienna jest różna od 0, a przy analizie wielo-czynnikowej, że przynajmniej jedna zmienna jest różna od 0.

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 7

    2.3 Ogólne modele liniowe

    Ogólne modele liniowe mogą być traktowane jako rozszerzenie regresji wielorakiej do postacigdzie zamiast jednej występuje wiele zmiennych objaśnianych. Wówczas równanie regresji mapostać: Y1,1 . . . Y1,k... . . . ...

    Yn,1 . . . Yn,k

    = 1 x1,1 . . . x1,p−1... ... . . . ...

    1 xn,1 . . . xn,p−1

    β0,1 . . . β0,k... . . . ...

    βp−1,1 . . . βp−1,k

    +

    +

    ε1,1 . . . ε1,k... . . . ...εn,1 . . . εn,k

    (2.7)Ogólny model liniowy pozwala ponadto uzyskać rozwiązanie dla współczynników regresji wprzypadku, gdy zmienne objaśniające nie są liniowo niezależne.

    2.4 Uogólnione modele liniowe

    Uogólniony model liniowy stanowi z kolei rozszerzenie Ogólnego modelu liniowego do postacigdzie:

    • zmienna objaśniana może mieć rozkład inny niż normalny (może być nawet typu skoko-wego)

    • powiązanie między zmienną objaśnianą a zmiennymi objaśniającymi nie jest postaci linio-wej

    W więlu przypadkach zmienna zależna Y nie ma rozkładu ciągłego, na przykład liczba zgonóww wyniku wypadku drogowego. Stworzony model powinien przewidywać wartości zmiennej Ywg takiego samego rozkładu. W podanym przykładzie liczba zgonów powinna być liczbą cał-kowitą.Kolejną rzeczą wpływającą na osłabienie Ogólnego modelu liniowego jest fakt, że związek mię-dzy zmienną zależną Y a zmiennymi niezależnymi może być nieliniowy. Wówczas zależnościtej zmiennej od predyktorów nie można opisać za pomocą równań liniowych.W obu przypadkach może być jednak stosowany Uogólniony model liniowy. Wówczas predyk-cja wartości zmiennej zależnej Y przebiega dzięki liniowej kombinacji zmiennych zależnychpowiązanej za pomocą funkcji wiążącej ze zmienną zależną Y.

    Równanie modelowe:l(EY) = Xβ (2.8)

    gdzie:Y = (Y1, . . . , Yn)

    ′ - wektor odpowiedzi(n× 1)X - macierz eksperymentu (n× p)l - funkcja wiążącaβ = (β0, . . . , βp−1)

    ′ - wektor parametrów(p× 1)ε = (ε1, . . . , εn)

    ′ - wektor błędów(n× 1)

    Funkcje wiążące są używane w zależności od rozkładu zmiennej Y. Podstawowe z nich to:

    • identycznościowa l(ξ) = ξ

    • inwersja l(ξ) = 1ξ

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 8

    • logarytmiczna l(ξ) = log(ξ)

    • potęgowa l(ξ) = ξa dla danego a

    • logitowa l(ξ) = log( ξ1−ξ )

    • probitowa l(ξ) = φ−1(ξ)

    • Log-log l(ξ) = −log(−log(ξ))

    • Log-log dopełnienia l(ξ) = −log(−log(1− ξ))

    gdzie φ−1 oznacza odwrotność dystrybuanty standaryzowanego rozkładu normalnego.Wartości współczynników β w UML są estymowane metodą największej wiarygodności.Przy założeniu, że funkcja wiążąca l jest monotoniczna funkcja odwrotna do l może być zdefi-niowana następująco:

    l−1(Xβ) = EY

    Wówczas model można stosować dla zmiennej zależnej Y mającej rozkład należący do rodzinyrozkładów wykładniczych.Dopasowanie funkcji wiążących do rozkładu Y :

    a) normalny: identycznościowa

    b) wykładniczy, gamma: inwersja

    c) Poissona: logarytmiczna

    d) Bernoulliego, dwumianowy: logitowa

    Należy wziąć pod uwagę, iż proc glmselect działa w strukturze uogólnionych modeli linio-wych, jednak tylko na danych które zostały wcześniej zmodyfikowane do modelu liniowego,za pomocą funkcji wiążących. Mając surowe dane np. zero jedynkowe, procedura nie stworzymodelu regresji logistycznej, do takich modeli używane są inne odpowiednie procedury.

    2.5 Least Angle Regression

    2.5.1 Opis

    Przy tworzeniu modelu regresji z wieloma zmiennymi niezależnymi, podstawowym problemem jestznalezienie optymalnego podzbioru efektów. Teoretycznie należałoby zbadać wszystkie możliwe kom-

    binacje podzbiorów efektów. Dla p zmiennych niezależnych oznaczałoby to zbudowaniep∑i=1

    (p

    i

    )mo-

    deli a następnie porównywanie ich. W celu uniknięcia problemu dużej ilości obliczeń można stosowaćróżne metody selekcji finalnego modelu. Jedną z tych metod jest LAR.Least Angle Regression (w dosłownym tłumaczeniu - regresja najmniejszego kąta) jest metodą selek-cji modelu regresji, która została opracowana i opublikowana [5] przez zespół ze Stanford Universityw 2004 roku. Metoda LAR tworzy sekwencje modeli gdzie w każdym kroku procesu selekcji do bie-żącego modelu dodawany jest jeden predyktor (podobnie jak metoda forward). Algorytm domyślniekończy się gdy wszystkie efekty zostaną wprowadzone do modelu. Główną przewagą metody LARnad innymi metodami jest względna szybkość obliczeniowa, oraz możliwość modyfikacji metody wcelu otrzymania innych (np. LASSO). Do otrzymania pełnego zbioru rozwiązań potrzebne jest tylkom kroków, gdzie m jest liczbą efektów.

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 9

    2.5.2 Oznaczenia

    Wzory (oznaczenia) ogólne Opis

    Ŷ = Xb = X(X′X)−1X′Y wektor wartości prognozowanych

    e = Y − Ŷ wektor rezyduówY średnia wektora Y

    Wzory (oznaczenia) dla k-tego kroku OpisAk aktywny podzbiór zmiennychbAk odpowiadający mu wektor współczynni-

    ków zawierający k − 1 niezerowych war-tości i jedną wartość równą zero odpo-wiadającą zmiennej włączonej do mode-lu w bieżącym kroku.

    Ŷ(k) = XAkbAk wektor wartości prognozowanych w k-tym kroku.

    ek = Y −XAkbAk wektor rezyduów w k-tym krokuδk = (X

    ′AkXAk)

    −1X′Akek kierunek zmiany bAkbAk(α) = bAk + αδk, α ∈ [0, 1] zmiana bAk

    〈xj ,Y −XAkbAk〉 = γsj , sj ∈ [−1, 1] miara korelacji zmiennej xj z obecnymirezyduami, sj - znak iloczynu skalarnego

    Tabela 2.1: Oznaczenia parametrów

    2.5.3 Algorytm

    1. Początkowe współczynniki:

    b0 = Y ,p−1∀i=1

    bi = 0

    Wszystkie predyktory są standaryzowane, tak że każdy ma średnią m = 0 i jednostkową wa-riancję. Dla zmiennej zależnej m = 0.

    2. Dla k = 1 model składa się z wyrazu wolnego - b0

    3. Do modelu dobierany jest efekt który jest najbardziej skorelowany z obecnymi rezyduami, tj.{xi /∈ Ak; |〈xi,Y −XAkbAk〉| = max

    xj /∈Ak|〈xj ,Y −XAkbAk〉|}

    4. Następuje zmiana bAk w kierunku δk, czyli: bAk(α) = bAk + αδkInnymi słowy w kierunku parametrów modelu regresji ek ∼ (Ak) wyznaczonych za pomocąMNK (gdzie zmienna która weszła do modelu w obecnym kroku xi ∈ Ak) Zmiana jest linio-wa dla wszystkich parametrów, rezydua są na bieżąco uaktualniane. Ruch zostaje przerwanyw momencie gdy któryś z pozostałych predyktorów osiągnie taką samą korelacje z obecnymirezyduami co każda zmienna będąca w modelu. Długość kroku jest określona przez α. Następ-nie do modelu zostaje dołączony predyktor który spowodował zatrzymanie ruchu i zaczyna siękolejny krok.

    5. Krok 4 jest powtarzany do momentu w którym wszystkie zmienne są w modelu.

    Warto zwrócić uwagę skąd wzięła się nazwa metody. Jeżeli Ŷ(k) jest wektorem wartości prognozo-wanych, to jego zmianę w kolejnym kroku można zapisać jako:

    Ŷ(k)(α) = Ŷ(k) + αuk, α ∈ [0, 1]

    gdzie uk - kierunek zmiany Ŷ(k), równy:

    uk = XAkδk

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 10

    ������

    ������

    ������

    ������

    � ĥ1t

    t

    tĥ2 = bA3(α) = bA3(1)

    ��������������

    ������

    ������

    ������

    ��:x1

    BBBBBBBBBBBBBBBBMx2

    x2

    BB

    BB

    BB

    BB

    BB

    BB

    BB

    BB

    BB

    BBBBM

    tbA2(α)

    u1

    bA1 = b0����������������������

    ������

    ������

    ������7

    Rysunek 2.1: Graficzna prezentacja algorytmu dla k=2

    Wektor uk tworzy najmniejszy kąt z każdym predyktorem ze zbioru Ak i wszystkie te kąty są sobierówne. Łatwiej jest to zauważyć na przykładzie graficznym.

    Na rysunku 2.1 ĥi to wektor (maksymalnych) parametrów modelu regresji ei ∼ (x1, ..., xi) wy-znaczony za pomocą MNK.Źródła pomocne przy opracowaniu algorytmu: [5] , [6].

    2.6 Kryteria informacyjne dopasowania modelu

    symbol definicjan liczba obserwacjip liczba parametrów łącznie z wyrazem wolnymσ̂2 estymowana wariancja błędu z dopasowania modelu

    SST całkowita suma kwadratów skorygowana dla średniej zmiennej zależnejSSE suma kwadratów resztASE SSEnR2 1− SSESST

    ADJRSQ 1− (n−1)(1−R2)

    n−pAIC n ln(SSEn ) + 2p

    AICC 1 + ln(SSEn ) +2(p+1)n−p−2

    BIC n ln(SSEn ) + 2(p+ 2)q − 2q2 gdzie q = nσ̂

    2

    SSE

    CP (Cp) SSEσ̂2 + 2p− n

    PRESSm∑i=1

    r2i(1− hi)2

    gdzie

    ri - reszta w i-tej obserwacjihi - wpływ i-tej obserwacji (xi(X ′X)− x′i)

    SBC n ln(SSEn ) + p ln(n)

    Tabela 2.2: Kryteria informacyjne dopasowania modelu

    W procedurze GLMSELECT wykorzystywane są następującę kryteria:

  • ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 11

    • ADJRSQ - Skorygowany współczynnik determinacji(R2).

    • AIC - Kryterium Akaikego

    • AICC - Skorygowane kryterium Akaikego

    • BIC - Kryterium Bayesowskie

    • CP - Statystyka Mallow’a

    • PRESS - Przewidywana suma kwadratów reszt

    • SBC - Kryterium Schwarza-Bayesa

    Stosuje się je do porównywania jakości kilku modeli, w których liczba zmiennych objaśniających jestróżna.

    2.7 Walidacja krzyżowa

    Walidacja krzyżowa jest metodą statystyczną polegającą na podzieleniu zbioru obserwacji na pod-zbiory i przeprowadzeniu analiz na niektórych z nich. W każdym kroku większość danych stanowizbiór uczący się a pozostała część zbioru stanowi zbiór testowy zwany także walidacyjnym. Działa-nie walidacji krzyżowej dobrze ilustruje schemat poniżej 2.7. Przyjmijmy że dzielimy zbiór obserwacjina cztery równe części. Wówczas w kroku pierwszym podzbiory A, B i C są zbiorem uczącym się na-tomiast D zaznaczony na szaro testowym. W kolejnych krokach zbiór testowy zmienia pozycję w takisposób, że w każdym kroku testowanie odbywa się na innym podzbiorze. Tak więc każda obserwacjazbioru danych jest testowana dokładnie raz. Sumując kwadraty błędów ze wszystkich zbiorów testo-wych otrzymuje się wartość przewidywanej sumy kwadratów reszt (w SAS CV PRESS). Porównująckolejne wartości tego współczynnika można znaleźć model, który będzie posiadał dobre zdolnościpredykcyjne i dla którego zjawisko przeuczenia będzie zniwelowane. Walidacja krzyżowa nie wpływana budowę modelu.

    Rysunek 2.2: Przykład walidacji krzyżowej dla k=4

  • Rozdział 3

    Selekcja modelu w SAS

    3.1 Wprowadzenie

    Celem który chcemy osiągnąć w obu przykładach jest znalezienie optymalnego uogólnionego mode-lu liniowego - modelu regresji wielorakiej. Za pomocą otrzymanych modeli będziemy mogli stwierdzićktóre ze zmiennych niezależnych, najbardziej wpływają na daną zmienną zależną. Oprócz tego, mo-dele powinny służyć do jak najlepszego przewidywania wartości zmiennej objaśnianej w zależnościod wprowadzonych cech.

    Czerpiąc inspirację z publikacji [3] SAS Institute, w przykładzie pierwszym zostanie przeprowa-dzonych 5 analiz, których wzajemne porównanie ułatwi znalezienie modelu posiadającego najlepszezdolności predykcyjne i najmniejszą ilość nieistotnych zmiennych. W analizach skorzystamy z szere-gu opcji, poszczególnych komend procedury glmselect. W każdej analizie podzielimy zbiór danychna zbiór testowy i zbiór uczący, dzięki czemu będziemy mogli monitorować zdolności predykcyjnemodelu. Jako miarę dopasowania modelu zastosujemy wybrane kryteria informacyjne które opisa-ne zostały w podrozdziale 2.6, oraz wielkość współczynnika ASE (Average Squared Error) zbioruuczącego i zbioru testowego. Dzięki temu będziemy mogli brać pod uwagę modele dobrze opisującedane, które nie brały udziału w tworzeniu modelu. Takie podejście pozwoli uniknąć sytuacji w którejwybrany model przedopasowuje dane.Analizy zaczniemy od budowy modelu najbardziej podstawowego, następnie będziemy wprowadzaćkrokowo dodatkowe opcje komend procedury. Finalnie wybór modelu będzie oparty na zestawieniuwyników poszczególnych analiz w tabeli.

    W przykładzie 2, zostaną przedstawione możliwości procedury pod kątem wykorzystywania zmien-nych klasyfikujących w modelu. Zostanie przeprowadzony szereg analiz, dzięki którym lepiej będziemożna odpowiedzieć na pytania zawarte we wstępie 1.2. W odróżnieniu od pierwszego przykładu,początkowy zbiór z powodu posiadania stosunkowo małej liczby obserwacji nie będzie podzielony nazbiór uczący i testowy. W tej sytuacji miarą przeuczenia modelu będzie kryterium CV PRESS związa-ne z walidacją krzyżową. Jest to tym bardziej istotne, iż model powinien jak najlepiej interpretowaćzmienne które nie brały udziału w jego budowie, powinien jak najlepiej przewidywać wartość danejnieruchomości i takie podejście w tym wypadku jest priorytetowe. Szczegóły tego podejścia, jak isamego kryterium zostaną omówione przy poszczególnych analizach.

    12

  • ROZDZIAŁ 3. SELEKCJA MODELU W SAS 13

    3.2 proc glmselect

    3.2.1 Opis procedury

    Procedura GLMSELECT [7] jest narzędziem do budowania modeli regresji w strukturze OgólnychModeli Liniowych - GLM. Po wywołaniu tworzy ona sekwencję modeli za pomocą danej metody.Zawiera 6 metod selekcji modelu. Są to:

    • none

    • forward

    • backward

    • stepwise

    • LASSO

    • LAR

    Procedura umożliwia stosowanie dodatkowych narzędzi pozwalających na wybranie optymalnegomodelu, takie jak stopowanie selekcji - zatrzymanie procesu selekcji w momencie gdy wybrane kry-terium określone przez (stop=) osiągnie pierwsze minimum (maksimum) lokalne. Innym narzędziemwyboru modelu jest (choose=), gdzie finalny model jest modelem w którym wybrane kryterium osiągaminimum (maksimum) globalne. Wybór kryterium wejścia bądź wyjścia efektu z modelu określa opcja(select=). Opcja ta jest niedostępna w metodach LAR i LASSO. Istnieje możliwość ustalenia ilościkroków jaka ma zostać wykonana w selekcji (steps=) i wiele innych.W porównaniu z innymi procedurami odpowiadającymi za regresję w SAS jak proc glm czy procreg, proc glmselect umożliwia stosowanie różnych metod selekcji modelu (niedostępne w procglm), jak i stosowanie komendy class (niedostępne w proc reg). Jest to więc najbardziej rozbudo-wana procedura jeśli chodzi o selekcję modeli regresjii. Z drugiej strony proc glmselect nie posiadanarzędzi niezbędnych do diagnozowania wybranego modelu (np. testowania hipotez), narzędzia teposiadają dwie wymienione wcześniej procedury. Należy więc stosować proc glmselect do wyborumodelu bądź zbioru modeli, które następnie można diagnozować w innych procedurach.Rezultaty które zwraca procedura to:

    • Model Information

    • Number of Observations

    • Dimensions

    • Step Details

    • Model Building Summary

    • Selected Model

    Szczegóły rezultatów zostaną omówione przy pierwszej analizie.

  • ROZDZIAŁ 3. SELEKCJA MODELU W SAS 14

    3.2.2 Syntax

    PROC GLMSELECT ;

    BY variables;

    CLASS variable

    ;

    EFFECT name=effect -type (variables );

    FREQ variable;

    MODEL variable=;

    MODELAVERAGE ;

    OUTPUT ;

    PARTITION ;

    PERFORMANCE ;

    SCORE ;

    STORE item -store -name ;

    WEIGHT variable;

    Główne składowe procedury glmselect to:

    • GLMSELECT data=... - polecenie wywołujące procedurę, oraz wskazujące na zbiór danych naktórym będą przeprowadzane analizy

    – plots=

    • MODEL - komenda w której określa się zmienną zależną oraz zmienne niezależne które mająbyć rozpatrywane przy wyborze modelu.

    – selection=

    – stop=

    – choose=

    – steps=

    – lscoeffs

    Wszystkie inne dostępne opcjonalnie komendy oraz ich wybrane opcje które są używane w pracy:

    • BY - za pomocą tego polecenia można szukać osobnych modeli względem pewnej zmiennej.

    • CLASS - przetwarza zmienną klasyfikującą na zmienne liczbowe. W SAS dostępnych jest wielemetod kodowania zmiennych klasyfikujących.

    • EFFECT - umożliwia stworzenie nowej zmiennej złożonej z kilku innych zmiennych.

    • FREQ - stwarza możliwość powielania wybranych obserwacji, wykorzystując zmienną zawiera-jącą wagi.

    • MODELAVERAGE - otwiera możliwość alternatywnego sposobu estymowania parametrów mode-lu. Model jest tworzony daną ilość razy dla losowo wybranych (za każdym razem) obserwacjiz podstawowego zbioru treningowego. Przedstawiane są statystyki występowania danych pre-dyktorów w wybranych modelach, oraz statystyki ich parametrów.

    – sampling=

    • OUTPUT - pozwala stworzenie zbioru wynikowego składającego się ze zbioru wejściowego i zwybranych statystyk dla każdej obserwacji.

    • PARTITION - istnieje możliwość podzielenia zbioru wejściowego na zbiór uczący, zbiór testowyi zbiór walidacji.

  • ROZDZIAŁ 3. SELEKCJA MODELU W SAS 15

    – role=

    • PERFORMANCE - umożliwia ustalenie parametrów sprzętowych (np. możliwość równoległego ob-liczania gdy używana jest komenda BY)

    • SCORE - tworzy zbiór danych zawierający przewidywane wartości dla obserwacji z określonegozbioru.

    • STORE - statystyki otrzymywane w rezultatach mogą być zapisane do dalszej analizy, np. wprocedurze proc plm.

    • WEIGHT - umożliwia przypisanie zmiennym niezależnym wag.

  • Rozdział 4

    Przykład 1

    4.1 Dane

    Dane analizowane w pierwszym przykładzie pochodzą z bazy danych studia Sports Interactive wyko-rzystanej w grze Football Manager 2011. Baza ta jest największą piłkarską bazą danych na świecie[2].Oznaczenia zmiennych w modelu:

    Symbole Opis Symbole OpisPlaca tygodniowa płaca Wzrost -

    Placalog ln(Placa) Rzu WyrzutyAgr Agresja Wkp WykopyBly Błyskotliwość WdP Wyjścia do piłkiZwi Zwinność Wsp WspółpracaZna Znaczenie Wiek -Chw Chwytanie Wal WalecznośćDec Decyzje Waga -Det Determinacja Ust Ustawianie sięEks Ekscentryczność Tec TechnikaGbP Gra bez piłki Szb SzybkośćGnP Gra na przedpolu NSp Naturalna sprawnośćGPP Gra z pierwszej piłki Sko SkocznośćJnJ Jeden na jednego Sil SiłaKom Komunikacja Row RównowagaKnc Koncentracja Psp PrzyspieszenieKre Kreatywność Ref RefleksOpa Opanowanie Pwd PrzewidywanieWyt Wytrzymałość Pst Piąstkowanie

    Tabela 4.1: P.1 Tabela cech bramkarzy

    Formalnie, w przykładzie 1 szukamy więc optymalnego modelu regresji wielorakiej w postaci:

    Placalog = b0 + b1 · Agr + b2 · Bly + b3 · Zwi + ...+ b36 · Pst (4.1)

    Założenia ogólne analiz w przykładzie 1:

    • Zmienna Wiek mierzona jest w latach, Wzrost w centymetrach, Waga w kilogramach, Placa wEuro, a wszystkie pozostałe zmienne wyrażone są w skali [0, 20] z krokiem = 1

    • Obserwacje z początkowego zbioru danych są podzielone na zbiór testowy (25%) i zbiór uczący(75%)w taki sposób, że po posortowaniu wszystkich obserwacji względem zmiennej Placa, co czwar-

    16

  • ROZDZIAŁ 4. PRZYKŁAD 1 17

    ta obserwacja należy do zbioru testowego. Wyjątkiem jest ostatnia analiza w przykładzie (nr.6).

    • Ponieważ zmienna "Placa" posiada rozkład zbliżony do wykładniczego, dokonana zostałatransformacja logarytmiczna tej zmiennej. Nowa zmienna oznaczana jest jako placalog. Wanalizach zamiast standardowej zmiennej, będzie użyta zmienna placalog. Badany modeljest więc określony w strukturze UML.

    4.2 Analiza 1 - (stop=none)

    W pierwszej analizie zostanie rozpatrzony model składający się ze wszystkich dostępnych efektów.W tym celu należy użyć opcji (stop=none) określającej brak stopowania selekcji. Wybrany model jestwięc modelem otrzymanym w ostatnim kroku selekcji modelu. Warto zwrócić uwagę, iż otrzymany wten sposób model za pomocą algorytmu LAR, jest jednocześnie modelem otrzymanym za pomocąpełnego rozwiązania MNK. Można domyślać się że model z dużą ilością zmiennych niezależnychmoże być podatny na przedopasowanie. SAS w wyniku procedury wyświetla liczną ilość tabel.

    W pierwszej z nich:

    Rysunek 4.1: P.1 (stop=none) - Informacje o modelu, Liczba obserwacji, Wymiary

    zawarte są takie informacje jak: nazwa zbioru zawierającego dane poddawane analizie, nazwazmiennej zależnej czy nazwa metody selekcji modelu. Przedstawiona jest liczba obserwacji we wczy-tanym zbiorze i liczba obserwacji która używana jest do dalszej analizy. Liczby te różnią się od siebie- przyczyną jest fakt, iż pewna liczba bramkarzy z podstawowego zbioru nie posiada klubu. W ichprzypadku pozycja odpowiadająca za płacę jest pusta. W związku z tym te obserwacje nie mogą

  • ROZDZIAŁ 4. PRZYKŁAD 1 18

    być wykorzystywane do budowy modelu. Podana jest również liczba obserwacji zbioru testowego iuczącego. Jak widać 5402159 ≈ 0.25.W tabelce Dimensions przedstawiona jest liczba efektów wykorzystywanych w modelu i liczba para-metrów równania regresji. Jeden z efektów odpowiada za wyraz wolny. Parametry to efekty brane poduwagę w procesie selekcji, liczba ta różni się najczęściej przy używaniu zmiennych klasyfikujących.

    Rysunek 4.2: P.1 (stop=none) - Krok 1

    Kolejną częścią raportu otrzymanego w wyniku procedury jest Step Details gdzie prezentowa-ne są szczegóły danego kroku algorytmu. Krok w którym do modelu dodawany jest wyraz wolny b0w SAS jest krokiem zerowym. Na rysunku 4.2 widać szczegóły dla kroku k=1 gdzie dodana zostałazmienna Sil. W tabelce Analiza Wariancji - ANOVA widoczne są takie parametry jak suma kwa-dratów modelu (MSS) czy suma kwadratów reszt (SSE), stopnie swobody modelu i reszt i średnie ichkwadratów (ASE i AMS). Wartość F oznacza iloraz wariancji wyjaśnianej przez model i wariancji niewyjaśnianej.

    W kolejnej tabelce przedstawione są statystyki dopasowania modelu, istotnymi współczynnika-

  • ROZDZIAŁ 4. PRZYKŁAD 1 19

    mi są R-Square (współczynnik determinacji) określający jaka część zmienności zmiennej objaśnia-nej wyjaśniana jest przez model regresji. Adj R-Square to dopasowany współczynnik R-Square.Przedstawione są również statystyki kryteriów informacyjnych dopasowania modelu. ASE (train) iASE (test) to średni błąd kwadratowy w zbiorze uczącym i w zbiorze testowym. Wszystkie z war-tości widocznych w tej tabelce, podobnie jak wartość F dostępne są w zestawieniu całego procesuselekcji. Ostatnia tabelka przedstawiona na rysunku nosi nazwę "Oceny parametrów" i zawiera war-tości parametrów równania regresji dla danego kroku. W rozumieniu wcześniej podanego algorytmubyłby to wektor: bAk(α) = bAk + αδk, α ∈ [0, 1] dla ustalonego już α.

    Rysunek 4.3: P.1 (stop=none) - Podsumowanie

  • ROZDZIAŁ 4. PRZYKŁAD 1 20

    Tabelka LAR Selection Summary 4.3 to zestawienie całego procesu selekcji. Tabela gromadziwszystkie wartości poszczególnych parametrów otrzymanych w każdym z kroków selekcji. Dodatko-wo w tabeli zamieszczony jest parametr Pr.>F (inaczej nazywany wartością p), odnoszący się doanalizy wariancji. Dla standardowego poziomu istotności α = 0.05 widać, że wszystkie parametrywprowadzone do modelu od kroku k = 30 nie spełniają hipotezy H0. Warto zwrócić uwagę na zmien-ną ASE (train) i ASE (test). Wartości ASE (test) w kroku k=32 osiągają minimum lokalne, coświadczy o tym, że model staje się przedopasowany w kolejnym kroku.Poniżej tabeli, zamieszczona jest informacja o powodzie zatrzymania procesu selekcji. W przypadkutej analizy selekcja została przerwana ponieważ wszystkie efekty zostały umieszczone w modelu.

    Następną częścią rezultatów 4.4 są 2 występujące razem wykresy. Pierwszy z nich to wykresstandaryzowanych współczynników w zależności od liczby kroków selekcji.

    Rysunek 4.4: P.1 (stop=none) - Wykres standaryzowanych współczynników

    Przedstawia on względną ważność predyktorów w danym procesie selekcji, na tym wykresie moż-na więc znaleźć odpowiedź na pytanie: "Które cechy najbardziej wpływają na zmienną Y", w naszymprzypadku: "Które cechy najbardziej wpływają na zarobki bramkarzy". Jeśli weźmiemy pod uwagęostatni krok otrzymamy: Chw, Wsp i Ref. Dla zmiennej Ref standaryzowany współczynnik wynosi wprzybliżeniu 0.11, szczegółowe wartości tych współczynników można uzyskać poprzez opcję stb ko-mendy model. Sposób interpretacji tego współczynnika jest następujący: zmiana parametru Ref owartość odchylenia standardowego tej zmiennej powoduje zmianę zmiennej Placalog o 0.11 odchy-lenia standardowego zmiennej Placalog. Innymi słowy te współczynniki to współczynniki równaniaregresji dla wszystkich zmiennych ustandaryzowanych (wraz ze zmienną zależną) tj. x̂i =

    xi−x̄isxi

    .Drugim wykresem występującym pod wykresem standaryzowanych współczynników jest wykres wy-branego parametru w zależności od liczby kroków selekcji. Jeżeli żaden parametr nie został wybrany(określony przez choose= bądź inne opcje) wtedy wyświetlana zostaje zależność dla AICC.

  • ROZDZIAŁ 4. PRZYKŁAD 1 21

    Rysunek 4.5: P.1 (stop=none) - Panel kryteriów

    Rysunek 4.6: P.1 (stop=none) - Wykres ASE

  • ROZDZIAŁ 4. PRZYKŁAD 1 22

    Panel kryteriów 4.5 - przedstawia zmianę współczynników dopasowania modelu w zależnościod ilości kroków w selekcji. Na panelu, " * " w danym kroku oznacza osiągnięcie najmniejszej (dlaskorygowanego współczynnika determinacji - największej) wartości danego kryterium. Jest to infor-macja o tym w którym kroku selekcji model jest najlepiej dopasowany względem danego kryterium,np. wybierając choose=aic wybrany model byłby modelem z 30 kroku selekcji.

    Kolejnym wykresem umieszczanym w rezultatach jest wykres przyrostu średnich błędów kwadra-towych dla zbioru uczącego i zbioru testowego 4.6. Warto zwrócić uwagę na fakt, iż od kroku k = 10ASE zbioru testowego spada wolniej niż ASE zbioru uczącego. ASE zbioru uczącego jest w każdymprzypadku wartością monotonicznie malejącą, ASE zbioru testowego nie ma takiej własności - odpewnego kroku może zacząć monotonicznie rosnąć, takie zjawisko oznacza przeuczenie (przedopa-sowanie) danego modelu. Z tabelki podsumowującej 4.3 wiadomo, że ASE zbioru testowego osiągaminimum lokalne w kroku k = 32 czego nie widać na wykresie graficznym. W tej analizie mimo iżASE zbioru testowego osiąga minimum lokalne przed ostatnim krokiem, to minimum globalne osią-ga w ostatnim kroku. Różnice wartości ASE dla ostatnich kroków są niewielkie, więc w przyszłychanalizach większą rolę mogą mieć inne aspekty, takie jak liczba zmiennych nieistotnych w modelu.

    Ostatnią częścią zwracaną przez SAS w rezultacie procedury są szczegóły dotyczące wybranegomodelu 4.7.

    Rysunek 4.7: P.1 (stop=none) - Wybrany model

    Pierwszą informacja to krok selekcji w którym wybrany był finalny model. Następnie wypisanesą wszystkie efekty które zawiera ostateczny model. Przedstawiana jest również tabelka z analiząwariancji - ANOVA dla wybranego modelu oraz szczegółowe statystyki, które zostały opisane przyanalizie rezultatów z poszczególnych kroków 4.2.

  • ROZDZIAŁ 4. PRZYKŁAD 1 23

    Rysunek 4.8: P.1 (stop=none) - Parametry modelu

    Drugą przedstawioną informacją są wyestymowane parametry b modelu. Największe wartościparametrów mają cechy Chw - chwytanie i Ref - refleks. Warto zwrócić uwagę na problem ocenyważności parametrów, nie wszystkie zmienne podane są w tej samej skali a więc danego parametrudla zmiennej Wzrost nie można bezpośrednio porównać z parametrem np. zmiennej Ref. Należywyświetlić i porównać wszystkie parametry dla standaryzowanych zmiennych 4.4. Co ciekawe cechąktóra posiada ujemny parametr jest Eks - ekscentryczność.

  • ROZDZIAŁ 4. PRZYKŁAD 1 24

    4.3 Analiza 2 - (stop=cp)

    W drugiej analizie zastosowana zostanie opcja (stop=) a kryterium stopującym będzie współczyn-nik Cp - Statystyka Mallow’a. Do pracy poświęconej algorytmowi LAR [5], dołączona jest "dyskusja"w której poruszane są problemy związane z selekcją modelu. Współczynnik Mallow’a uznany jestza jedno z najpopularniejszych kryteriów, branych pod uwagę przy wyborze optymalnego podzbioruzmiennych niezależnych. Ma on jednak również swoje wady, często na jego podstawie wybieranyjest model ze zbyt dużą ilością parametrów. Dlatego też jak sugerują autorzy publikacji, w kolejnychanalizach weźmiemy pod uwagę również inne kryteria. Opcja (stop=) sprawia iż selekcja modelu

    Rysunek 4.9: P.1 (stop=cp) - Szczegóły stopowania

    zostaje przerwana na k-tym kroku w momencie kiedy k + 1 krok dałby większą wartość wybranegokryterium. Proces selekcji jest więc w tym przypadku bliźniaczy z selekcją w pierwszej analizie, różnisię tylko finalnie wybranym modelem. Analizując po raz kolejny tabelkę podsumowującą z pierwszejanalizy 4.3 można zauważyć, iż pierwsze lokalne minimum kryterium Cp zostaje osiągnięte w krokuk = 30. Co więcej te lokalne minimum jest zarówno globalnym minimum kryterium, co oznacza iżotrzymamy taki sam model dla opcji (stop=cp) co dla opcji (stop=none choose=cp). W odróżnie-niu od poprzedniej analizy, w rezultatach procedury pojawiła się dodatkowo część Stop details -szczegóły stopowania.

    Jak widać na załączonym rysunku 4.9 po włączeniu do modelu kolejnej zmiennej - NSp wartośćCp zwiększyłaby się. Był to bezpośredni powód zatrzymania procesu. Na panelu kryteriów 4.10, który

    Rysunek 4.10: P.1 (stop=cp) - Panel kryteriów

    jest po prostu "uciętym" panelem kryteriów z pierwszej analizy 4.5, widać, że dla k = 30 nie tylko Cp

  • ROZDZIAŁ 4. PRZYKŁAD 1 25

    osiąga najlepszą wartość ale także wszystkie inne kryteria oprócz SBC. Co ciekawsze, wybrany w tensposób model pozbywa się wielu nieistotnych zmiennych z punktu widzenia testu ANOVA 4.11.

    Rysunek 4.11: P.1 (stop=cp) - Zmienne nieistotne

    Rysunek 4.12: P.1 (stop=cp) - Wybrany model

    Jedyną zmienną zawartą w modelu która w teście przekracza domyślny poziom istotności α =0.05 jest Agr z wartością testu 0.1028. Szczegóły wybranego w tej analizie modelu zaprezentowanesą na rys. 4.12. Porównując krótko oba wybrane do tej pory modele (1 model 4.7) możemy zauwa-żyć, iż obecny model ma większą wartość F i odpowiednio lepsze wartości kryteriów. Wartości ASEsą nieznacznie większe (gorsze) zarówno dla zbioru uczącego jak i testowego. Stosunek poprawywartości parametrów F, Adj R-Sq itd. do pogorszenia wartości ASE jest więc zadowalający. Biorąc

  • ROZDZIAŁ 4. PRZYKŁAD 1 26

    pod uwagę fakt, iż oprócz znalezienia modelu mającego najmniejszą wartość ASE celem jest rów-nież znalezienie modelu posiadającego stosunkowo małą ilość zmiennych niezależnych, na obecnympoziomie analiz można faworyzować model z drugiej analizy.

    4.4 Analiza 3 - (stop=none choose=sbc)

    W trzeciej analizie, wybrany zostanie model mający najlepszą wartość kryterium Schwarza-Bayesa.W ten sposób zostanie uwieńczony pomysł który powstał przy budowaniu drugiego modelu. W mode-lu nie będzie już żadnych zmiennych których wartość Pr. > F jest większa od ustalonego poziomuα = 0.05. Inaczej mówiąc model wybrany w trzeciej analizie nie będzie zawierał żadnych nieistotnychw stosunku do zmiennej Placalog zmiennych.Przy okazji warto opisać zachowanie procedury w przypadku gdy zadane są dwie opcje (stop=choose=). W takim przypadku SAS wybierze model który jako pierwszy spełni którąkolwiek z opcji.Wpisując (choose=...) należy pamiętać, że SAS będzie brał pod uwagę również domyślną wartośćdla (stop=), czyli będzie to inaczej (stop=sbc choose=...). Jeżeli istnieje potrzeba użycia tylkoopcji (choose=), należy to zrobić w sposób zaprezentowany w tej analizie.Wszystkie rezultaty otrzymane w tej analizie są bliźniaczo podobne do tych z pierwszej analizy. Klu-czowe są wartości parametrów wybranego modelu 4.13:

    Rysunek 4.13: P.1 (stop=none choose=sbc) - Wybrany model

    Co ciekawe model wybrany w kroku k = 29 posiada mniejszy współczynnik ASE dla zbiorutestowego niż poprzedni model z drugiej analizy. Co więcej statystyka Mallows’a tak jak w poprzedniejanalizie jest poniżej wielkości stopni swobody modelu. Oznacza to wciąż bardzo dobre dopasowaniemodelu również pod względem tego kryterium. Model poza tym ma największą z dotychczasowychwartość F.

  • ROZDZIAŁ 4. PRZYKŁAD 1 27

    4.5 Analiza 4 - (stop=none choose=cv) cvMethod=Split(10)

    W kolejnej analizie, zostanie wprowadzony nowy, dodatkowy współczynnik (kryterium) CV PRESS uży-wany w procesie decyzyjnym zatrzymywania procesu selekcji. Kryterium ocenia przede wszystkimzdolność predykcyjną modelu. Związane jest ono z odrębną metodą statystyczną - walidacją krzyżo-wą opisaną w rozdziale teoretycznym. Należy pamiętać, iż walidacja krzyżowa nie wpływa na budowęmodelu. W poleceniu cvMethod=Split(10) zawarta jest informacja o metodzie podzielenia zbioruuczącego na k = 10 podzbiorów. W metodzie Split kolejne podzbiory składają się z podanych ob-serwacji: {1, k + 1, 2k + 1, 3k + 1, ...}, {2, k + 2, 2k + 2, 3k + 2, ...}, ..., {k, 2k, 3k, ...}.Oprócz takiej metody podziału zbioru uczącego dostępne są również metody Random(k) gdzie przy-dział do podzbiorów jest losowy i Block(k) gdzie pierwszy podzbiór składa się z obserwacji: {1, 2, ..., bn/kc}itd. Wybór k = 10 jest zmotywowany tym iż jest to jedna z dwóch sugerowanych [6] liczb stosowaniak-krotnej walidacji.

    Wspomniane kryterium CV PRESS to skrótowy zapis Cross Validation Predicted Residual

    Sum of Squares, obliczane jakok∑i=1

    SSEi, gdzie SSEi to suma kwadratów reszt dla i-tego pod-

    zbioru, modelu otrzymanego z pozostałych podzbiorów. CV PRESS obliczane jest dla każdego krokuprocesu selekcji i jest umieszczane w tabelce podsumowującej proces. Ponieważ kryterium oceniazdolność predykcyjną modelu, logicznym posunięciem wydaje się przeanalizowanie modelu dla któ-rego wartość ta jest globalnie najmniejsza. Z tego powodu w tej analizie sprecyzowane zostały opcje:(stop=none choose=cv), gdzie cv jest stosowanym w SAS skrótem od CV PRESS.

    Rysunek 4.14: P.1 (stop=none choose=cv) - Panel kryteriów

    Po za włączeniem tych opcji, przy okazji użycia walidacji krzyżowej została włączona równieżopcja cvdetails=all, dzięki której na każdym kroku procesu selekcji, pokazywane są szczegółyzachowania podzielonych k-podzbiorów.

    Po wprowadzeniu cvdetails=all SAS zwraca w każdym kroku selekcji dwie tabelki, na rys 4.15przedstawiona jest pierwsza z nich. Jest to tabelka z pierwszego kroku selekcji, w tabelce widaćpodział k-podzbiorów. Jako iż dane uczące zawierają 1619 obserwacji, w ostatnim 10 podzbiorze

  • ROZDZIAŁ 4. PRZYKŁAD 1 28

    Rysunek 4.15: P.1 (stop=none choose=cv) - Szczegóły walidacji krzyżowej krok 1

    danych jest 161. Dla każdych k-podzbiorów została obliczona statystyka CV PRESS, szczegóły obli-czania tej statystyki można znaleźć na drugiej tabelce 4.16 :

    Rysunek 4.16: P.1 (stop=none choose=cv) - Parametry walidacji krzyżowej krok 1

    Informacja przyniesiona wraz z tą tabelką jest bardzo istotna w zrozumieniu działania algorytmuLAR. Jak widać na załączonym rysunku dla każdego k-tego podzbioru, konstruowany jest model zobserwacji znajdujących się w pozostałych podzbiorach. Otrzymany w pierwszym kroku parametr -Intercept, który jest wyrazem wolnym b0 modelu, jest inny dla ogólnego modelu i inny dla modeliskonstruowanych w k-podzbiorach. W tym momencie można zauważyć, że SAS działając algoryt-mem LAR, wykonuje pewne dodatkowe niewidoczne na pierwszy rzut oka obliczenia. Mianowiciealgorytm na podstawie opracowania w rozdziale teoretycznym 2.5.3 działa w ten sposób, iż na po-czątku zmienna zależna jest centrowana, a zmienne niezależne są standaryzowane. Algorytm działawięc na tak stworzonych "sztucznych" zmiennych, SAS przedstawia za to wyniki parametrów któremogą być używane na "oryginalnych" danych. Wykonywane są przez to dwie operacje, pierwsza znich to centrowanie zmiennej zależnej i predyktorów oraz standaryzowanie predyktorów. Na tak przy-gotowanych zmiennych wykonywany jest algorytm, po czym na końcu każdego kroku procesu selekcji(dla otrzymanego α) wykonywana jest druga operacja, przekształcająca otrzymane parametry b̆ napożądane parametry b. Formalny przykład transformacji dla k = 2 kroku.

    y̆ = y − ȳ , x̆1 =x1 − x̄1sx1

    b̆0 = ¯̆y = 0

    y̆ = b̆0 + b̆1 · x̆1

  • ROZDZIAŁ 4. PRZYKŁAD 1 29

    gdzie sx1 to estymowane z próby odchylenie standardowe danej zmiennej. Przekształcając rów-nanie otrzymamy:

    y̆ = b̆0 + b̆1 · x̆1

    y − ȳ = b̆1 ·x1 − x̄1sx1

    y =b̆1sx1· x1 −

    b̆1sx1· x̄1 + ȳ

    b1 =b̆1sx1

    , b0 = ȳ −b̆1sx1· x̄1

    w ogólności dla k-zmiennych:

    bk =b̆ksxk

    , b0 = ȳ −k∑i=1

    b̆isxi· x̄i

    Warto zauważyć, iż w algorytmie stosuje się standaryzację zmiennych niezależnych aby używaćiloczynu skalarnego jako miary korelacji zmiennych z obecnymi rezyduami.

    Wracając do parametrów walidacji krzyżowej, należy zauważyć oprócz powyższego jeszcze jednąrzecz, która zobrazowana została na kolejnym rysunku 4.17:

    Rysunek 4.17: P.1 (stop=none choose=cv) - Parametry walidacji krzyżowej krok 2

    Parametr zmiennej Sil dla kroku k = 2 wynosi b1 = 0.00611. Parametry równania regresji

    e2 ∼ (A2) = e2 ∼ (Sil) (4.2)

    wyznaczone za pomocą MNK wynoszą: η0 = −2.568836, η1 = 0.30484. Można więc zauważyć, iżα ≈ 0.02004, ponieważ zmiana jest liniowa dla wszystkich parametrów w modelu: b0 ≈ 6.300556 +0.02004 · −2, 568836 = 6, 249065.

    Inaczej sytuacja przedstawia się dla modeli estymowanych w walidacji krzyżowej. Przy budowaniutych modeli zastosowana jest zmodyfikowana wersja algorytmu LAR. Zmienna która w danym krokujest wprowadzana do modelu jest co prawda zmienną wyznaczoną przez algorytm działający przybudowie głównego modelu, jednak w odróżnieniu od głównego modelu, dla walidacji krzyżowej wkażdym przypadku α = 1 czyli parametry uzyskiwane są za pomocą MNK. Można to zauważyćbadając współczynniki modelu regresji

    ĕ2 ∼ (Ă2) = ĕ2 ∼ ( ˘Sil)

    wyznaczone za pomocą MNK: η̆0 = 0, η̆1 = 1.3349. Jak widać równość współczynników α dla głów-nego modelu i modeli otrzymywanych przy walidacji krzyżowej nie jest zachowana. Zastosowaniezmodyfikowanego w ten sposób algorytmu LAR jest możliwe również dla głównych obliczeń parame-trów. Ta kwestia zostanie omówiona w kolejnej analizie.

    Po przeanalizowaniu sposobu obliczania CV PRESS przez SAS, można zbadać szczegóły otrzy-manego w ten sposób modelu. Jak widać na rysunku 4.14 optymalny model pod kątem wprowadzo-nego kryterium uzyskiwany jest w kroku k = 24. Szczegóły wybranego w 24 kroku modelu prezentujerysunek 4.18. Co prawda wartość F wybranego modelu jest największą wartością spośród wszystkich

  • ROZDZIAŁ 4. PRZYKŁAD 1 30

    dotychczas wybranych, jednak wszystkie inne wartości kryteriów są gorsze. Cp przekracza dwukrot-ność liczby stopni swobody modelu co dyskwalifikuje ten model pod kątem tego kryterium. Ponadtomożna zaobserwować największą do tej pory różnicę między ASE z obecnego modelu a ASE z modelugdzie wartość ta była najmniejsza czyli z modelu otrzymanego w pierwszej analizie. O ile w poprzed-niej analizie, przyrost ASE (był to dotychczas największy przyrost) wyniósł 0.7477−0.74500.7450 ≈ 0.3% o tyleprzy obecnie wybranym modelu wynosi on 0.7734−0.74500.7450 ≈ 3.8%. Można więc powiedzieć, że takawartość ASE jest niezadowalająca. Sytuacja ma się analogicznie do ASE ze zbioru testowego. DlacvMethod=Split(5) (alternatywna proponowana liczba podzbiorów) cała analiza wygląda niemalidentycznie.

    Rysunek 4.18: P.1 (stop=none choose=cv) - Wybrany model

  • ROZDZIAŁ 4. PRZYKŁAD 1 31

    4.6 Analiza 5 - (stop=none choose=cp) lscoeffs

    W czwartej analizie, przy okazji omawiania walidacji krzyżowej przedstawiony został wniosek, iż efek-ty w każdym kroku dla modeli ze zbiorów walidacji wyznaczane były za pomocą algorytmu LAR (takjak główny zbiór uczący) ale ich współczynniki obliczane były za pomocą MNK a nie w sposób przed-stawiony w LAR. W tej analizie zaprezentowana zostanie właśnie taka, hybrydowa wersja LAR dlabudowy głównego modelu.

    Taką zmodyfikowaną wersje algorytmu LAR uzyskuje się poprzez opcję lscoeffs, co jest skró-tem od Least Squares Coefficients. Początkowy krok w którym zostaje dodany parametr b0 jest

    Rysunek 4.19: P.1 (stop=none choose=cp) lscoeffs - krok 1

    identyczny. Pierwszą różnicę widać na rysunku 4.19 w tabelce "Ocena parametrów", w porównaniuz pierwszym krokiem niezmodyfikowanej wersji algorytmu 4.2, współczynniki różnią się od siebie. Wpierwszym kroku hybrydowej wersji LAR został poczyniony pełen krok (α = 1) w kierunku parame-trów równania regresji przedstawionego we wcześniejszej analizie 4.2.

  • ROZDZIAŁ 4. PRZYKŁAD 1 32

    Rysunek 4.20: P.1 (stop=none choose=cp) lscoeffs - Podsumowanie

    W związku ze zmianą sposobu obliczania parametrów, zmieniają się również wartości wszystkichwspółczynników i kryteriów otrzymywanych wraz z każdym krokiem procesu selekcji 4.20. Wartościkryteriów otrzymywane wraz z modelami budowanymi za pomocą hybrydowej wersji algorytmu osią-gają optymalne wartości wcześniej niż przy poprzednich analizach. W tej analizie kryterium użytym dowybrania finalnego modelu jest globalne minimum Cp. Jak widać na podsumowaniu, " * " zaznaczonajest dla Cp przy kroku k = 24.

    Na rysunku 4.21 widać, że optymalna wartość Cp osiągana jest w tym samym kroku co optymal-ne wartości AIC, AICC, BIC oraz PRESS. Ostatni współczynnik nie był używany we wcześniejszychanalizach, jest to współczynnik otrzymywany przy walidacji krzyżowej n-krotnej gdzie n jest liczbąobserwacji zbioru. Taka walidacja nosi nazwę Leave-one-out co w dosłownym tłumaczeniu ozna-cza "zostaw jeden poza". Do k-tego podzbioru danych uczących włączane są wszystkie oprócz k-tejobserwacji, a ta obserwacja tworzy zbiór testowy. Następnie sumy kwadratów reszt z n-zbiorów te-stowych są sumowane i w ten sposób powstaje PRESS.

  • ROZDZIAŁ 4. PRZYKŁAD 1 33

    Rysunek 4.21: P.1 (stop=none choose=cp) lscoeffs - Kryteria dopasowania

    Rysunek 4.22: P.1 (stop=none choose=cp) lscoeffs - Ewaluacja współczynników

  • ROZDZIAŁ 4. PRZYKŁAD 1 34

    Współczynnik ten zostaje obliczony domyślnie, przy określeniu hybrydowego algorytmu LAR, mi-mo iż w przykładzie walidacja krzyżowa nie była włączona przez żadną opcję. Skorygowany współ-czynnik determinacji osiąga swoją optymalną wartość w kroku k = 29 jednak dla kroku k = 24 jeston wciąż najwyższy spośród wszystkich wybranych dotychczas modeli.

    Na panelu standaryzowanych współczynników4.22 wyraźnie widać bardziej "agresywne" podej-ście takiego algorytmu, szczególnie dla początkowych kroków. Po wprowadzeniu wszystkich zmien-nych do modelu - czyli dla ostatniego z modeli otrzymane współczynniki równają się współczynnikomotrzymanym w ostatnim kroku procesu selekcji niezmodyfikowanego algorytmu LAR. Porównując

    Rysunek 4.23: P.1 (stop=none choose=cp) lscoeffs - ASE

    wykresy ASE dla hybrydowego algorytmu 4.23 i dla niezmodyfikowanego 4.6, można stwierdzić iżhybrydowa wersja algorytmu szybciej od standardowej osiąga lepsze dopasowanie. Pierwszy krokgdzie wartość ASE < 1 dla algorytmu zmodyfikowanego jest osiągnięta już dla k = 6, podczas gdyw standardowej wersji algorytmu k = 14. W związku z tym wyniki testów statystycznych ANOVA dlawprowadzanych zmiennych znacznie się różnią. Dla hybrydy LAR, model jest szybciej dopasowy-wany - dobrze wyjaśniany przez mniejszą ilość zmiennych. Dlatego też, większość predyktorów odkroku k = 23 okazuje się być nieistotna dla modelu.

    Wybrany model, czyli model z kroku k = 24 osiąga najwyższe dotychczas wartości F i standary-zowanego współczynnika determinacji. Wartość Cp jest mniejsza od stopni swobody modelu co ozna-cza bardzo dobre dopasowanie pod kątem tego kryterium. Wartości ASE dla tak wybranego modelusą nieznacznie gorsze niż w najlepszym dotychczasowym modelu. Widoczna jest również różnicaw testach statystycznych ANOVA, i wybrany w ten sposób model, dla poziomu istotności α = 0.05zawiera jedną nieistotną dla modelu zmienną - Szb.

  • ROZDZIAŁ 4. PRZYKŁAD 1 35

    Rysunek 4.24: P.1 (stop=none choose=cp) lscoeffs - Wybrany model

  • ROZDZIAŁ 4. PRZYKŁAD 1 36

    4.7 Analiza 6 - (stop=none choose=cp) modelaverage

    W ostatniej analizie zostanie przedstawione inne podejście do uzyskania parametrów równania re-gresji. We wszystkich poprzednich analizach, zbiór danych podzielony był na zbiór uczący (75%) izbiór testowy (25%). Podział był stały więc w każdej z analiz, model konstruowany był na tym samympodzbiorze danych. W tej analizie do otrzymania optymalnych parametrów zostanie wybranych 100modeli, budowanych na losowo wybranych obserwacjach z łącznego zbioru. Tak więc ze wszystkichdanych, każdorazowo zostanie wylosowany zbiór zawierający 1619 obserwacji (wciąż 75% obser-wacji całego zbioru, wylosowane obserwacje nie będą mogły się powtarzać), i każdorazowo spo-śród modeli otrzymanych w procesie selekcji zostanie wybrany ten dla którego wartość Cp będzienajmniejsza. Następnie parametry tak wybranych modeli zostaną uśrednione. W podstawowych in-

    Rysunek 4.25: P.1 (stop=none choose=cp) modelaverage - Podstawowe informacje

    formacjach 4.25 otrzymanych w rezultacie zdefiniowanej w ten sposób procedury, oprócz znanychinformacji pojawia się również informacja o metodzie samplowania (wybierania danych uczących),procentowej wielkości każdorazowo wybranego podzbioru, oraz liczby przeprowadzanych prób (licz-by wybranych modeli). Wybrana metoda Simple Random Sampling ustala iż, obserwacje wybieranesą bez powtórzeń. Alternatywną dla tej metody jest metoda Unrestricted Random Sampling, gdziewybrane obserwacje mogą się powtarzać, ustala się wtedy liczebność zbioru uczącego.

    W związku z wielokrotnością wyboru modelu, SAS zwraca statystyki opisujące częstość wystą-pień danych predyktorów w modelach 4.26. W przypadku tak wielu zmiennych niezależnych, szcze-góły lepiej przedstawia tabelka 4.27, jednak już z załączonego rysunku widać że tylko około dwietrzecie predyktorów znajdowała się w każdym wybranym modelu.

  • ROZDZIAŁ 4. PRZYKŁAD 1 37

    Rysunek 4.26: P.1 (stop=none choose=cp) modelaverage - Najpopularniejsze predyktory

    Rysunek 4.27: P.1 (stop=none choose=cp) modelaverage - Częstotliwość predyktorów

  • ROZDZIAŁ 4. PRZYKŁAD 1 38

    Zarówno rysunek jak i tabelka zawierają tylko te predyktory które pojawiły się w więcej niż dwu-dziestu modelach, w tym przypadku są to wszystkie predyktory. Porównanie tej informacji z modelemwybranym w podsumowaniu przykładu, będzie mogło pomóc w ocenie wpływu z góry narzuconegopodziału na zbiór testowy i uczący na wybór danych predyktorów. Kolejna tabelka 4.28 przedstawia

    Rysunek 4.28: P.1 (stop=none choose=cp) modelaverage - Liczebność wyborów modeli

    liczebność wybranych modeli. Można zauważyć, iż wybrane modele bardzo rzadko się powtarzały, 2najczęstsze modele pojawiły się tylko po 3 razy. W sumie pojawiło się więc aż 88 różnych od siebiemodeli, wszystkie wybrane na podstawie tego samego kryterium, gdzie jedyną różnicą był począt-kowy podzbiór danych. Analizując tą tabelkę, wzrasta więc świadomość trudności wyboru, jedynegonajlepszego modelu. Należy jednak zauważyć, iż różnice w tych modelach są niewielkie, i najczęściejróżnią się od siebie o zmienne które są prawdopodobnie mało istotne dla danego modelu. Trzeba pa-miętać również o tym, iż modele w tym przykładzie zostały wybrane na podstawie Cp - współczynnikaczęsto używanego przy metodzie LAR, jednak co zostało pokazane w poprzednich analizach, niezawsze najlepszego. Ostatnie dwie tabelki zwracane w rezultatach przez SAS odnoszą się do para-metrów wybranych modeli.

  • ROZDZIAŁ 4. PRZYKŁAD 1 39

    Rysunek 4.29: P.1 (stop=none choose=cp) modelaverage - Statystyki parametrów

    Pierwsza z nich 4.29 przedstawia statystyki wyestymowanych parametrów, czyli średnią, odchy-lenie standardowe i kwartyle. Porównanie wybranego finalnie modelu ze średnimi wartościami para-metrów otrzymanych w tej analizie pozwoli stwierdzić czy wybrany finalnie model zbudowany był naodpowiednim podzbiorze danych.

    Druga z tabelek 4.30 przedstawia histogramy czyli estymowane rozkłady dla 9 pierwszych para-metrów. Parametry występują w tabelkach w kolejności odpowiadającej częstości pojawiania się ichw wybranych modelach. Porównując wszystkie z tabelek można stwierdzić, iż estymowane rozkładydla parametrów efektów pojawiających się najczęściej mają rozkłady zbliżone do normalnego.

  • ROZDZIAŁ 4. PRZYKŁAD 1 40

    Rysunek 4.30: P.1 (stop=none choose=cp) modelaverage - Rozkłady parametrów

    Przy użyciu komendy modelaverage SAS nie wyświetla szczegółów finalnie wybranego modelu,a jedynie średnie parametry. Dlatego też, szósta analiza traktowana jest jako dodatkowe porównanie,i alternatywną koncepcję wyznaczania parametrów modelu.

  • ROZDZIAŁ 4. PRZYKŁAD 1 41

    4.8 Podsumowanie analiz

    Po 6 przeprowadzonych analizach, nadszedł czas na podsumowanie i wybranie jednego, najlep-szego modelu. Dla ułatwienia wyboru, poniżej 4.2 sporządzona została tabelka podsumowująca, znajważniejszymi parametrami wybranego w każdej z analiz modelu. (L. ef. (Pr. > F) > 0.05) ozna-cza liczbę efektów w danym modelu dla których wartość testu statystycznego ANOVA przekroczyłapoziom istotności α = 0.05. (L. ef. < 95%) oznacza liczbę efektów w danym modelu których częstośćwystępowania w przeprowadzonej w 6 analizie symulacji wyniosła mniej niż 95%. Dodany został rów-nież współczynnik Cp/DF, gdyż wiele publikacji zaleca przy stosowaniu LAR wybieranie modeli dlaktórych wartość takiego współczynnika jest mniejsza od 1.

    Współczynnik Analiza 1 Analiza 2 Analiza 3 Analiza 4 Analiza 5

    DF 36 30 29 24 24Wartość F 160.07 192.32 198.65 230.59 240.30Adj R-Sq 0.7797 0.7801 0.7799 0.773 0.7802

    AIC 1218.39659 1209.65122 1210.36621 1255.02397 1202.94929AICC 1220.27254 1210.98288 1211.61636 1255.90588 1203.83120BIC -398.87379 -408.02705 -407.45727 -364.68775 -415.15155Cp 37.00000 28.18345 28.84396 73.36503 21.37935

    Cp/DF 1.028 0.939 0.9946 3.057 0.8908SBC -203.18955 -244.27229 -248.94688 -231.23693 -283.31161

    ASE (Train) 0.74499 0.74649 0.74774 0.77342 0.74894ASE (Test) 0.80653 0.80750 0.80747 0.82483 0.81274

    L. ef.(Pr. > F)> 0.05 7 1 0 0 1

    L. ef. < 95% 10 4 3 1 1

    Tabela 4.2: P.1 Zestawienie wybranych modeli

    Najlepszymi kandydatami na optymalny model są modele otrzymane w analizie 3 oraz 5. Mo-del otrzymany w piątej analizie czyli model otrzymany z hybrydowej wersji algorytmu LAR, posiadanajlepsze wartości dla wszystkich możliwych kryteriów. Jednak jak widać, model który teoretycznieposiada najlepsze wartości kryteriów, posiada gorszą od modelu trzeciego wartość ASE zarówno wzbiorze uczącym jak i testowym, co więcej model z analizy trzeciej, nie zawiera w sobie zmiennychdla których (Pr.>F)> 0.05 , w przeciwieństwie do modelu 5. Wadą trzeciego modelu, w zestawieniu zpiątym, jest za to większa liczba zmiennych. W momencie wdrażania modeli tego typu do realnych sy-tuacji, często może okazać się, że model "potrzebujący" większą liczbę danych, więcej też kosztuje.W realnej sytuacji, gdy priorytetem jest uzyskanie najlepszego możliwego modelu przy danym limiciekosztów, model 5 wydaje się być wciąż bardzo dobrym rozwiązaniem. Finalnie jednak, wybrany wtym przykładzie optymalny model to model z analizy 3.

  • ROZDZIAŁ 4. PRZYKŁAD 1 42

    Wybrany więc finalnie model posiada następujące parametry:

    Rysunek 4.31: P.1 - Parametry wybranego modelu

    Dzięki opcji stb komendy MODEL standaryzowane współczynniki zostają wyświetlane obok wy-estymowanych parametrów modelu. Pięcioma najbardziej wpływającymi na zarobki bramkarzy czyn-nikami (według wybranego modelu) są:

    1. Chwytanie

    2. Współpraca

    3. Refleks

    4. Siła

    5. Ustawianie się

    Wśród tych efektów największe przewidywane wartości zmiennej zależnej osiągają zmienne Chwy-tanie i Refleks. Wartości tych parametrów znacznie wyróżniają się na tle pozostałych. Porównującparametry wybranego modelu ze średnimi parametrami otrzymanymi w ostatniej analizie 4.29 moż-na stwierdzić, iż nie występują żadne znaczące anomalie w wybranym modelu. Podział początkowychdanych zastosowany we wszystkich analizach wydaje się więc być "bezpieczny".

  • ROZDZIAŁ 4. PRZYKŁAD 1 43

    4.9 Wybrany model - zastosowania

    W ostatnim podrozdziale przykładu pierwszego, zostaną przedstawione przykładowe zastosowaniaotrzymanego modelu.

    Pierwszym z nich jest znalezienie obserwacji "niedocenionych". Za pomocą komendy SCORE, dlawskazanego zbioru danych, (w przypadku tego przykładu zbioru początkowego) obliczane są warto-ści zmiennej zależnej przy użyciu otrzymanego modelu. Dla lepszego zobrazowania sytuacji oblicza-na zmienna - Placalog, zostanie przetransformowana do zmiennej Placa. Na rysunku 4.32 zostały

    Rysunek 4.32: P.1 - Zastosowania

    obliczone wartości zmiennej zależnej dla pierwszych trzydziestu obserwacji z początkowego zbio-ru danych (zmienna placao to przetransformowana z powrotem zmienna p_Placalog). Jak widać,wszystkie z występujących obserwacji mają większe wartości zmiennej zależnej, od tych otrzymanychprzez model. Wiąże się to z faktem, iż wariancja możliwości płacowych wśród wszystkich klubów naświecie jest bardzo duża w porównaniu z wariancją "możliwości" bramkarzy. Najlepsze kluby piłkar-skie są w stanie płacić bardzo dużo najlepszym bramkarzom, których cechy mogą niekiedy być tylkonieznacznie lepsze od bramkarzy zarabiających kilkanaście razy mniej. Można więc powiedzieć, żenajlepiej zarabiający bramkarze, zarabiają często kilka (a nawet kilkanaście) razy za dużo w stosunkudo ich umiejętności.

  • ROZDZIAŁ 4. PRZYKŁAD 1 44

    Kwintesencją zastosowania modelu, jest jednak poniższy przykład przedstawiony na rysunku 4.33.Bramkarz zajmujący w bazie danych miejsce n = 1047 czyli Juan Castillo, zarabia w swoim obec-

    Rysunek 4.33: P.1 - Okazja

    nym klubie (liga chilijska) około 17 razy mniej niż mógłby zarabiać dzięki swoim umiejętnościom.Nie wiadomo czy dany bramkarz chciałby przenieść się na inny kontynent za 17 razy większa płacę(choć prawdopodobnie tak) ale ta informacja, może być ciekawa dla klubów chociażby z bogatszej ligibrazylijskiej. Na podobnej zasadzie mogą działać analogiczne modele np. na rynku nieruchomości.

  • Rozdział 5

    Przykład 2

    5.1 Dane

    Baza danych wykorzystywana w tym przykładzie zawiera 12 zmiennych i 203 obserwacji. Składa sięz ofert sprzedaży nieruchomości umieszczanych w serwisie otodom w okresie kwiecień-maj 2014roku. Oznaczenia zmiennych w modelu:

    Symbol Opiscena cena nieruchomości [tys. PLN]

    cenalog ln(cena)id numer nieruchomości

    pow powierzchnia użytkowa [m2]pow_dzialk powierzchnia działki [m2]

    l_pok liczba pokoipietro piętro

    dzielnica dzielnicatyp typ nieruchomości

    rodz_bud rodzaj budynkurok_bud rok budowy

    zrodl pośrednik nieruchomościfreq waga

    Tabela 5.1: P.2 Tabela cech nieruchomości

    Zmienne pow, pow_dzialk, l_pok, pietro, rok_bud, cena są zmiennymi numerycznymi. Zmien-na freq to zmienna wagowa przeznaczona dla komendy FREQ. Przypisuje ona częstość występowa-nia danej obserwacji w porównaniu z innymi. Jeśli wartość tej zmiennej nie jest liczbą całkowitą toprogram bierze pod uwagę podłogę z tej liczby, a jeśli liczba ta jest mniejsza od 1 lub w ogóle niejest podana to program pomija tę obserwację. Dzięki wprowadzeniu tej zmiennej model staje się bar-dziej rzeczywisty (zmienna jest stworzona proporcjonalnie do ilości podobnych do danej obserwacjiogłoszeń, nie umieszczonych w bazie). Zmienna id nie będzie użyta w modelu. Pozostałe zmienneto predyktory jakościowe, zostaną one użyte jako zmienne klasyfikujące.

    5.1.1 Komenda CLASS

    Ponieważ, analizowane w tym przykładzie dane zawierają wiele zmiennych klasyfikujących, w kolej-nych analizach używana będzie komenda CLASS.

    Objaśnienia zmiennych klasyfikujących:

    45

  • ROZDZIAŁ 5. PRZYKŁAD 2 46

    • dzielnica - dzielnica Gdańska w której znajduje się nieruchomość. Wyróżniamy: Przymorze,Matarnia, Ujeścisko, Morena, Zakoniczyn, Sródmieście, Stogi, Osowa, Orunia, Żabianka, Oli-wa, Zaspa, Jasień, Siedlce, Przeróbka, Jelitkowo, Łostowice, Chełm, Kiełpinek, Suchanino, Ko-koszki, Niedźwiednik, Piecki, Strzyża, Klukowo, Kowale, Poza(miejscowości poza Gdańskiemponiżej 10 km do centrum Gdańska)

    • typ - typ nieruchomości. Wyróżniamy : m(mieszkanie), d(dom).

    • rodz_bud - rodzaj budynku, który jest na sprzedaż bądź jego część. Wyrózniamy: blok, kamie-nica, apartament, woln(dom wolnostojący), szer(szeregowiec), bliz(bliźniak).

    • zrodl - agencja, która pośredniczy w sprzedaży nieruchomości. Wyróżniamy: wittman, metro-house, facedom, lc, vesta, homebroker, północ, homeasset, forma-t, Pawlikowska, Tyszkiewicz,Waszkiewicz, M&M, cichyport, Geraszek, bi, kthome, pryw(ogłoszenie prywatne).

    Komenda CLASS umożliwia zmiennym klasyfikującym (w tym przypadku tekstowym) udział w bu-dowaniu modelu. Aby tego dokonać tworzona jest parametryzacja tych zmiennych. Przy korzystaniuz algorytmu LAR, SAS domyślnie dla zmiennych klasyfikujących wprowadza opcję split, co ozna-cza że każda klasa każdej zmiennej, traktowana jest jako osobna zmienna (w postaci określonejprzez sposób parametryzacji danej zmiennej klasyfikującej). W kolejnych przykładach zostanie zapre-zentowanych kilka opcji parametryzacji zmiennych klasyfikujących i zostaną opisane różnice międzyposzczególnymi kodowaniami. Liczba efektów, które będą brane pod uwagę przy budowie modelubędzie więc większa niż liczba zmiennych niezależnych w zbiorze danym. Dzięki użyciu komendyCLASS można uzyskać informację o wpływie dzielnicy na cenę nieruchomości.

    5.1.2 Wybór początkowych zmiennych

    Przed przystąpieniem do analiz należy przypomnieć, że do tworzenia modelu nie zawsze warto uży-wać wszystkich zmiennych znajdujących się w początkowej bazie danych. Tak jest i w tym przypadku.Często zdarza się, że dany pośrednik nieruchomości bądź agencja działa na pewnym terenie, bądźpośredniczy przy sprzedaży tylko bardzo drogich mieszkań i apartamentów. Oznacza to, że zmien-ne w pewnym sensie się dublują i uwzględniając zależność przyczynowo skutkową można pominąćzmienną zrodlo. Gdyby jednak istniała potrzeba dostrzeżenia różnic między pośrednikami działają-cymi na tym samym terenie, baza danych musiałaby być znacznie większa niż ta, która jest używanaw analizach.

    Drugim istotnym założeniem, jest używanie transformacji logarytmicznej na zmiennej cena, jakoiż ceny nieruchomości w stosunku do ich parametrów najczęściej nie zmieniają się liniowo. Stosunekten lepiej opisuje funkcja wykładnicza, podobnie jak miało to miejsce w przykładzie pierwszym.

    W przykładzie 2 szukamy więc optymalnego uogólnionego modelu regresji w postaci:

    cenalog = b0 + b1 · pow + b2 · pow_dzialk + ...+ bp−1 · rodz_bud_woln (5.1)

  • ROZDZIAŁ 5. PRZYKŁAD 2 47

    5.2 Analiza 1 - (stop=none choose=cv) cvMethod=Split(5)

    Ponieważ modelowanie cen nieruchomości, wykonuje się najczęściej po to by prawidłowo ocenić ryn-kową wartość danej nieruchomości, w każdej z analiz kluczowym kryterium wyboru modelu będzie jaknajlepsze dopasowanie modelu do zmiennych które nie brały udziału przy jego budowie. Ponieważzbiór jest zbyt mały aby podzielić go na podzbiór uczący i testowy, w każdym z przykładów zosta-nie zastosowana walidacja krzyżowa z przedstawianą wcześniej jako jedną z najlepszych wartościąk = 5. Kluczowym kryterium przy wyborze modelu będzie więc CV PRESS opisany szczegółowo przyjednej z analiz 4.5 przykładu pierwszego. Metoda walidacji krzyżowej wykorzystywana w kolejnychanalizach to podobnie jak w pierwszym przykładzie Split.

    Podstawowe informacje odnośnie procesu selekcji zaprezentowane zostały na rysunku 5.1.

    Rysunek 5.1: P.2 (stop=none choose=cv) Podstawowe informacje

    Rysunek 5.2: P.2 (stop=none choose=cv) Zmienne klasyfikujące

    Oprócz wszystkich omawianych wcześniej informacji, pojawiła się informacja o zmiennej posiada-jącej wartości frekwencji dla danej obserwacji, w tym wypadku jest to zmienna freq. Mimo że baza

  • ROZDZIAŁ 5. PRZYKŁAD 2 48

    danych posiada 202 obserwacji, po uwzględnieniu frekwencji, można powiedzieć iż model będziebudowany na 3298 obserwacjach.

    Kolejną nie spotykaną we wcześniejszych analizach informacją, jest ta zamieszczona na ry-sunku 5.2. Jest to informacja o poziomach klasyfikacji zmiennych klasyfikujących. Wymienione sąwszystkie możliwe wartości poszczególnych zmiennych. Poniżej tej tabelki, przedstawiona jest tabel-ka z wymiarami. Liczba efektów jest równa 9, gdyż podobnie jak w pierwszym przykładzie, jeden zefektów jest odpowiedzialny za wyraz wolny. Wyświetlana jest również liczba efektów po "splitowa-niu" która jest równa liczbie rozważanych parametrów. Wartości te są zależne od sposobu kodowa-nia zmiennych klasyfikujących. W rozważanym tutaj przypadku wykorzystany jest domyślny sposóbkodowania zmiennych klasyfikujących, czyli param=glm, opcja komendy CLASS. Szczegóły takiegokodowania przedstawione zostały na rysunku 5.3: Na rysunku przedstawione jest kodowanie meto-

    Rysunek 5.3: P.2 (stop=none choose=cv) Szczegóły param=GLM

    dą GLM (model przeparametryzowany) dla zmiennych rodz_bud i typ. W tej metodzie kodowaniadla p wartości zmiennych klasyfikujących powstaje p zmiennych zero-jedynkowych (oznaczone ja-ko zmienne planu). I tak zmienna typ dla wartości d kodowana jest jako (1, 0) a dla m jako (0, 1).Kodowanie zmiennych klasyfikujących tym sposobem prowadzi do tego że rz{X} < k gdzie k jestliczbą zmiennych niezależnych w macierzy. W związku z tym do obliczenia macierzy (X′X)−1 trzebastosować dodatkowe metody. Takie podejście wydaje się być mniej oszczędne od alternatywnego po-dejścia określanego przez opcję param=effect. Ta metoda kodowania zmiennych klasyfikujących,nazywana metodą z sigma-ograniczeniami została przedstawiona na rysunku 5.4. Różnicą tej me-tody jest to iż do zakodowania zmiennej klasyfikującej posiadającej p wartości, potrzebne jest p − 1zmiennych. W tym przypadku do zakodowania zmiennej typ użyta jest jedna zmienna (o mylącejnazwie) typ_d. Ujemny parametr tej zmiennej, będzie oznaczał iż ceny mieszkań w bazie danychsą średnio większe od cen domów. Analogicznie ma się sytuacja dla drugiej zmiennej klasyfikującejwidocznej na rysunku. Informacja o parametrze rodz_bud =woln znajduje się we wszystkich nowostworzonych pięciu zmiennych. Jeśli parametr zmiennej rodz_bud_apartament okaże się mniejszyod zera, będzie oznaczało to iż rodz_bud =woln są średnio droższe niż rodz_bud =apartament,itd. Widoczna jest również różnica między tabelkami "wymiary" dla różnych metod kodowania. W tymprzypadku liczba efektów po "splitowaniu" jest mniejsza o liczbę używanych w selekcji zmiennychklasyfikujących czyli 3. Oprócz zaprezentowanych tutaj sposobów kodowania zmiennych klasyfiku-jących, w SAS dostępnych jest wiele innych, podobnych metod kodowania, w wyniku których dlap poziomów tworzonych jest najczęściej p − 1 zmiennych, lecz w odróżnieniu od param = effectzmienna dwupoziomowa może być kodowana w inny sposób, np. jako jedna zmienna o wartościach(1) i (2) dla kodowania wielomianowego.

  • ROZDZIAŁ 5. PRZYKŁAD 2 49

    Rysunek 5.4: P.2 (stop=none choose=cv) Szczegóły param=effect

    Warto mieć również na uwadze fakt, iż dla param=glm mimo iż tworzą się 42 efekty, ostatni krokselekcji to k = 39, SAS aby obliczyć macierz (X′X)−1 pozbywa się z niej kolumn liniowo zależnych, wkonsekwencji np. dla zmiennej typ w modelu zwracanym w ostatnim kroku nie istnieją dwie zmiennetyp_d i typ_m, lecz tylko jedna z tych zmiennych. Wtedy rzeczywisty sposób kodowania tej zmiennejto nie (1, 0) i (0, 1), lecz po prostu (1)i(0). Należy zwracać szczególną ostrożność przy interpretacjiotrzymanych współczynników modelu.

    Wybór metody kodowania zmiennych klasyfikujących mimo iż teoretycznie nie powinien wpływaćna proces selekcji, w przypadku algorytmu LAR, ma duże znaczenie co zostanie zobrazowane naponiższym przykładzie.

    Niech metodą kodowania zmiennych klasyfikujących będzie param=effect i niech

    X =

    1 0 0

    0 0 1

    0 1 0

    −1 −1 −1−1 −1 −1

    będzie wektorem obserwacji, gdzie 3 kolumny A1, A2, A3 odpowiadają trzem zmiennym powstałymprzez zakodowanie zmiennej klasyfikującej A danym sposobem. Liczba obserwacji dla uproszczeniaprzykładu jest równa 5. Niech

    ek =

    3

    −20

    −20

    będzie wektorem obecnych rezyduów w danym kroku procesu selekcji. Ponieważ LAR używa zmien-

  • ROZDZIAŁ 5. PRZYKŁAD 2 50

    nych standaryzowanych macierz, brana pod uwagę w procesie selekcji to:

    X ≈

    1.603567451 0.267261242 0.267261242

    0.267261242 0.267261242 1.603567451

    0.267261242 1.603567451 0.267261242

    −1.069044968 −1.069044968 −1.069044968−1.069044968 −1.069044968 −1.069044968

    Korelacje zmiennych z obecnymi rezyduami prezentują się więc następująco:

    |〈A1, ek〉| ≈ 6.4

    |〈A2, ek〉| ≈ 2.4

    |〈A3, ek〉| ≈ 0.3

    Następnie niech metodą kodowania zmiennej klasyfikującej będzie domyślna opcja param=glm,wtedy

    X =

    1 0 0

    0 0 1

    0 1 0

    0 0 0

    0 0 0

    po standaryzacji:

    X =

    2 −0.5 −0.5−0.5 −0.5 2−0.5 2 −0.5−0.5 −0.5 −0.5−0.5 −0.5 −0.5

    Korelacje zmiennych z obecnymi rezyduami prezentują się tym razem następująco:

    |〈A1, ek〉| = 8

    |〈A2, ek〉| = 0.5

    |〈A3, ek〉| = 4.5

    O ile w obu przypadkach zmienną wprowadzoną do modelu byłaby A1 o tyle kolejnym naturalnymkandydatem w pierwszym przypadku byłby A2 a w drugim przypadku A3. Gdyby więc selekcja za-kończyła się za 2 kolejne kroki, modele zbudowane by były z innych zmiennych. Dla param=effectdo modelu zostałaby wprowadzona zmienna "odpowiadająca" obserwacji (0, 1, 0), dla której wartośćrezyduów wynosi 0, nie zostałaby za to wprowadzona zmienna "odpowiadająca" obserwacji (0, 0, 1),dla której wartość rezyduów wynosi −2, więc która lepiej wyjaśnia obecne rezydua. Z tego wynika iżkodowanie drugim sposobem czyli param=glm przynosi w tej sytuacji lepsze rezultaty, i ten sposóbkodowania zmiennych klasyfikujących będzie użyty w kolejnych analizach.

  • ROZDZIAŁ 5. PRZYKŁAD 2 51

    Proces selekcji w pierwszej analizie przebiega więc następująco 5.5.

    Rysunek 5.5: P.2 (stop=none choose=cv) Wykres standaryzowanych współczynników

    Rysunek 5.6: P.2 (stop=none choose=cv) Panel kryteriów

  • ROZDZIAŁ 5. PRZYKŁAD 2 52

    Jak widać na rysunku, współczynnik CV PRESS osiąga swoje globalne minimum w kroku k = 11,co więcej widoczne jest znaczne przeuczenie modelu dla kolejnych kroków. Więc mimo iż pozostałekryteria wskazywałyby na późniejsze zatrzymanie procesu selekcji 5.6 to należy pamiętać o priory-tecie ustalonym przy poszukiwaniu optymalnego modelu, czyli jak najlepszej zdolności predykcyjnejmodelu.

    Zanim zostaną przedstawione szczegóły tak wybranego modelu, warto zwrócić uwagę na standa-ryzowane współczynniki zmiennej klasyfikującej rodz_bud 5.7. Należy pamiętać iż ponieważ klasa

    Rysunek 5.7: P.2 (stop=none choose=cv) Współczynniki dla zmiennej parametryzowanej

    rodz_bud_blok jest kodowana jako wektor zerowy, każda z utworzonych zmiennych zawiera infor-macje nie tylko o odpowiadającej jej klasie, ale także o klasie rodz_bud_blok. Odczytując standa-ryzowane współczynniki można dostrzec iż jeśli rodz_bud = woln to cena nieruchomości spadao dany parametr, w przeciwieństwie do rodz_bud = blok gdzie pozostaje ona bez zmian. Standa-ryzowane współczynniki pokazują więc w dobry sposób wpływ danego rodzaju budynku na cenęnieruchomości.

    Rysunek 5.8: P.2 (stop=none choose=cv) Wybrany model

    Wybrany w tej analizie model 5.8 to model z kroku k = 11. Co prawda wartości kryteriów dla tegomodelu, np. Cp są bardzo słabe, jednak kierując się ustalonymi priorytetami nie ma sensu szukaćkompromisu w tej sytuacji.

    Wartości współczynników wybranego modelu oraz ich standaryzowanych odpowiedników przed-stawione są na poniższym rysunku 5.9. Jak widać, najistotniejszymi zmiennymi wpływającymi na

  • ROZDZIAŁ 5. PRZYKŁAD 2 53

    Rysunek 5.9: P.2 (stop=none choose=cv) Współczynniki wybranego modelu

    cenę nieruchomości są:

    1. l_pok

    2. pow

    3. pietro - negatywnie

    4. rodz_bud_apartament

    5. dzieln_przerobka - negatywnie

    6. dzieln_orunia - negatywnie

    O ile dwie pierwsze zmienne raczej nie budzą zaskoczenia, o tyle znacząca standaryzowana wartośćparametru zmiennej pietro jest zaskakująca. Sytuacja ta może wynikać z tego iż w bazie danych,zmienna pietro dla typ = d wynosi 0, aby