PROC GLMSELECT selection=LAR · 2014. 6. 12. · cv - Walidacja krzyzowa (˙ ang. Cross Validation) ANOVA - Analiza wariancji (ang. ANalysis Of VAriance) Cp - Statystyka Mallow’a

PROC GLMSELECT selection=LAR

Bartosz Szymecki Damian Wróblewski

Gdańsk, 2014

Spis treści

Spis treści i

1 Wstęp 21.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Motywacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Zagadnienia teoretyczne 42.1 Regresja Wieloraka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Zależność między zmiennymi . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.2 Zmienne zależne i niezależne . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.3 Definicja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.4 Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Analiza wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Ogólne modele liniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Uogólnione modele liniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5 Least Angle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5.1 Opis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5.2 Oznaczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.5.3 Algorytm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.6 Kryteria informacyjne dopasowania modelu . . . . . . . . . . . . . . . . . . . . . . . . 102.7 Walidacja krzyżowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Selekcja modelu w SAS 123.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2 proc glmselect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2.1 Opis procedury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2.2 Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Przykład 1 164.1 Dane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Analiza 1 - (stop=none) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Analiza 2 - (stop=cp) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.4 Analiza 3 - (stop=none choose=sbc) . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5 Analiza 4 - (stop=none choose=cv) cvMethod=Split(10) . . . . . . . . . . . . . . 274.6 Analiza 5 - (stop=none choose=cp) lscoeffs . . . . . . . . . . . . . . . . . . . . . 314.7 Analiza 6 - (stop=none choose=cp) modelaverage . . . . . . . . . . . . . . . . . . 364.8 Podsumowanie analiz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.9 Wybrany model - zastosowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5 Przykład 2 45

i

SPIS TREŚCI ii

5.1 Dane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.1.1 Komenda CLASS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.1.2 Wybór początkowych zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2 Analiza 1 - (stop=none choose=cv) cvMethod=Split(5) . . . . . . . . . . . . . . . 475.3 Analiza 2 - by=typ (stop=none choose=cv) . . . . . . . . . . . . . . . . . . . . . . 535.4 Wybrany model - zastosowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6 Podsumowanie 58

Bibliografia 59

Spis rysunków 60

Spis tabel 62

Kody programów 63Przykład 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Przykład 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

SPIS TREŚCI 1

WYKAZ WAŻNIEJSZYCH OZNACZEŃ I SKRÓTÓW

GLM - Ogólne Modele Liniowe (ang. General Linear Models)UML - Uogólnione Modele linoweLAR - ang. Least Angle RegressionMNK - Metoda najmniejszych kwadratówcv - Walidacja krzyżowa (ang. Cross Validation)ANOVA - Analiza wariancji (ang. ANalysis Of VAriance)Cp - Statystyka Mallow’a.czcionka maszynowa oznacza element kodu programu, bądź pojęcia związanego z algorytmem

Rozdział 1

Wstęp

1.1 Wprowadzenie

Praca poświęcona jest zagadnieniu modelowania regresji wielorakiej z rozszerzeniem do uogólnio-nych modeli linowych, przy pomocy programu SAS. Uogólnione modele liniowe w przeciwieństwie domodeli regresji wielorakiej, mogą posiadać zmienne nie będące ciągłymi, w szczególności zmienneklasyfikujące. Opis UML jest szczegółowo omówiony w rozdziale teoretycznym. Algorytmem używa-nym do budowania modelu będzie Least Angle Regression. Cały temat został więc przedstawionyna przykładzie procedury GLMSELECT z opcją komendy MODEL, SELECTION=LAR. Praca składa się zdwóch części. Pierwsza (rozdział 2) to omówienie zagadnień teoretycznych, a druga część (rozdziały3,4,5) ukazuje działanie procedury w praktyce.Celem budowy modelu jest znalezienie zależności pomiędzy zmienną objaśnianą a zmiennymi obja-śniającymi. Taki model daje możliwość prognozowania wartości zmiennej objaśnianej wyłącznie napodstawie zmiennych objaśniających. Ta własność znajduje szerokie zastosowanie w wycenie nie-ruchomości, przedsiębiorstw a także przy ocenie wartości wynagrodzeń i innych zmiennych którychwartość nie jest znana wprost. Celem niniejszej pracy jest przybliżenie zagadnienia regresji wielo-rakiej i uogólnionych modeli liniowych często wykorzystywanych w owych przypadkach. Zaletą jestprosta budowa i łatwa interpretacja modelu.

1.2 Motywacja

Motywacją naszej pracy była możliwość znalezienia odpowiedzi na interesujące nas pytania. Pierw-sze z nich - pytanie związane z naturą sportową a zarazem finansową, mogące być ciekawostką dlaosób nie zainteresowanych sportem, w odpowiedzi przedstawia przykład budowania matematyczne-go modelu mogącego realnie przydać się w pracy scouta klubu piłkarskiego, czy też w pracy osobyzajmującej się ustalaniem płac pracowników.Drugie pytanie wydaje się być istotne, dla osób interesujących się rynkiem nieruchomości w Gdań-sku, biur deweloperskich, czy osób sprzedających nieruchomość.Oba te pytania posiadają wspólną część, którą można przedstawić w formie takich pytań jak: "conajmocniej wpływa na...?", "jakie parametry decydują o ...?" , "jakie cechy najmocniej przyczyniająsię do...?". Są to bardzo ważne pytania natury poznawczej, kluczowe dla zrozumienia wielu mechani-zmów działających w życiu. Na kolejnych przykładach pokażemy, że wybranie poprawnej odpowiedzize zbioru wszystkich możliwych jest zajęciem trudnym, prowadzącym niekoniecznie do otrzymanianajlepszej - "właściwej" odpowiedzi.

Pierwszy przykład oparty jest na bazie danych składającej się z ponad 2000 piłkarzy a konkretniebramkarzy. Baza danych zawiera 37 cech bramkarzy, takie jak: Pªaca, Wzrost, Wiek, Chwytanie,Szybko±¢, Ustawianie si¦ itd. Szczegółowy spis wszystkich cech został umieszczony w tabeli: 4.1.Pytania na które staramy się odpowiedzieć budując ten model to:

2

ROZDZIAŁ 1. WSTĘP 3

1. "Które z cech bramkarzy najbardziej wpływają na wielkość ich zarobków"

2. "W jakim stopniu wybrane cechy wpływają na wielkość zarobków" - szukamy parametrów mo-delu regresji wielorakiej.

Drugi przykład opiera się na aktualnych danych, z Gdańskiego rynku nieruchomości. Dane zawie-rają podstawowe informacje o nieruchomościach, takie jak powierzchnia, typ nieruchomości, cena,dzielnica nieruchomości itd. Jak widać, w odróżnieniu od pierwszego przykładu, ten przykład zawierawiele zmiennych klasyfikujących, których wykorzystanie zostanie szczegółowo omówione. Posiada-jąc takie dane oczywistymi pytaniami, które mogą się nasunąć są:

1. "Jakie cechy nieruchomości najbardziej wpływają na jej cenę?"

2. "Czy dana nieruchomość, jest przewartościowana czy niedowartościowana?"

3. "Czy kluczowe cechy, będą inne dla innych typów nieruchomości?"

Aby odpowiedzieć na zadane pytania, w obu przykładach będziemy szukać optymalnego modeluregresji wielorakiej.

Rozdział 2

Zagadnienia teoretyczne

2.1 Regresja Wieloraka

2.1.1 Zależność między zmiennymi

W badaniach empirycznych wykorzystujemy zmienne, czyli wielkości opisujące daną cechę, którymprzypisujemy pewne wartości na podstawie pomiaru. Badania empiryczne dzielimy na korelacyjne,czyli takie gdzie badacz pełni rolę obserwatora i nie ma wpływu na wartości zmiennych oraz ekspe-rymentalne, gdzie badacz manipuluje zmiennymi w celu znalezienia zależności. Warto zaznaczyć,że jedynie w tych drugich można dowieść zależności przyczynowo - skutkowej między zmiennymi. Wbadaniach korelacyjnych badacz nigdy nie udowodni takich zależności jednak na podstawie własnejwiedzy może wyeliminować zmienne bezużyteczne przy budowaniu modelu.

2.1.2 Zmienne zależne i niezależne

Zmienne niezależne to takie, których wartość możemy zmieniać, natomiast zmienne zależne mogąjedynie zostać zmierzone. Terminy te mają zastosowanie głównie w badaniach typu eksperymental-nego.

2.1.3 Definicja

Regresja liniowa wieloraka jest to metoda statystyczna pozwalająca analizować związki pomiędzykilkoma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą). Estymuje onawarunkową wartość oczekiwaną zmiennej losowej zależnej dla zadanego wektora zmiennych loso-wych niezależnych. Dane dla n obserwacji:

y1 x1,1 · · · x1,p−1...

.... . .

...yn xn,1 · · · xn,p−1

xi,j – wartość j-tej zmiennej objaśniającej dla i-tego obiektuyi – wartość zmiennej objaśnianej dla i-tego obiektu.

Wektory będziemy zapisywać w postaci kolunowej:

xi = (xi,1, · · · , xi,p−1)′

gdzie ′ oznacza transpozycję.Przyjmujemy, że wartości zmiennych niezależnych dla każdego obiektu są deterministyczne, zaś

nyii=1

4

ROZDZIAŁ 2. ZAGADNIENIA TEORETYCZNE 5

są wartościami zmiennych losowychn

Yii=1

spełniających następujące równanie:

Dla pewnego wektora β = (β0, . . . , βp−1)′ ∈ Rp

Yi = β0 + β1xi,1 + β2xi,2 + · · ·+ βpxi,p−1 + εi, i = 1, . . . , n

gdzie εi - błąd o rozkładzie normalnym N (0, σ)Postać macierzowa modeluβ = (β0, . . . , βp−1)

′ - wektor parametrów(p× 1)ε = (ε1, . . . , εn)

′ - wektor błędów(n× 1)Y = (Y1, . . . , Yn)

′ - wektor odpowiedzi(n× 1)X - macierz eksperymentu (n× p)Równanie modelowe:

Y = Xβ + ε (2.1) Y1...Yn

= 1 x1,1 . . . x1,p−1... ... . . . ...

1 xn,1 . . . xn,p−1

β0...

βp−1

+ ε1...

εn

(2.2)Problemem do rozwiązania jest dopasowanie linii prostej (lub przestrzeni n-wymiarowej w prze-

strzeni n+1 wymiarowej, gdzie n oznacza liczbę zmiennych niezależnych) do zbioru punktów. Za-zwyczaj jako miarę błędów stosuje się sumę kwadratów odległości punktów od prostej regresji, gdyżwówczas obliczenia są najłatwiejsze - dopasowanie modelu sprowadza się do zastosowania prostejmatematycznie metody najmniejszych kwadratów. Nie sprawdza się ona jednak gdy w zbiorze uczą-cym występują elementy odstające.W przypadku gdy zależności między zmiennymi mają charakter nieliniowy, model można łatwo spro-wadzić do postaci liniowej poprzez utworzenie sztucznych zmiennych.Przykład:

Y = β0 + β1 sinx1 + β2 log x2 + ε

x̃1 = sinx1 x̃2 = log x1

Podczas tworzenia modelu istotny jest wybór liczby zmiennych niezależnych, gdyż istnieje ryzykoprzetrenowania, tzn. w modelu będą brane pod uwagę nieistotne efekty które będą psuły jakośćpredykcji. Takie przypadki występują zazwyczaj gdy nie dysponujemy odpowiednią liczbą obserwacjiw zbiorze danych. Zaleca się [1] by do badań brać około 20 razy więcej obserwacji niż predyktorówwystępujących w bazie danych.

2.1.4 Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów pozwala na znalezienie optymalnej estymacji wektora β. Chcemyznaleźć taki wektor b = (b0, b1, ..., bp−1)′ , że Yi będzie dobrze przybliżone przez b0 + b1xi,1 +bp−1xi,p−1 i = 1, ..., n.

Szukamu minimum funkcji kryterialnej:

S(b) =

n∑i=1

(Yi − (b0 + b1xi,1 + bp−1xi,p−1))2 = (Y −Xb)′(Y −Xb).

Wektor b minimalizujący S(b) jest estymatorem MNK wektora β.Szukamy rozwiązania równania dS(b)b = 0

∂

∂bj

n∑i=1

(Yi −p−1∑k=0

xikbk)2 = 0 , j = 0, ..., p− 1. (2.3)

Stądn∑i=1

xij

p−1∑k=0

xikbk =

n∑i=1

xijYi , j = 0, ..., p− 1. (2.4)


WięcX′Xb = X′Y (2.5)

O ile X′X jest odwracalna, tob = β̂ = (X′X)

−1X′Y (2.6)

Opracowanie na podstawie [4].

2.2 Analiza wariancji

Analiza wariancji jest to metoda statystyczna pozwalająca na porównywanie obserwacji zależnychod jednego lub wielu czynników. Celem analizy wariancji jest sprawdzenie czy zmienne niezależne(czynniki) mają wpływ na zmienną zależną. W zależności od rodzaju czynników stosujemy różnerodzaje analizy wariancji.Założenia:

• niezależność obserwacji - założenie ułatwiające analizę statystyczną

• normalność - reszty przyjmują rozkład normalny

• homogeniczność wariancji w poszczególnych podgrupach

Ważne pojęcia, które będą wykorzystywane w późniejszych analizach danych:

1. MSS - suma kwadratów modelu

MSS =

n∑i=1

(ŷi − ȳ)2

ŷi - wartość prognozowana (z obecnego modelu) i-tej obserwacji zmiennej zależnej.ȳ - średnia zmiennej zależnej.

2. SSE - suma kwadratów reszt

SSE =

n∑i=1

(ŷi − yi)2

yi - i-ta obserwacja zmiennej zależnej.

3. SST - całkowita suma kwadratów SST = SSE +MSS

4. DF - stopnie swobody

5. ASE, AMS - średnie kwadratów ASE = MSSDFM ; AMS =SSEDFE

6. statystyka F - Wartość F wyznacza prawostronny przedział krytyczny w teście. F = ASEAMS marozkład F Snedecora z DFM i DFE stopniami swobody.

7. Wartość p - wartość testu statystycznego. Prawdopodobieństwo, otrzymania większej wartościF od obliczonej, dla zmiennej spełniającej hipotezę H0.

8. H0 - hipoteza zerowa mówiąca o tym, że zmienna jest równa 0, a w przypadku analizy wielo-czynnikowej, że wszystkie analizowane zmienne są równe 0 z wyjątkiem wyrazu wolnego.

9. H1 - hipoteza alternatywna mówiąca o tym, że zmienna jest różna od 0, a przy analizie wielo-czynnikowej, że przynajmniej jedna zmienna jest różna od 0.


2.3 Ogólne modele liniowe

Ogólne modele liniowe mogą być traktowane jako rozszerzenie regresji wielorakiej do postacigdzie zamiast jednej występuje wiele zmiennych objaśnianych. Wówczas równanie regresji mapostać: Y1,1 . . . Y1,k... . . . ...

Yn,1 . . . Yn,k

= 1 x1,1 . . . x1,p−1... ... . . . ...

1 xn,1 . . . xn,p−1

β0,1 . . . β0,k... . . . ...

βp−1,1 . . . βp−1,k

+

+

ε1,1 . . . ε1,k... . . . ...εn,1 . . . εn,k

(2.7)Ogólny model liniowy pozwala ponadto uzyskać rozwiązanie dla współczynników regresji wprzypadku, gdy zmienne objaśniające nie są liniowo niezależne.

2.4 Uogólnione modele liniowe

Uogólniony model liniowy stanowi z kolei rozszerzenie Ogólnego modelu liniowego do postacigdzie:

• zmienna objaśniana może mieć rozkład inny niż normalny (może być nawet typu skoko-wego)

• powiązanie między zmienną objaśnianą a zmiennymi objaśniającymi nie jest postaci linio-wej

W więlu przypadkach zmienna zależna Y nie ma rozkładu ciągłego, na przykład liczba zgonóww wyniku wypadku drogowego. Stworzony model powinien przewidywać wartości zmiennej Ywg takiego samego rozkładu. W podanym przykładzie liczba zgonów powinna być liczbą cał-kowitą.Kolejną rzeczą wpływającą na osłabienie Ogólnego modelu liniowego jest fakt, że związek mię-dzy zmienną zależną Y a zmiennymi niezależnymi może być nieliniowy. Wówczas zależnościtej zmiennej od predyktorów nie można opisać za pomocą równań liniowych.W obu przypadkach może być jednak stosowany Uogólniony model liniowy. Wówczas predyk-cja wartości zmiennej zależnej Y przebiega dzięki liniowej kombinacji zmiennych zależnychpowiązanej za pomocą funkcji wiążącej ze zmienną zależną Y.

Równanie modelowe:l(EY) = Xβ (2.8)

gdzie:Y = (Y1, . . . , Yn)

′ - wektor odpowiedzi(n× 1)X - macierz eksperymentu (n× p)l - funkcja wiążącaβ = (β0, . . . , βp−1)

′ - wektor parametrów(p× 1)ε = (ε1, . . . , εn)

′ - wektor błędów(n× 1)

Funkcje wiążące są używane w zależności od rozkładu zmiennej Y. Podstawowe z nich to:

• identycznościowa l(ξ) = ξ

• inwersja l(ξ) = 1ξ


• logarytmiczna l(ξ) = log(ξ)

• potęgowa l(ξ) = ξa dla danego a

• logitowa l(ξ) = log( ξ1−ξ )

• probitowa l(ξ) = φ−1(ξ)

• Log-log l(ξ) = −log(−log(ξ))

• Log-log dopełnienia l(ξ) = −log(−log(1− ξ))

gdzie φ−1 oznacza odwrotność dystrybuanty standaryzowanego rozkładu normalnego.Wartości współczynników β w UML są estymowane metodą największej wiarygodności.Przy założeniu, że funkcja wiążąca l jest monotoniczna funkcja odwrotna do l może być zdefi-niowana następująco:

l−1(Xβ) = EY

Wówczas model można stosować dla zmiennej zależnej Y mającej rozkład należący do rodzinyrozkładów wykładniczych.Dopasowanie funkcji wiążących do rozkładu Y :

a) normalny: identycznościowa

b) wykładniczy, gamma: inwersja

c) Poissona: logarytmiczna

d) Bernoulliego, dwumianowy: logitowa

Należy wziąć pod uwagę, iż proc glmselect działa w strukturze uogólnionych modeli linio-wych, jednak tylko na danych które zostały wcześniej zmodyfikowane do modelu liniowego,za pomocą funkcji wiążących. Mając surowe dane np. zero jedynkowe, procedura nie stworzymodelu regresji logistycznej, do takich modeli używane są inne odpowiednie procedury.

2.5 Least Angle Regression

2.5.1 Opis

Przy tworzeniu modelu regresji z wieloma zmiennymi niezależnymi, podstawowym problemem jestznalezienie optymalnego podzbioru efektów. Teoretycznie należałoby zbadać wszystkie możliwe kom-

binacje podzbiorów efektów. Dla p zmiennych niezależnych oznaczałoby to zbudowaniep∑i=1

(p

i

)mo-

deli a następnie porównywanie ich. W celu uniknięcia problemu dużej ilości obliczeń można stosowaćróżne metody selekcji finalnego modelu. Jedną z tych metod jest LAR.Least Angle Regression (w dosłownym tłumaczeniu - regresja najmniejszego kąta) jest metodą selek-cji modelu regresji, która została opracowana i opublikowana [5] przez zespół ze Stanford Universityw 2004 roku. Metoda LAR tworzy sekwencje modeli gdzie w każdym kroku procesu selekcji do bie-żącego modelu dodawany jest jeden predyktor (podobnie jak metoda forward). Algorytm domyślniekończy się gdy wszystkie efekty zostaną wprowadzone do modelu. Główną przewagą metody LARnad innymi metodami jest względna szybkość obliczeniowa, oraz możliwość modyfikacji metody wcelu otrzymania innych (np. LASSO). Do otrzymania pełnego zbioru rozwiązań potrzebne jest tylkom kroków, gdzie m jest liczbą efektów.


2.5.2 Oznaczenia

Wzory (oznaczenia) ogólne Opis

Ŷ = Xb = X(X′X)−1X′Y wektor wartości prognozowanych

e = Y − Ŷ wektor rezyduówY średnia wektora Y

Wzory (oznaczenia) dla k-tego kroku OpisAk aktywny podzbiór zmiennychbAk odpowiadający mu wektor współczynni-

ków zawierający k − 1 niezerowych war-tości i jedną wartość równą zero odpo-wiadającą zmiennej włączonej do mode-lu w bieżącym kroku.

Ŷ(k) = XAkbAk wektor wartości prognozowanych w k-tym kroku.

ek = Y −XAkbAk wektor rezyduów w k-tym krokuδk = (X

′AkXAk)

−1X′Akek kierunek zmiany bAkbAk(α) = bAk + αδk, α ∈ [0, 1] zmiana bAk

〈xj ,Y −XAkbAk〉 = γsj , sj ∈ [−1, 1] miara korelacji zmiennej xj z obecnymirezyduami, sj - znak iloczynu skalarnego

Tabela 2.1: Oznaczenia parametrów

2.5.3 Algorytm

1. Początkowe współczynniki:

b0 = Y ,p−1∀i=1

bi = 0

Wszystkie predyktory są standaryzowane, tak że każdy ma średnią m = 0 i jednostkową wa-riancję. Dla zmiennej zależnej m = 0.

2. Dla k = 1 model składa się z wyrazu wolnego - b0

3. Do modelu dobierany jest efekt który jest najbardziej skorelowany z obecnymi rezyduami, tj.{xi /∈ Ak; |〈xi,Y −XAkbAk〉| = max

xj /∈Ak|〈xj ,Y −XAkbAk〉|}

4. Następuje zmiana bAk w kierunku δk, czyli: bAk(α) = bAk + αδkInnymi słowy w kierunku parametrów modelu regresji ek ∼ (Ak) wyznaczonych za pomocąMNK (gdzie zmienna która weszła do modelu w obecnym kroku xi ∈ Ak) Zmiana jest linio-wa dla wszystkich parametrów, rezydua są na bieżąco uaktualniane. Ruch zostaje przerwanyw momencie gdy któryś z pozostałych predyktorów osiągnie taką samą korelacje z obecnymirezyduami co każda zmienna będąca w modelu. Długość kroku jest określona przez α. Następ-nie do modelu zostaje dołączony predyktor który spowodował zatrzymanie ruchu i zaczyna siękolejny krok.

5. Krok 4 jest powtarzany do momentu w którym wszystkie zmienne są w modelu.

Warto zwrócić uwagę skąd wzięła się nazwa metody. Jeżeli Ŷ(k) jest wektorem wartości prognozo-wanych, to jego zmianę w kolejnym kroku można zapisać jako:

Ŷ(k)(α) = Ŷ(k) + αuk, α ∈ [0, 1]

gdzie uk - kierunek zmiany Ŷ(k), równy:

uk = XAkδk


��

��

��

��

� ĥ1t

t

tĥ2 = bA3(α) = bA3(1)

��

��

��

��

��:x1

BBBBBBBBBBBBBBBBMx2

x2

BB

BB

BB

BB

BB

BB

BB

BB

BB

BBBBM

tbA2(α)

u1

bA1 = b0��

��

��

��7

Rysunek 2.1: Graficzna prezentacja algorytmu dla k=2

Wektor uk tworzy najmniejszy kąt z każdym predyktorem ze zbioru Ak i wszystkie te kąty są sobierówne. Łatwiej jest to zauważyć na przykładzie graficznym.

Na rysunku 2.1 ĥi to wektor (maksymalnych) parametrów modelu regresji ei ∼ (x1, ..., xi) wy-znaczony za pomocą MNK.Źródła pomocne przy opracowaniu algorytmu: [5] , [6].

2.6 Kryteria informacyjne dopasowania modelu

symbol definicjan liczba obserwacjip liczba parametrów łącznie z wyrazem wolnymσ̂2 estymowana wariancja błędu z dopasowania modelu

SST całkowita suma kwadratów skorygowana dla średniej zmiennej zależnejSSE suma kwadratów resztASE SSEnR2 1− SSESST

ADJRSQ 1− (n−1)(1−R2)

n−pAIC n ln(SSEn ) + 2p

AICC 1 + ln(SSEn ) +2(p+1)n−p−2

BIC n ln(SSEn ) + 2(p+ 2)q − 2q2 gdzie q = nσ̂

2

SSE

CP (Cp) SSEσ̂2 + 2p− n

PRESSm∑i=1

r2i(1− hi)2

gdzie

ri - reszta w i-tej obserwacjihi - wpływ i-tej obserwacji (xi(X ′X)− x′i)

SBC n ln(SSEn ) + p ln(n)

Tabela 2.2: Kryteria informacyjne dopasowania modelu

W procedurze GLMSELECT wykorzystywane są następującę kryteria:


• ADJRSQ - Skorygowany współczynnik determinacji(R2).

• AIC - Kryterium Akaikego

• AICC - Skorygowane kryterium Akaikego

• BIC - Kryterium Bayesowskie

• CP - Statystyka Mallow’a

• PRESS - Przewidywana suma kwadratów reszt

• SBC - Kryterium Schwarza-Bayesa

Stosuje się je do porównywania jakości kilku modeli, w których liczba zmiennych objaśniających jestróżna.

2.7 Walidacja krzyżowa

Walidacja krzyżowa jest metodą statystyczną polegającą na podzieleniu zbioru obserwacji na pod-zbiory i przeprowadzeniu analiz na niektórych z nich. W każdym kroku większość danych stanowizbiór uczący się a pozostała część zbioru stanowi zbiór testowy zwany także walidacyjnym. Działa-nie walidacji krzyżowej dobrze ilustruje schemat poniżej 2.7. Przyjmijmy że dzielimy zbiór obserwacjina cztery równe części. Wówczas w kroku pierwszym podzbiory A, B i C są zbiorem uczącym się na-tomiast D zaznaczony na szaro testowym. W kolejnych krokach zbiór testowy zmienia pozycję w takisposób, że w każdym kroku testowanie odbywa się na innym podzbiorze. Tak więc każda obserwacjazbioru danych jest testowana dokładnie raz. Sumując kwadraty błędów ze wszystkich zbiorów testo-wych otrzymuje się wartość przewidywanej sumy kwadratów reszt (w SAS CV PRESS). Porównująckolejne wartości tego współczynnika można znaleźć model, który będzie posiadał dobre zdolnościpredykcyjne i dla którego zjawisko przeuczenia będzie zniwelowane. Walidacja krzyżowa nie wpływana budowę modelu.

Rysunek 2.2: Przykład walidacji krzyżowej dla k=4

Rozdział 3

Selekcja modelu w SAS

3.1 Wprowadzenie

Celem który chcemy osiągnąć w obu przykładach jest znalezienie optymalnego uogólnionego mode-lu liniowego - modelu regresji wielorakiej. Za pomocą otrzymanych modeli będziemy mogli stwierdzićktóre ze zmiennych niezależnych, najbardziej wpływają na daną zmienną zależną. Oprócz tego, mo-dele powinny służyć do jak najlepszego przewidywania wartości zmiennej objaśnianej w zależnościod wprowadzonych cech.

Czerpiąc inspirację z publikacji [3] SAS Institute, w przykładzie pierwszym zostanie przeprowa-dzonych 5 analiz, których wzajemne porównanie ułatwi znalezienie modelu posiadającego najlepszezdolności predykcyjne i najmniejszą ilość nieistotnych zmiennych. W analizach skorzystamy z szere-gu opcji, poszczególnych komend procedury glmselect. W każdej analizie podzielimy zbiór danychna zbiór testowy i zbiór uczący, dzięki czemu będziemy mogli monitorować zdolności predykcyjnemodelu. Jako miarę dopasowania modelu zastosujemy wybrane kryteria informacyjne które opisa-ne zostały w podrozdziale 2.6, oraz wielkość współczynnika ASE (Average Squared Error) zbioruuczącego i zbioru testowego. Dzięki temu będziemy mogli brać pod uwagę modele dobrze opisującedane, które nie brały udziału w tworzeniu modelu. Takie podejście pozwoli uniknąć sytuacji w którejwybrany model przedopasowuje dane.Analizy zaczniemy od budowy modelu najbardziej podstawowego, następnie będziemy wprowadzaćkrokowo dodatkowe opcje komend procedury. Finalnie wybór modelu będzie oparty na zestawieniuwyników poszczególnych analiz w tabeli.

W przykładzie 2, zostaną przedstawione możliwości procedury pod kątem wykorzystywania zmien-nych klasyfikujących w modelu. Zostanie przeprowadzony szereg analiz, dzięki którym lepiej będziemożna odpowiedzieć na pytania zawarte we wstępie 1.2. W odróżnieniu od pierwszego przykładu,początkowy zbiór z powodu posiadania stosunkowo małej liczby obserwacji nie będzie podzielony nazbiór uczący i testowy. W tej sytuacji miarą przeuczenia modelu będzie kryterium CV PRESS związa-ne z walidacją krzyżową. Jest to tym bardziej istotne, iż model powinien jak najlepiej interpretowaćzmienne które nie brały udziału w jego budowie, powinien jak najlepiej przewidywać wartość danejnieruchomości i takie podejście w tym wypadku jest priorytetowe. Szczegóły tego podejścia, jak isamego kryterium zostaną omówione przy poszczególnych analizach.

12

ROZDZIAŁ 3. SELEKCJA MODELU W SAS 13

3.2 proc glmselect

3.2.1 Opis procedury

Procedura GLMSELECT [7] jest narzędziem do budowania modeli regresji w strukturze OgólnychModeli Liniowych - GLM. Po wywołaniu tworzy ona sekwencję modeli za pomocą danej metody.Zawiera 6 metod selekcji modelu. Są to:

• none

• forward

• backward

• stepwise

• LASSO

• LAR

Procedura umożliwia stosowanie dodatkowych narzędzi pozwalających na wybranie optymalnegomodelu, takie jak stopowanie selekcji - zatrzymanie procesu selekcji w momencie gdy wybrane kry-terium określone przez (stop=) osiągnie pierwsze minimum (maksimum) lokalne. Innym narzędziemwyboru modelu jest (choose=), gdzie finalny model jest modelem w którym wybrane kryterium osiągaminimum (maksimum) globalne. Wybór kryterium wejścia bądź wyjścia efektu z modelu określa opcja(select=). Opcja ta jest niedostępna w metodach LAR i LASSO. Istnieje możliwość ustalenia ilościkroków jaka ma zostać wykonana w selekcji (steps=) i wiele innych.W porównaniu z innymi procedurami odpowiadającymi za regresję w SAS jak proc glm czy procreg, proc glmselect umożliwia stosowanie różnych metod selekcji modelu (niedostępne w procglm), jak i stosowanie komendy class (niedostępne w proc reg). Jest to więc najbardziej rozbudo-wana procedura jeśli chodzi o selekcję modeli regresjii. Z drugiej strony proc glmselect nie posiadanarzędzi niezbędnych do diagnozowania wybranego modelu (np. testowania hipotez), narzędzia teposiadają dwie wymienione wcześniej procedury. Należy więc stosować proc glmselect do wyborumodelu bądź zbioru modeli, które następnie można diagnozować w innych procedurach.Rezultaty które zwraca procedura to:

• Model Information

• Number of Observations

• Dimensions

• Step Details

• Model Building Summary

• Selected Model

Szczegóły rezultatów zostaną omówione przy pierwszej analizie.


3.2.2 Syntax

PROC GLMSELECT ;

BY variables;

CLASS variable

;

EFFECT name=effect -type (variables );

FREQ variable;

MODEL variable=;

MODELAVERAGE ;

OUTPUT ;

PARTITION ;

PERFORMANCE ;

SCORE ;

STORE item -store -name ;

WEIGHT variable;

Główne składowe procedury glmselect to:

• GLMSELECT data=... - polecenie wywołujące procedurę, oraz wskazujące na zbiór danych naktórym będą przeprowadzane analizy

– plots=

• MODEL - komenda w której określa się zmienną zależną oraz zmienne niezależne które mająbyć rozpatrywane przy wyborze modelu.

– selection=

– stop=

– choose=

– steps=

– lscoeffs

Wszystkie inne dostępne opcjonalnie komendy oraz ich wybrane opcje które są używane w pracy:

• BY - za pomocą tego polecenia można szukać osobnych modeli względem pewnej zmiennej.

• CLASS - przetwarza zmienną klasyfikującą na zmienne liczbowe. W SAS dostępnych jest wielemetod kodowania zmiennych klasyfikujących.

• EFFECT - umożliwia stworzenie nowej zmiennej złożonej z kilku innych zmiennych.

• FREQ - stwarza możliwość powielania wybranych obserwacji, wykorzystując zmienną zawiera-jącą wagi.

• MODELAVERAGE - otwiera możliwość alternatywnego sposobu estymowania parametrów mode-lu. Model jest tworzony daną ilość razy dla losowo wybranych (za każdym razem) obserwacjiz podstawowego zbioru treningowego. Przedstawiane są statystyki występowania danych pre-dyktorów w wybranych modelach, oraz statystyki ich parametrów.

– sampling=

• OUTPUT - pozwala stworzenie zbioru wynikowego składającego się ze zbioru wejściowego i zwybranych statystyk dla każdej obserwacji.

• PARTITION - istnieje możliwość podzielenia zbioru wejściowego na zbiór uczący, zbiór testowyi zbiór walidacji.


– role=

• PERFORMANCE - umożliwia ustalenie parametrów sprzętowych (np. możliwość równoległego ob-liczania gdy używana jest komenda BY)

• SCORE - tworzy zbiór danych zawierający przewidywane wartości dla obserwacji z określonegozbioru.

• STORE - statystyki otrzymywane w rezultatach mogą być zapisane do dalszej analizy, np. wprocedurze proc plm.

• WEIGHT - umożliwia przypisanie zmiennym niezależnym wag.

Rozdział 4

Przykład 1

4.1 Dane

Dane analizowane w pierwszym przykładzie pochodzą z bazy danych studia Sports Interactive wyko-rzystanej w grze Football Manager 2011. Baza ta jest największą piłkarską bazą danych na świecie[2].Oznaczenia zmiennych w modelu:

Symbole Opis Symbole OpisPlaca tygodniowa płaca Wzrost -

Placalog ln(Placa) Rzu WyrzutyAgr Agresja Wkp WykopyBly Błyskotliwość WdP Wyjścia do piłkiZwi Zwinność Wsp WspółpracaZna Znaczenie Wiek -Chw Chwytanie Wal WalecznośćDec Decyzje Waga -Det Determinacja Ust Ustawianie sięEks Ekscentryczność Tec TechnikaGbP Gra bez piłki Szb SzybkośćGnP Gra na przedpolu NSp Naturalna sprawnośćGPP Gra z pierwszej piłki Sko SkocznośćJnJ Jeden na jednego Sil SiłaKom Komunikacja Row RównowagaKnc Koncentracja Psp PrzyspieszenieKre Kreatywność Ref RefleksOpa Opanowanie Pwd PrzewidywanieWyt Wytrzymałość Pst Piąstkowanie

Tabela 4.1: P.1 Tabela cech bramkarzy

Formalnie, w przykładzie 1 szukamy więc optymalnego modelu regresji wielorakiej w postaci:

Placalog = b0 + b1 · Agr + b2 · Bly + b3 · Zwi + ...+ b36 · Pst (4.1)

Założenia ogólne analiz w przykładzie 1:

• Zmienna Wiek mierzona jest w latach, Wzrost w centymetrach, Waga w kilogramach, Placa wEuro, a wszystkie pozostałe zmienne wyrażone są w skali [0, 20] z krokiem = 1

• Obserwacje z początkowego zbioru danych są podzielone na zbiór testowy (25%) i zbiór uczący(75%)w taki sposób, że po posortowaniu wszystkich obserwacji względem zmiennej Placa, co czwar-

16

ROZDZIAŁ 4. PRZYKŁAD 1 17

ta obserwacja należy do zbioru testowego. Wyjątkiem jest ostatnia analiza w przykładzie (nr.6).

• Ponieważ zmienna "Placa" posiada rozkład zbliżony do wykładniczego, dokonana zostałatransformacja logarytmiczna tej zmiennej. Nowa zmienna oznaczana jest jako placalog. Wanalizach zamiast standardowej zmiennej, będzie użyta zmienna placalog. Badany modeljest więc określony w strukturze UML.

4.2 Analiza 1 - (stop=none)

W pierwszej analizie zostanie rozpatrzony model składający się ze wszystkich dostępnych efektów.W tym celu należy użyć opcji (stop=none) określającej brak stopowania selekcji. Wybrany model jestwięc modelem otrzymanym w ostatnim kroku selekcji modelu. Warto zwrócić uwagę, iż otrzymany wten sposób model za pomocą algorytmu LAR, jest jednocześnie modelem otrzymanym za pomocąpełnego rozwiązania MNK. Można domyślać się że model z dużą ilością zmiennych niezależnychmoże być podatny na przedopasowanie. SAS w wyniku procedury wyświetla liczną ilość tabel.

W pierwszej z nich:

Rysunek 4.1: P.1 (stop=none) - Informacje o modelu, Liczba obserwacji, Wymiary

zawarte są takie informacje jak: nazwa zbioru zawierającego dane poddawane analizie, nazwazmiennej zależnej czy nazwa metody selekcji modelu. Przedstawiona jest liczba obserwacji we wczy-tanym zbiorze i liczba obserwacji która używana jest do dalszej analizy. Liczby te różnią się od siebie- przyczyną jest fakt, iż pewna liczba bramkarzy z podstawowego zbioru nie posiada klubu. W ichprzypadku pozycja odpowiadająca za płacę jest pusta. W związku z tym te obserwacje nie mogą


być wykorzystywane do budowy modelu. Podana jest również liczba obserwacji zbioru testowego iuczącego. Jak widać 5402159 ≈ 0.25.W tabelce Dimensions przedstawiona jest liczba efektów wykorzystywanych w modelu i liczba para-metrów równania regresji. Jeden z efektów odpowiada za wyraz wolny. Parametry to efekty brane poduwagę w procesie selekcji, liczba ta różni się najczęściej przy używaniu zmiennych klasyfikujących.

Rysunek 4.2: P.1 (stop=none) - Krok 1

Kolejną częścią raportu otrzymanego w wyniku procedury jest Step Details gdzie prezentowa-ne są szczegóły danego kroku algorytmu. Krok w którym do modelu dodawany jest wyraz wolny b0w SAS jest krokiem zerowym. Na rysunku 4.2 widać szczegóły dla kroku k=1 gdzie dodana zostałazmienna Sil. W tabelce Analiza Wariancji - ANOVA widoczne są takie parametry jak suma kwa-dratów modelu (MSS) czy suma kwadratów reszt (SSE), stopnie swobody modelu i reszt i średnie ichkwadratów (ASE i AMS). Wartość F oznacza iloraz wariancji wyjaśnianej przez model i wariancji niewyjaśnianej.

W kolejnej tabelce przedstawione są statystyki dopasowania modelu, istotnymi współczynnika-


mi są R-Square (współczynnik determinacji) określający jaka część zmienności zmiennej objaśnia-nej wyjaśniana jest przez model regresji. Adj R-Square to dopasowany współczynnik R-Square.Przedstawione są również statystyki kryteriów informacyjnych dopasowania modelu. ASE (train) iASE (test) to średni błąd kwadratowy w zbiorze uczącym i w zbiorze testowym. Wszystkie z war-tości widocznych w tej tabelce, podobnie jak wartość F dostępne są w zestawieniu całego procesuselekcji. Ostatnia tabelka przedstawiona na rysunku nosi nazwę "Oceny parametrów" i zawiera war-tości parametrów równania regresji dla danego kroku. W rozumieniu wcześniej podanego algorytmubyłby to wektor: bAk(α) = bAk + αδk, α ∈ [0, 1] dla ustalonego już α.

Rysunek 4.3: P.1 (stop=none) - Podsumowanie


Tabelka LAR Selection Summary 4.3 to zestawienie całego procesu selekcji. Tabela gromadziwszystkie wartości poszczególnych parametrów otrzymanych w każdym z kroków selekcji. Dodatko-wo w tabeli zamieszczony jest parametr Pr.>F (inaczej nazywany wartością p), odnoszący się doanalizy wariancji. Dla standardowego poziomu istotności α = 0.05 widać, że wszystkie parametrywprowadzone do modelu od kroku k = 30 nie spełniają hipotezy H0. Warto zwrócić uwagę na zmien-ną ASE (train) i ASE (test). Wartości ASE (test) w kroku k=32 osiągają minimum lokalne, coświadczy o tym, że model staje się przedopasowany w kolejnym kroku.Poniżej tabeli, zamieszczona jest informacja o powodzie zatrzymania procesu selekcji. W przypadkutej analizy selekcja została przerwana ponieważ wszystkie efekty zostały umieszczone w modelu.

Następną częścią rezultatów 4.4 są 2 występujące razem wykresy. Pierwszy z nich to wykresstandaryzowanych współczynników w zależności od liczby kroków selekcji.

Rysunek 4.4: P.1 (stop=none) - Wykres standaryzowanych współczynników

Przedstawia on względną ważność predyktorów w danym procesie selekcji, na tym wykresie moż-na więc znaleźć odpowiedź na pytanie: "Które cechy najbardziej wpływają na zmienną Y", w naszymprzypadku: "Które cechy najbardziej wpływają na zarobki bramkarzy". Jeśli weźmiemy pod uwagęostatni krok otrzymamy: Chw, Wsp i Ref. Dla zmiennej Ref standaryzowany współczynnik wynosi wprzybliżeniu 0.11, szczegółowe wartości tych współczynników można uzyskać poprzez opcję stb ko-mendy model. Sposób interpretacji tego współczynnika jest następujący: zmiana parametru Ref owartość odchylenia standardowego tej zmiennej powoduje zmianę zmiennej Placalog o 0.11 odchy-lenia standardowego zmiennej Placalog. Innymi słowy te współczynniki to współczynniki równaniaregresji dla wszystkich zmiennych ustandaryzowanych (wraz ze zmienną zależną) tj. x̂i =

xi−x̄isxi

.Drugim wykresem występującym pod wykresem standaryzowanych współczynników jest wykres wy-branego parametru w zależności od liczby kroków selekcji. Jeżeli żaden parametr nie został wybrany(określony przez choose= bądź inne opcje) wtedy wyświetlana zostaje zależność dla AICC.


Rysunek 4.5: P.1 (stop=none) - Panel kryteriów

Rysunek 4.6: P.1 (stop=none) - Wykres ASE


Panel kryteriów 4.5 - przedstawia zmianę współczynników dopasowania modelu w zależnościod ilości kroków w selekcji. Na panelu, " * " w danym kroku oznacza osiągnięcie najmniejszej (dlaskorygowanego współczynnika determinacji - największej) wartości danego kryterium. Jest to infor-macja o tym w którym kroku selekcji model jest najlepiej dopasowany względem danego kryterium,np. wybierając choose=aic wybrany model byłby modelem z 30 kroku selekcji.

Kolejnym wykresem umieszczanym w rezultatach jest wykres przyrostu średnich błędów kwadra-towych dla zbioru uczącego i zbioru testowego 4.6. Warto zwrócić uwagę na fakt, iż od kroku k = 10ASE zbioru testowego spada wolniej niż ASE zbioru uczącego. ASE zbioru uczącego jest w każdymprzypadku wartością monotonicznie malejącą, ASE zbioru testowego nie ma takiej własności - odpewnego kroku może zacząć monotonicznie rosnąć, takie zjawisko oznacza przeuczenie (przedopa-sowanie) danego modelu. Z tabelki podsumowującej 4.3 wiadomo, że ASE zbioru testowego osiągaminimum lokalne w kroku k = 32 czego nie widać na wykresie graficznym. W tej analizie mimo iżASE zbioru testowego osiąga minimum lokalne przed ostatnim krokiem, to minimum globalne osią-ga w ostatnim kroku. Różnice wartości ASE dla ostatnich kroków są niewielkie, więc w przyszłychanalizach większą rolę mogą mieć inne aspekty, takie jak liczba zmiennych nieistotnych w modelu.

Ostatnią częścią zwracaną przez SAS w rezultacie procedury są szczegóły dotyczące wybranegomodelu 4.7.

Rysunek 4.7: P.1 (stop=none) - Wybrany model

Pierwszą informacja to krok selekcji w którym wybrany był finalny model. Następnie wypisanesą wszystkie efekty które zawiera ostateczny model. Przedstawiana jest również tabelka z analiząwariancji - ANOVA dla wybranego modelu oraz szczegółowe statystyki, które zostały opisane przyanalizie rezultatów z poszczególnych kroków 4.2.


Rysunek 4.8: P.1 (stop=none) - Parametry modelu

Drugą przedstawioną informacją są wyestymowane parametry b modelu. Największe wartościparametrów mają cechy Chw - chwytanie i Ref - refleks. Warto zwrócić uwagę na problem ocenyważności parametrów, nie wszystkie zmienne podane są w tej samej skali a więc danego parametrudla zmiennej Wzrost nie można bezpośrednio porównać z parametrem np. zmiennej Ref. Należywyświetlić i porównać wszystkie parametry dla standaryzowanych zmiennych 4.4. Co ciekawe cechąktóra posiada ujemny parametr jest Eks - ekscentryczność.


4.3 Analiza 2 - (stop=cp)

W drugiej analizie zastosowana zostanie opcja (stop=) a kryterium stopującym będzie współczyn-nik Cp - Statystyka Mallow’a. Do pracy poświęconej algorytmowi LAR [5], dołączona jest "dyskusja"w której poruszane są problemy związane z selekcją modelu. Współczynnik Mallow’a uznany jestza jedno z najpopularniejszych kryteriów, branych pod uwagę przy wyborze optymalnego podzbioruzmiennych niezależnych. Ma on jednak również swoje wady, często na jego podstawie wybieranyjest model ze zbyt dużą ilością parametrów. Dlatego też jak sugerują autorzy publikacji, w kolejnychanalizach weźmiemy pod uwagę również inne kryteria. Opcja (stop=) sprawia iż selekcja modelu

Rysunek 4.9: P.1 (stop=cp) - Szczegóły stopowania

zostaje przerwana na k-tym kroku w momencie kiedy k + 1 krok dałby większą wartość wybranegokryterium. Proces selekcji jest więc w tym przypadku bliźniaczy z selekcją w pierwszej analizie, różnisię tylko finalnie wybranym modelem. Analizując po raz kolejny tabelkę podsumowującą z pierwszejanalizy 4.3 można zauważyć, iż pierwsze lokalne minimum kryterium Cp zostaje osiągnięte w krokuk = 30. Co więcej te lokalne minimum jest zarówno globalnym minimum kryterium, co oznacza iżotrzymamy taki sam model dla opcji (stop=cp) co dla opcji (stop=none choose=cp). W odróżnie-niu od poprzedniej analizy, w rezultatach procedury pojawiła się dodatkowo część Stop details -szczegóły stopowania.

Jak widać na załączonym rysunku 4.9 po włączeniu do modelu kolejnej zmiennej - NSp wartośćCp zwiększyłaby się. Był to bezpośredni powód zatrzymania procesu. Na panelu kryteriów 4.10, który

Rysunek 4.10: P.1 (stop=cp) - Panel kryteriów

jest po prostu "uciętym" panelem kryteriów z pierwszej analizy 4.5, widać, że dla k = 30 nie tylko Cp


osiąga najlepszą wartość ale także wszystkie inne kryteria oprócz SBC. Co ciekawsze, wybrany w tensposób model pozbywa się wielu nieistotnych zmiennych z punktu widzenia testu ANOVA 4.11.

Rysunek 4.11: P.1 (stop=cp) - Zmienne nieistotne

Rysunek 4.12: P.1 (stop=cp) - Wybrany model

Jedyną zmienną zawartą w modelu która w teście przekracza domyślny poziom istotności α =0.05 jest Agr z wartością testu 0.1028. Szczegóły wybranego w tej analizie modelu zaprezentowanesą na rys. 4.12. Porównując krótko oba wybrane do tej pory modele (1 model 4.7) możemy zauwa-żyć, iż obecny model ma większą wartość F i odpowiednio lepsze wartości kryteriów. Wartości ASEsą nieznacznie większe (gorsze) zarówno dla zbioru uczącego jak i testowego. Stosunek poprawywartości parametrów F, Adj R-Sq itd. do pogorszenia wartości ASE jest więc zadowalający. Biorąc


pod uwagę fakt, iż oprócz znalezienia modelu mającego najmniejszą wartość ASE celem jest rów-nież znalezienie modelu posiadającego stosunkowo małą ilość zmiennych niezależnych, na obecnympoziomie analiz można faworyzować model z drugiej analizy.

4.4 Analiza 3 - (stop=none choose=sbc)

W trzeciej analizie, wybrany zostanie model mający najlepszą wartość kryterium Schwarza-Bayesa.W ten sposób zostanie uwieńczony pomysł który powstał przy budowaniu drugiego modelu. W mode-lu nie będzie już żadnych zmiennych których wartość Pr. > F jest większa od ustalonego poziomuα = 0.05. Inaczej mówiąc model wybrany w trzeciej analizie nie będzie zawierał żadnych nieistotnychw stosunku do zmiennej Placalog zmiennych.Przy okazji warto opisać zachowanie procedury w przypadku gdy zadane są dwie opcje (stop=choose=). W takim przypadku SAS wybierze model który jako pierwszy spełni którąkolwiek z opcji.Wpisując (choose=...) należy pamiętać, że SAS będzie brał pod uwagę również domyślną wartośćdla (stop=), czyli będzie to inaczej (stop=sbc choose=...). Jeżeli istnieje potrzeba użycia tylkoopcji (choose=), należy to zrobić w sposób zaprezentowany w tej analizie.Wszystkie rezultaty otrzymane w tej analizie są bliźniaczo podobne do tych z pierwszej analizy. Klu-czowe są wartości parametrów wybranego modelu 4.13:

Rysunek 4.13: P.1 (stop=none choose=sbc) - Wybrany model

Co ciekawe model wybrany w kroku k = 29 posiada mniejszy współczynnik ASE dla zbiorutestowego niż poprzedni model z drugiej analizy. Co więcej statystyka Mallows’a tak jak w poprzedniejanalizie jest poniżej wielkości stopni swobody modelu. Oznacza to wciąż bardzo dobre dopasowaniemodelu również pod względem tego kryterium. Model poza tym ma największą z dotychczasowychwartość F.


4.5 Analiza 4 - (stop=none choose=cv) cvMethod=Split(10)

W kolejnej analizie, zostanie wprowadzony nowy, dodatkowy współczynnik (kryterium) CV PRESS uży-wany w procesie decyzyjnym zatrzymywania procesu selekcji. Kryterium ocenia przede wszystkimzdolność predykcyjną modelu. Związane jest ono z odrębną metodą statystyczną - walidacją krzyżo-wą opisaną w rozdziale teoretycznym. Należy pamiętać, iż walidacja krzyżowa nie wpływa na budowęmodelu. W poleceniu cvMethod=Split(10) zawarta jest informacja o metodzie podzielenia zbioruuczącego na k = 10 podzbiorów. W metodzie Split kolejne podzbiory składają się z podanych ob-serwacji: {1, k + 1, 2k + 1, 3k + 1, ...}, {2, k + 2, 2k + 2, 3k + 2, ...}, ..., {k, 2k, 3k, ...}.Oprócz takiej metody podziału zbioru uczącego dostępne są również metody Random(k) gdzie przy-dział do podzbiorów jest losowy i Block(k) gdzie pierwszy podzbiór składa się z obserwacji: {1, 2, ..., bn/kc}itd. Wybór k = 10 jest zmotywowany tym iż jest to jedna z dwóch sugerowanych [6] liczb stosowaniak-krotnej walidacji.

Wspomniane kryterium CV PRESS to skrótowy zapis Cross Validation Predicted Residual

Sum of Squares, obliczane jakok∑i=1

SSEi, gdzie SSEi to suma kwadratów reszt dla i-tego pod-

zbioru, modelu otrzymanego z pozostałych podzbiorów. CV PRESS obliczane jest dla każdego krokuprocesu selekcji i jest umieszczane w tabelce podsumowującej proces. Ponieważ kryterium oceniazdolność predykcyjną modelu, logicznym posunięciem wydaje się przeanalizowanie modelu dla któ-rego wartość ta jest globalnie najmniejsza. Z tego powodu w tej analizie sprecyzowane zostały opcje:(stop=none choose=cv), gdzie cv jest stosowanym w SAS skrótem od CV PRESS.

Rysunek 4.14: P.1 (stop=none choose=cv) - Panel kryteriów

Po za włączeniem tych opcji, przy okazji użycia walidacji krzyżowej została włączona równieżopcja cvdetails=all, dzięki której na każdym kroku procesu selekcji, pokazywane są szczegółyzachowania podzielonych k-podzbiorów.

Po wprowadzeniu cvdetails=all SAS zwraca w każdym kroku selekcji dwie tabelki, na rys 4.15przedstawiona jest pierwsza z nich. Jest to tabelka z pierwszego kroku selekcji, w tabelce widaćpodział k-podzbiorów. Jako iż dane uczące zawierają 1619 obserwacji, w ostatnim 10 podzbiorze


Rysunek 4.15: P.1 (stop=none choose=cv) - Szczegóły walidacji krzyżowej krok 1

danych jest 161. Dla każdych k-podzbiorów została obliczona statystyka CV PRESS, szczegóły obli-czania tej statystyki można znaleźć na drugiej tabelce 4.16 :

Rysunek 4.16: P.1 (stop=none choose=cv) - Parametry walidacji krzyżowej krok 1

Informacja przyniesiona wraz z tą tabelką jest bardzo istotna w zrozumieniu działania algorytmuLAR. Jak widać na załączonym rysunku dla każdego k-tego podzbioru, konstruowany jest model zobserwacji znajdujących się w pozostałych podzbiorach. Otrzymany w pierwszym kroku parametr -Intercept, który jest wyrazem wolnym b0 modelu, jest inny dla ogólnego modelu i inny dla modeliskonstruowanych w k-podzbiorach. W tym momencie można zauważyć, że SAS działając algoryt-mem LAR, wykonuje pewne dodatkowe niewidoczne na pierwszy rzut oka obliczenia. Mianowiciealgorytm na podstawie opracowania w rozdziale teoretycznym 2.5.3 działa w ten sposób, iż na po-czątku zmienna zależna jest centrowana, a zmienne niezależne są standaryzowane. Algorytm działawięc na tak stworzonych "sztucznych" zmiennych, SAS przedstawia za to wyniki parametrów któremogą być używane na "oryginalnych" danych. Wykonywane są przez to dwie operacje, pierwsza znich to centrowanie zmiennej zależnej i predyktorów oraz standaryzowanie predyktorów. Na tak przy-gotowanych zmiennych wykonywany jest algorytm, po czym na końcu każdego kroku procesu selekcji(dla otrzymanego α) wykonywana jest druga operacja, przekształcająca otrzymane parametry b̆ napożądane parametry b. Formalny przykład transformacji dla k = 2 kroku.

y̆ = y − ȳ , x̆1 =x1 − x̄1sx1

b̆0 = ¯̆y = 0

y̆ = b̆0 + b̆1 · x̆1


gdzie sx1 to estymowane z próby odchylenie standardowe danej zmiennej. Przekształcając rów-nanie otrzymamy:

y̆ = b̆0 + b̆1 · x̆1

y − ȳ = b̆1 ·x1 − x̄1sx1

y =b̆1sx1· x1 −

b̆1sx1· x̄1 + ȳ

b1 =b̆1sx1

, b0 = ȳ −b̆1sx1· x̄1

w ogólności dla k-zmiennych:

bk =b̆ksxk

, b0 = ȳ −k∑i=1

b̆isxi· x̄i

Warto zauważyć, iż w algorytmie stosuje się standaryzację zmiennych niezależnych aby używaćiloczynu skalarnego jako miary korelacji zmiennych z obecnymi rezyduami.

Wracając do parametrów walidacji krzyżowej, należy zauważyć oprócz powyższego jeszcze jednąrzecz, która zobrazowana została na kolejnym rysunku 4.17:

Rysunek 4.17: P.1 (stop=none choose=cv) - Parametry walidacji krzyżowej krok 2

Parametr zmiennej Sil dla kroku k = 2 wynosi b1 = 0.00611. Parametry równania regresji

e2 ∼ (A2) = e2 ∼ (Sil) (4.2)

wyznaczone za pomocą MNK wynoszą: η0 = −2.568836, η1 = 0.30484. Można więc zauważyć, iżα ≈ 0.02004, ponieważ zmiana jest liniowa dla wszystkich parametrów w modelu: b0 ≈ 6.300556 +0.02004 · −2, 568836 = 6, 249065.

Inaczej sytuacja przedstawia się dla modeli estymowanych w walidacji krzyżowej. Przy budowaniutych modeli zastosowana jest zmodyfikowana wersja algorytmu LAR. Zmienna która w danym krokujest wprowadzana do modelu jest co prawda zmienną wyznaczoną przez algorytm działający przybudowie głównego modelu, jednak w odróżnieniu od głównego modelu, dla walidacji krzyżowej wkażdym przypadku α = 1 czyli parametry uzyskiwane są za pomocą MNK. Można to zauważyćbadając współczynniki modelu regresji

ĕ2 ∼ (Ă2) = ĕ2 ∼ ( ˘Sil)

wyznaczone za pomocą MNK: η̆0 = 0, η̆1 = 1.3349. Jak widać równość współczynników α dla głów-nego modelu i modeli otrzymywanych przy walidacji krzyżowej nie jest zachowana. Zastosowaniezmodyfikowanego w ten sposób algorytmu LAR jest możliwe również dla głównych obliczeń parame-trów. Ta kwestia zostanie omówiona w kolejnej analizie.

Po przeanalizowaniu sposobu obliczania CV PRESS przez SAS, można zbadać szczegóły otrzy-manego w ten sposób modelu. Jak widać na rysunku 4.14 optymalny model pod kątem wprowadzo-nego kryterium uzyskiwany jest w kroku k = 24. Szczegóły wybranego w 24 kroku modelu prezentujerysunek 4.18. Co prawda wartość F wybranego modelu jest największą wartością spośród wszystkich


dotychczas wybranych, jednak wszystkie inne wartości kryteriów są gorsze. Cp przekracza dwukrot-ność liczby stopni swobody modelu co dyskwalifikuje ten model pod kątem tego kryterium. Ponadtomożna zaobserwować największą do tej pory różnicę między ASE z obecnego modelu a ASE z modelugdzie wartość ta była najmniejsza czyli z modelu otrzymanego w pierwszej analizie. O ile w poprzed-niej analizie, przyrost ASE (był to dotychczas największy przyrost) wyniósł 0.7477−0.74500.7450 ≈ 0.3% o tyleprzy obecnie wybranym modelu wynosi on 0.7734−0.74500.7450 ≈ 3.8%. Można więc powiedzieć, że takawartość ASE jest niezadowalająca. Sytuacja ma się analogicznie do ASE ze zbioru testowego. DlacvMethod=Split(5) (alternatywna proponowana liczba podzbiorów) cała analiza wygląda niemalidentycznie.

Rysunek 4.18: P.1 (stop=none choose=cv) - Wybrany model


4.6 Analiza 5 - (stop=none choose=cp) lscoeffs

W czwartej analizie, przy okazji omawiania walidacji krzyżowej przedstawiony został wniosek, iż efek-ty w każdym kroku dla modeli ze zbiorów walidacji wyznaczane były za pomocą algorytmu LAR (takjak główny zbiór uczący) ale ich współczynniki obliczane były za pomocą MNK a nie w sposób przed-stawiony w LAR. W tej analizie zaprezentowana zostanie właśnie taka, hybrydowa wersja LAR dlabudowy głównego modelu.

Taką zmodyfikowaną wersje algorytmu LAR uzyskuje się poprzez opcję lscoeffs, co jest skró-tem od Least Squares Coefficients. Początkowy krok w którym zostaje dodany parametr b0 jest

Rysunek 4.19: P.1 (stop=none choose=cp) lscoeffs - krok 1

identyczny. Pierwszą różnicę widać na rysunku 4.19 w tabelce "Ocena parametrów", w porównaniuz pierwszym krokiem niezmodyfikowanej wersji algorytmu 4.2, współczynniki różnią się od siebie. Wpierwszym kroku hybrydowej wersji LAR został poczyniony pełen krok (α = 1) w kierunku parame-trów równania regresji przedstawionego we wcześniejszej analizie 4.2.


Rysunek 4.20: P.1 (stop=none choose=cp) lscoeffs - Podsumowanie

W związku ze zmianą sposobu obliczania parametrów, zmieniają się również wartości wszystkichwspółczynników i kryteriów otrzymywanych wraz z każdym krokiem procesu selekcji 4.20. Wartościkryteriów otrzymywane wraz z modelami budowanymi za pomocą hybrydowej wersji algorytmu osią-gają optymalne wartości wcześniej niż przy poprzednich analizach. W tej analizie kryterium użytym dowybrania finalnego modelu jest globalne minimum Cp. Jak widać na podsumowaniu, " * " zaznaczonajest dla Cp przy kroku k = 24.

Na rysunku 4.21 widać, że optymalna wartość Cp osiągana jest w tym samym kroku co optymal-ne wartości AIC, AICC, BIC oraz PRESS. Ostatni współczynnik nie był używany we wcześniejszychanalizach, jest to współczynnik otrzymywany przy walidacji krzyżowej n-krotnej gdzie n jest liczbąobserwacji zbioru. Taka walidacja nosi nazwę Leave-one-out co w dosłownym tłumaczeniu ozna-cza "zostaw jeden poza". Do k-tego podzbioru danych uczących włączane są wszystkie oprócz k-tejobserwacji, a ta obserwacja tworzy zbiór testowy. Następnie sumy kwadratów reszt z n-zbiorów te-stowych są sumowane i w ten sposób powstaje PRESS.


Rysunek 4.21: P.1 (stop=none choose=cp) lscoeffs - Kryteria dopasowania

Rysunek 4.22: P.1 (stop=none choose=cp) lscoeffs - Ewaluacja współczynników


Współczynnik ten zostaje obliczony domyślnie, przy określeniu hybrydowego algorytmu LAR, mi-mo iż w przykładzie walidacja krzyżowa nie była włączona przez żadną opcję. Skorygowany współ-czynnik determinacji osiąga swoją optymalną wartość w kroku k = 29 jednak dla kroku k = 24 jeston wciąż najwyższy spośród wszystkich wybranych dotychczas modeli.

Na panelu standaryzowanych współczynników4.22 wyraźnie widać bardziej "agresywne" podej-ście takiego algorytmu, szczególnie dla początkowych kroków. Po wprowadzeniu wszystkich zmien-nych do modelu - czyli dla ostatniego z modeli otrzymane współczynniki równają się współczynnikomotrzymanym w ostatnim kroku procesu selekcji niezmodyfikowanego algorytmu LAR. Porównując

Rysunek 4.23: P.1 (stop=none choose=cp) lscoeffs - ASE

wykresy ASE dla hybrydowego algorytmu 4.23 i dla niezmodyfikowanego 4.6, można stwierdzić iżhybrydowa wersja algorytmu szybciej od standardowej osiąga lepsze dopasowanie. Pierwszy krokgdzie wartość ASE < 1 dla algorytmu zmodyfikowanego jest osiągnięta już dla k = 6, podczas gdyw standardowej wersji algorytmu k = 14. W związku z tym wyniki testów statystycznych ANOVA dlawprowadzanych zmiennych znacznie się różnią. Dla hybrydy LAR, model jest szybciej dopasowy-wany - dobrze wyjaśniany przez mniejszą ilość zmiennych. Dlatego też, większość predyktorów odkroku k = 23 okazuje się być nieistotna dla modelu.

Wybrany model, czyli model z kroku k = 24 osiąga najwyższe dotychczas wartości F i standary-zowanego współczynnika determinacji. Wartość Cp jest mniejsza od stopni swobody modelu co ozna-cza bardzo dobre dopasowanie pod kątem tego kryterium. Wartości ASE dla tak wybranego modelusą nieznacznie gorsze niż w najlepszym dotychczasowym modelu. Widoczna jest również różnicaw testach statystycznych ANOVA, i wybrany w ten sposób model, dla poziomu istotności α = 0.05zawiera jedną nieistotną dla modelu zmienną - Szb.


Rysunek 4.24: P.1 (stop=none choose=cp) lscoeffs - Wybrany model


4.7 Analiza 6 - (stop=none choose=cp) modelaverage

W ostatniej analizie zostanie przedstawione inne podejście do uzyskania parametrów równania re-gresji. We wszystkich poprzednich analizach, zbiór danych podzielony był na zbiór uczący (75%) izbiór testowy (25%). Podział był stały więc w każdej z analiz, model konstruowany był na tym samympodzbiorze danych. W tej analizie do otrzymania optymalnych parametrów zostanie wybranych 100modeli, budowanych na losowo wybranych obserwacjach z łącznego zbioru. Tak więc ze wszystkichdanych, każdorazowo zostanie wylosowany zbiór zawierający 1619 obserwacji (wciąż 75% obser-wacji całego zbioru, wylosowane obserwacje nie będą mogły się powtarzać), i każdorazowo spo-śród modeli otrzymanych w procesie selekcji zostanie wybrany ten dla którego wartość Cp będzienajmniejsza. Następnie parametry tak wybranych modeli zostaną uśrednione. W podstawowych in-

Rysunek 4.25: P.1 (stop=none choose=cp) modelaverage - Podstawowe informacje

formacjach 4.25 otrzymanych w rezultacie zdefiniowanej w ten sposób procedury, oprócz znanychinformacji pojawia się również informacja o metodzie samplowania (wybierania danych uczących),procentowej wielkości każdorazowo wybranego podzbioru, oraz liczby przeprowadzanych prób (licz-by wybranych modeli). Wybrana metoda Simple Random Sampling ustala iż, obserwacje wybieranesą bez powtórzeń. Alternatywną dla tej metody jest metoda Unrestricted Random Sampling, gdziewybrane obserwacje mogą się powtarzać, ustala się wtedy liczebność zbioru uczącego.

W związku z wielokrotnością wyboru modelu, SAS zwraca statystyki opisujące częstość wystą-pień danych predyktorów w modelach 4.26. W przypadku tak wielu zmiennych niezależnych, szcze-góły lepiej przedstawia tabelka 4.27, jednak już z załączonego rysunku widać że tylko około dwietrzecie predyktorów znajdowała się w każdym wybranym modelu.


Rysunek 4.26: P.1 (stop=none choose=cp) modelaverage - Najpopularniejsze predyktory

Rysunek 4.27: P.1 (stop=none choose=cp) modelaverage - Częstotliwość predyktorów


Zarówno rysunek jak i tabelka zawierają tylko te predyktory które pojawiły się w więcej niż dwu-dziestu modelach, w tym przypadku są to wszystkie predyktory. Porównanie tej informacji z modelemwybranym w podsumowaniu przykładu, będzie mogło pomóc w ocenie wpływu z góry narzuconegopodziału na zbiór testowy i uczący na wybór danych predyktorów. Kolejna tabelka 4.28 przedstawia

Rysunek 4.28: P.1 (stop=none choose=cp) modelaverage - Liczebność wyborów modeli

liczebność wybranych modeli. Można zauważyć, iż wybrane modele bardzo rzadko się powtarzały, 2najczęstsze modele pojawiły się tylko po 3 razy. W sumie pojawiło się więc aż 88 różnych od siebiemodeli, wszystkie wybrane na podstawie tego samego kryterium, gdzie jedyną różnicą był począt-kowy podzbiór danych. Analizując tą tabelkę, wzrasta więc świadomość trudności wyboru, jedynegonajlepszego modelu. Należy jednak zauważyć, iż różnice w tych modelach są niewielkie, i najczęściejróżnią się od siebie o zmienne które są prawdopodobnie mało istotne dla danego modelu. Trzeba pa-miętać również o tym, iż modele w tym przykładzie zostały wybrane na podstawie Cp - współczynnikaczęsto używanego przy metodzie LAR, jednak co zostało pokazane w poprzednich analizach, niezawsze najlepszego. Ostatnie dwie tabelki zwracane w rezultatach przez SAS odnoszą się do para-metrów wybranych modeli.


Rysunek 4.29: P.1 (stop=none choose=cp) modelaverage - Statystyki parametrów

Pierwsza z nich 4.29 przedstawia statystyki wyestymowanych parametrów, czyli średnią, odchy-lenie standardowe i kwartyle. Porównanie wybranego finalnie modelu ze średnimi wartościami para-metrów otrzymanych w tej analizie pozwoli stwierdzić czy wybrany finalnie model zbudowany był naodpowiednim podzbiorze danych.

Druga z tabelek 4.30 przedstawia histogramy czyli estymowane rozkłady dla 9 pierwszych para-metrów. Parametry występują w tabelkach w kolejności odpowiadającej częstości pojawiania się ichw wybranych modelach. Porównując wszystkie z tabelek można stwierdzić, iż estymowane rozkładydla parametrów efektów pojawiających się najczęściej mają rozkłady zbliżone do normalnego.


Rysunek 4.30: P.1 (stop=none choose=cp) modelaverage - Rozkłady parametrów

Przy użyciu komendy modelaverage SAS nie wyświetla szczegółów finalnie wybranego modelu,a jedynie średnie parametry. Dlatego też, szósta analiza traktowana jest jako dodatkowe porównanie,i alternatywną koncepcję wyznaczania parametrów modelu.


4.8 Podsumowanie analiz

Po 6 przeprowadzonych analizach, nadszedł czas na podsumowanie i wybranie jednego, najlep-szego modelu. Dla ułatwienia wyboru, poniżej 4.2 sporządzona została tabelka podsumowująca, znajważniejszymi parametrami wybranego w każdej z analiz modelu. (L. ef. (Pr. > F) > 0.05) ozna-cza liczbę efektów w danym modelu dla których wartość testu statystycznego ANOVA przekroczyłapoziom istotności α = 0.05. (L. ef. < 95%) oznacza liczbę efektów w danym modelu których częstośćwystępowania w przeprowadzonej w 6 analizie symulacji wyniosła mniej niż 95%. Dodany został rów-nież współczynnik Cp/DF, gdyż wiele publikacji zaleca przy stosowaniu LAR wybieranie modeli dlaktórych wartość takiego współczynnika jest mniejsza od 1.

Współczynnik Analiza 1 Analiza 2 Analiza 3 Analiza 4 Analiza 5

DF 36 30 29 24 24Wartość F 160.07 192.32 198.65 230.59 240.30Adj R-Sq 0.7797 0.7801 0.7799 0.773 0.7802

AIC 1218.39659 1209.65122 1210.36621 1255.02397 1202.94929AICC 1220.27254 1210.98288 1211.61636 1255.90588 1203.83120BIC -398.87379 -408.02705 -407.45727 -364.68775 -415.15155Cp 37.00000 28.18345 28.84396 73.36503 21.37935

Cp/DF 1.028 0.939 0.9946 3.057 0.8908SBC -203.18955 -244.27229 -248.94688 -231.23693 -283.31161

ASE (Train) 0.74499 0.74649 0.74774 0.77342 0.74894ASE (Test) 0.80653 0.80750 0.80747 0.82483 0.81274

L. ef.(Pr. > F)> 0.05 7 1 0 0 1

L. ef. < 95% 10 4 3 1 1

Tabela 4.2: P.1 Zestawienie wybranych modeli

Najlepszymi kandydatami na optymalny model są modele otrzymane w analizie 3 oraz 5. Mo-del otrzymany w piątej analizie czyli model otrzymany z hybrydowej wersji algorytmu LAR, posiadanajlepsze wartości dla wszystkich możliwych kryteriów. Jednak jak widać, model który teoretycznieposiada najlepsze wartości kryteriów, posiada gorszą od modelu trzeciego wartość ASE zarówno wzbiorze uczącym jak i testowym, co więcej model z analizy trzeciej, nie zawiera w sobie zmiennychdla których (Pr.>F)> 0.05 , w przeciwieństwie do modelu 5. Wadą trzeciego modelu, w zestawieniu zpiątym, jest za to większa liczba zmiennych. W momencie wdrażania modeli tego typu do realnych sy-tuacji, często może okazać się, że model "potrzebujący" większą liczbę danych, więcej też kosztuje.W realnej sytuacji, gdy priorytetem jest uzyskanie najlepszego możliwego modelu przy danym limiciekosztów, model 5 wydaje się być wciąż bardzo dobrym rozwiązaniem. Finalnie jednak, wybrany wtym przykładzie optymalny model to model z analizy 3.


Wybrany więc finalnie model posiada następujące parametry:

Rysunek 4.31: P.1 - Parametry wybranego modelu

Dzięki opcji stb komendy MODEL standaryzowane współczynniki zostają wyświetlane obok wy-estymowanych parametrów modelu. Pięcioma najbardziej wpływającymi na zarobki bramkarzy czyn-nikami (według wybranego modelu) są:

1. Chwytanie

2. Współpraca

3. Refleks

4. Siła

5. Ustawianie się

Wśród tych efektów największe przewidywane wartości zmiennej zależnej osiągają zmienne Chwy-tanie i Refleks. Wartości tych parametrów znacznie wyróżniają się na tle pozostałych. Porównującparametry wybranego modelu ze średnimi parametrami otrzymanymi w ostatniej analizie 4.29 moż-na stwierdzić, iż nie występują żadne znaczące anomalie w wybranym modelu. Podział początkowychdanych zastosowany we wszystkich analizach wydaje się więc być "bezpieczny".


4.9 Wybrany model - zastosowania

W ostatnim podrozdziale przykładu pierwszego, zostaną przedstawione przykładowe zastosowaniaotrzymanego modelu.

Pierwszym z nich jest znalezienie obserwacji "niedocenionych". Za pomocą komendy SCORE, dlawskazanego zbioru danych, (w przypadku tego przykładu zbioru początkowego) obliczane są warto-ści zmiennej zależnej przy użyciu otrzymanego modelu. Dla lepszego zobrazowania sytuacji oblicza-na zmienna - Placalog, zostanie przetransformowana do zmiennej Placa. Na rysunku 4.32 zostały

Rysunek 4.32: P.1 - Zastosowania

obliczone wartości zmiennej zależnej dla pierwszych trzydziestu obserwacji z początkowego zbio-ru danych (zmienna placao to przetransformowana z powrotem zmienna p_Placalog). Jak widać,wszystkie z występujących obserwacji mają większe wartości zmiennej zależnej, od tych otrzymanychprzez model. Wiąże się to z faktem, iż wariancja możliwości płacowych wśród wszystkich klubów naświecie jest bardzo duża w porównaniu z wariancją "możliwości" bramkarzy. Najlepsze kluby piłkar-skie są w stanie płacić bardzo dużo najlepszym bramkarzom, których cechy mogą niekiedy być tylkonieznacznie lepsze od bramkarzy zarabiających kilkanaście razy mniej. Można więc powiedzieć, żenajlepiej zarabiający bramkarze, zarabiają często kilka (a nawet kilkanaście) razy za dużo w stosunkudo ich umiejętności.


Kwintesencją zastosowania modelu, jest jednak poniższy przykład przedstawiony na rysunku 4.33.Bramkarz zajmujący w bazie danych miejsce n = 1047 czyli Juan Castillo, zarabia w swoim obec-

Rysunek 4.33: P.1 - Okazja

nym klubie (liga chilijska) około 17 razy mniej niż mógłby zarabiać dzięki swoim umiejętnościom.Nie wiadomo czy dany bramkarz chciałby przenieść się na inny kontynent za 17 razy większa płacę(choć prawdopodobnie tak) ale ta informacja, może być ciekawa dla klubów chociażby z bogatszej ligibrazylijskiej. Na podobnej zasadzie mogą działać analogiczne modele np. na rynku nieruchomości.

Rozdział 5

Przykład 2

5.1 Dane

Baza danych wykorzystywana w tym przykładzie zawiera 12 zmiennych i 203 obserwacji. Składa sięz ofert sprzedaży nieruchomości umieszczanych w serwisie otodom w okresie kwiecień-maj 2014roku. Oznaczenia zmiennych w modelu:

Symbol Opiscena cena nieruchomości [tys. PLN]

cenalog ln(cena)id numer nieruchomości

pow powierzchnia użytkowa [m2]pow_dzialk powierzchnia działki [m2]

l_pok liczba pokoipietro piętro

dzielnica dzielnicatyp typ nieruchomości

rodz_bud rodzaj budynkurok_bud rok budowy

zrodl pośrednik nieruchomościfreq waga

Tabela 5.1: P.2 Tabela cech nieruchomości

Zmienne pow, pow_dzialk, l_pok, pietro, rok_bud, cena są zmiennymi numerycznymi. Zmien-na freq to zmienna wagowa przeznaczona dla komendy FREQ. Przypisuje ona częstość występowa-nia danej obserwacji w porównaniu z innymi. Jeśli wartość tej zmiennej nie jest liczbą całkowitą toprogram bierze pod uwagę podłogę z tej liczby, a jeśli liczba ta jest mniejsza od 1 lub w ogóle niejest podana to program pomija tę obserwację. Dzięki wprowadzeniu tej zmiennej model staje się bar-dziej rzeczywisty (zmienna jest stworzona proporcjonalnie do ilości podobnych do danej obserwacjiogłoszeń, nie umieszczonych w bazie). Zmienna id nie będzie użyta w modelu. Pozostałe zmienneto predyktory jakościowe, zostaną one użyte jako zmienne klasyfikujące.

5.1.1 Komenda CLASS

Ponieważ, analizowane w tym przykładzie dane zawierają wiele zmiennych klasyfikujących, w kolej-nych analizach używana będzie komenda CLASS.

Objaśnienia zmiennych klasyfikujących:

45


• dzielnica - dzielnica Gdańska w której znajduje się nieruchomość. Wyróżniamy: Przymorze,Matarnia, Ujeścisko, Morena, Zakoniczyn, Sródmieście, Stogi, Osowa, Orunia, Żabianka, Oli-wa, Zaspa, Jasień, Siedlce, Przeróbka, Jelitkowo, Łostowice, Chełm, Kiełpinek, Suchanino, Ko-koszki, Niedźwiednik, Piecki, Strzyża, Klukowo, Kowale, Poza(miejscowości poza Gdańskiemponiżej 10 km do centrum Gdańska)

• typ - typ nieruchomości. Wyróżniamy : m(mieszkanie), d(dom).

• rodz_bud - rodzaj budynku, który jest na sprzedaż bądź jego część. Wyrózniamy: blok, kamie-nica, apartament, woln(dom wolnostojący), szer(szeregowiec), bliz(bliźniak).

• zrodl - agencja, która pośredniczy w sprzedaży nieruchomości. Wyróżniamy: wittman, metro-house, facedom, lc, vesta, homebroker, północ, homeasset, forma-t, Pawlikowska, Tyszkiewicz,Waszkiewicz, M&M, cichyport, Geraszek, bi, kthome, pryw(ogłoszenie prywatne).

Komenda CLASS umożliwia zmiennym klasyfikującym (w tym przypadku tekstowym) udział w bu-dowaniu modelu. Aby tego dokonać tworzona jest parametryzacja tych zmiennych. Przy korzystaniuz algorytmu LAR, SAS domyślnie dla zmiennych klasyfikujących wprowadza opcję split, co ozna-cza że każda klasa każdej zmiennej, traktowana jest jako osobna zmienna (w postaci określonejprzez sposób parametryzacji danej zmiennej klasyfikującej). W kolejnych przykładach zostanie zapre-zentowanych kilka opcji parametryzacji zmiennych klasyfikujących i zostaną opisane różnice międzyposzczególnymi kodowaniami. Liczba efektów, które będą brane pod uwagę przy budowie modelubędzie więc większa niż liczba zmiennych niezależnych w zbiorze danym. Dzięki użyciu komendyCLASS można uzyskać informację o wpływie dzielnicy na cenę nieruchomości.

5.1.2 Wybór początkowych zmiennych

Przed przystąpieniem do analiz należy przypomnieć, że do tworzenia modelu nie zawsze warto uży-wać wszystkich zmiennych znajdujących się w początkowej bazie danych. Tak jest i w tym przypadku.Często zdarza się, że dany pośrednik nieruchomości bądź agencja działa na pewnym terenie, bądźpośredniczy przy sprzedaży tylko bardzo drogich mieszkań i apartamentów. Oznacza to, że zmien-ne w pewnym sensie się dublują i uwzględniając zależność przyczynowo skutkową można pominąćzmienną zrodlo. Gdyby jednak istniała potrzeba dostrzeżenia różnic między pośrednikami działają-cymi na tym samym terenie, baza danych musiałaby być znacznie większa niż ta, która jest używanaw analizach.

Drugim istotnym założeniem, jest używanie transformacji logarytmicznej na zmiennej cena, jakoiż ceny nieruchomości w stosunku do ich parametrów najczęściej nie zmieniają się liniowo. Stosunekten lepiej opisuje funkcja wykładnicza, podobnie jak miało to miejsce w przykładzie pierwszym.

W przykładzie 2 szukamy więc optymalnego uogólnionego modelu regresji w postaci:

cenalog = b0 + b1 · pow + b2 · pow_dzialk + ...+ bp−1 · rodz_bud_woln (5.1)


5.2 Analiza 1 - (stop=none choose=cv) cvMethod=Split(5)

Ponieważ modelowanie cen nieruchomości, wykonuje się najczęściej po to by prawidłowo ocenić ryn-kową wartość danej nieruchomości, w każdej z analiz kluczowym kryterium wyboru modelu będzie jaknajlepsze dopasowanie modelu do zmiennych które nie brały udziału przy jego budowie. Ponieważzbiór jest zbyt mały aby podzielić go na podzbiór uczący i testowy, w każdym z przykładów zosta-nie zastosowana walidacja krzyżowa z przedstawianą wcześniej jako jedną z najlepszych wartościąk = 5. Kluczowym kryterium przy wyborze modelu będzie więc CV PRESS opisany szczegółowo przyjednej z analiz 4.5 przykładu pierwszego. Metoda walidacji krzyżowej wykorzystywana w kolejnychanalizach to podobnie jak w pierwszym przykładzie Split.

Podstawowe informacje odnośnie procesu selekcji zaprezentowane zostały na rysunku 5.1.

Rysunek 5.1: P.2 (stop=none choose=cv) Podstawowe informacje

Rysunek 5.2: P.2 (stop=none choose=cv) Zmienne klasyfikujące

Oprócz wszystkich omawianych wcześniej informacji, pojawiła się informacja o zmiennej posiada-jącej wartości frekwencji dla danej obserwacji, w tym wypadku jest to zmienna freq. Mimo że baza


danych posiada 202 obserwacji, po uwzględnieniu frekwencji, można powiedzieć iż model będziebudowany na 3298 obserwacjach.

Kolejną nie spotykaną we wcześniejszych analizach informacją, jest ta zamieszczona na ry-sunku 5.2. Jest to informacja o poziomach klasyfikacji zmiennych klasyfikujących. Wymienione sąwszystkie możliwe wartości poszczególnych zmiennych. Poniżej tej tabelki, przedstawiona jest tabel-ka z wymiarami. Liczba efektów jest równa 9, gdyż podobnie jak w pierwszym przykładzie, jeden zefektów jest odpowiedzialny za wyraz wolny. Wyświetlana jest również liczba efektów po "splitowa-niu" która jest równa liczbie rozważanych parametrów. Wartości te są zależne od sposobu kodowa-nia zmiennych klasyfikujących. W rozważanym tutaj przypadku wykorzystany jest domyślny sposóbkodowania zmiennych klasyfikujących, czyli param=glm, opcja komendy CLASS. Szczegóły takiegokodowania przedstawione zostały na rysunku 5.3: Na rysunku przedstawione jest kodowanie meto-

Rysunek 5.3: P.2 (stop=none choose=cv) Szczegóły param=GLM

dą GLM (model przeparametryzowany) dla zmiennych rodz_bud i typ. W tej metodzie kodowaniadla p wartości zmiennych klasyfikujących powstaje p zmiennych zero-jedynkowych (oznaczone ja-ko zmienne planu). I tak zmienna typ dla wartości d kodowana jest jako (1, 0) a dla m jako (0, 1).Kodowanie zmiennych klasyfikujących tym sposobem prowadzi do tego że rz{X} < k gdzie k jestliczbą zmiennych niezależnych w macierzy. W związku z tym do obliczenia macierzy (X′X)−1 trzebastosować dodatkowe metody. Takie podejście wydaje się być mniej oszczędne od alternatywnego po-dejścia określanego przez opcję param=effect. Ta metoda kodowania zmiennych klasyfikujących,nazywana metodą z sigma-ograniczeniami została przedstawiona na rysunku 5.4. Różnicą tej me-tody jest to iż do zakodowania zmiennej klasyfikującej posiadającej p wartości, potrzebne jest p − 1zmiennych. W tym przypadku do zakodowania zmiennej typ użyta jest jedna zmienna (o mylącejnazwie) typ_d. Ujemny parametr tej zmiennej, będzie oznaczał iż ceny mieszkań w bazie danychsą średnio większe od cen domów. Analogicznie ma się sytuacja dla drugiej zmiennej klasyfikującejwidocznej na rysunku. Informacja o parametrze rodz_bud =woln znajduje się we wszystkich nowostworzonych pięciu zmiennych. Jeśli parametr zmiennej rodz_bud_apartament okaże się mniejszyod zera, będzie oznaczało to iż rodz_bud =woln są średnio droższe niż rodz_bud =apartament,itd. Widoczna jest również różnica między tabelkami "wymiary" dla różnych metod kodowania. W tymprzypadku liczba efektów po "splitowaniu" jest mniejsza o liczbę używanych w selekcji zmiennychklasyfikujących czyli 3. Oprócz zaprezentowanych tutaj sposobów kodowania zmiennych klasyfiku-jących, w SAS dostępnych jest wiele innych, podobnych metod kodowania, w wyniku których dlap poziomów tworzonych jest najczęściej p − 1 zmiennych, lecz w odróżnieniu od param = effectzmienna dwupoziomowa może być kodowana w inny sposób, np. jako jedna zmienna o wartościach(1) i (2) dla kodowania wielomianowego.


Rysunek 5.4: P.2 (stop=none choose=cv) Szczegóły param=effect

Warto mieć również na uwadze fakt, iż dla param=glm mimo iż tworzą się 42 efekty, ostatni krokselekcji to k = 39, SAS aby obliczyć macierz (X′X)−1 pozbywa się z niej kolumn liniowo zależnych, wkonsekwencji np. dla zmiennej typ w modelu zwracanym w ostatnim kroku nie istnieją dwie zmiennetyp_d i typ_m, lecz tylko jedna z tych zmiennych. Wtedy rzeczywisty sposób kodowania tej zmiennejto nie (1, 0) i (0, 1), lecz po prostu (1)i(0). Należy zwracać szczególną ostrożność przy interpretacjiotrzymanych współczynników modelu.

Wybór metody kodowania zmiennych klasyfikujących mimo iż teoretycznie nie powinien wpływaćna proces selekcji, w przypadku algorytmu LAR, ma duże znaczenie co zostanie zobrazowane naponiższym przykładzie.

Niech metodą kodowania zmiennych klasyfikujących będzie param=effect i niech

X =

1 0 0

0 0 1

0 1 0

−1 −1 −1−1 −1 −1

będzie wektorem obserwacji, gdzie 3 kolumny A1, A2, A3 odpowiadają trzem zmiennym powstałymprzez zakodowanie zmiennej klasyfikującej A danym sposobem. Liczba obserwacji dla uproszczeniaprzykładu jest równa 5. Niech

ek =

3

−20

−20

będzie wektorem obecnych rezyduów w danym kroku procesu selekcji. Ponieważ LAR używa zmien-


nych standaryzowanych macierz, brana pod uwagę w procesie selekcji to:

X ≈

1.603567451 0.267261242 0.267261242

0.267261242 0.267261242 1.603567451

0.267261242 1.603567451 0.267261242

−1.069044968 −1.069044968 −1.069044968−1.069044968 −1.069044968 −1.069044968

Korelacje zmiennych z obecnymi rezyduami prezentują się więc następująco:

|〈A1, ek〉| ≈ 6.4

|〈A2, ek〉| ≈ 2.4

|〈A3, ek〉| ≈ 0.3

Następnie niech metodą kodowania zmiennej klasyfikującej będzie domyślna opcja param=glm,wtedy

X =

1 0 0

0 0 1

0 1 0

0 0 0

0 0 0

po standaryzacji:

X =

2 −0.5 −0.5−0.5 −0.5 2−0.5 2 −0.5−0.5 −0.5 −0.5−0.5 −0.5 −0.5

Korelacje zmiennych z obecnymi rezyduami prezentują się tym razem następująco:

|〈A1, ek〉| = 8

|〈A2, ek〉| = 0.5

|〈A3, ek〉| = 4.5

O ile w obu przypadkach zmienną wprowadzoną do modelu byłaby A1 o tyle kolejnym naturalnymkandydatem w pierwszym przypadku byłby A2 a w drugim przypadku A3. Gdyby więc selekcja za-kończyła się za 2 kolejne kroki, modele zbudowane by były z innych zmiennych. Dla param=effectdo modelu zostałaby wprowadzona zmienna "odpowiadająca" obserwacji (0, 1, 0), dla której wartośćrezyduów wynosi 0, nie zostałaby za to wprowadzona zmienna "odpowiadająca" obserwacji (0, 0, 1),dla której wartość rezyduów wynosi −2, więc która lepiej wyjaśnia obecne rezydua. Z tego wynika iżkodowanie drugim sposobem czyli param=glm przynosi w tej sytuacji lepsze rezultaty, i ten sposóbkodowania zmiennych klasyfikujących będzie użyty w kolejnych analizach.


Proces selekcji w pierwszej analizie przebiega więc następująco 5.5.

Rysunek 5.5: P.2 (stop=none choose=cv) Wykres standaryzowanych współczynników

Rysunek 5.6: P.2 (stop=none choose=cv) Panel kryteriów


Jak widać na rysunku, współczynnik CV PRESS osiąga swoje globalne minimum w kroku k = 11,co więcej widoczne jest znaczne przeuczenie modelu dla kolejnych kroków. Więc mimo iż pozostałekryteria wskazywałyby na późniejsze zatrzymanie procesu selekcji 5.6 to należy pamiętać o priory-tecie ustalonym przy poszukiwaniu optymalnego modelu, czyli jak najlepszej zdolności predykcyjnejmodelu.

Zanim zostaną przedstawione szczegóły tak wybranego modelu, warto zwrócić uwagę na standa-ryzowane współczynniki zmiennej klasyfikującej rodz_bud 5.7. Należy pamiętać iż ponieważ klasa

Rysunek 5.7: P.2 (stop=none choose=cv) Współczynniki dla zmiennej parametryzowanej

rodz_bud_blok jest kodowana jako wektor zerowy, każda z utworzonych zmiennych zawiera infor-macje nie tylko o odpowiadającej jej klasie, ale także o klasie rodz_bud_blok. Odczytując standa-ryzowane współczynniki można dostrzec iż jeśli rodz_bud = woln to cena nieruchomości spadao dany parametr, w przeciwieństwie do rodz_bud = blok gdzie pozostaje ona bez zmian. Standa-ryzowane współczynniki pokazują więc w dobry sposób wpływ danego rodzaju budynku na cenęnieruchomości.

Rysunek 5.8: P.2 (stop=none choose=cv) Wybrany model

Wybrany w tej analizie model 5.8 to model z kroku k = 11. Co prawda wartości kryteriów dla tegomodelu, np. Cp są bardzo słabe, jednak kierując się ustalonymi priorytetami nie ma sensu szukaćkompromisu w tej sytuacji.

Wartości współczynników wybranego modelu oraz ich standaryzowanych odpowiedników przed-stawione są na poniższym rysunku 5.9. Jak widać, najistotniejszymi zmiennymi wpływającymi na


Rysunek 5.9: P.2 (stop=none choose=cv) Współczynniki wybranego modelu

cenę nieruchomości są:

1. l_pok

2. pow

3. pietro - negatywnie

4. rodz_bud_apartament

5. dzieln_przerobka - negatywnie

6. dzieln_orunia - negatywnie

O ile dwie pierwsze zmienne raczej nie budzą zaskoczenia, o tyle znacząca standaryzowana wartośćparametru zmiennej pietro jest zaskakująca. Sytuacja ta może wynikać z tego iż w bazie danych,zmienna pietro dla typ = d wynosi 0, aby

Documents

PROC GLMSELECT selection=LAR · 2014. 6. 12. · cv - Walidacja krzyzowa (˙ ang. Cross Validation) ANOVA - Analiza wariancji (ang. ANalysis Of VAriance) Cp - Statystyka Mallow’a