94
Analiza Skladowych Glównych Analiza Czynnikowa Porównanie Metod Analiza Skladowych Glównych i Czynnikowa Agata Weltrowska Paulina Zalewska Wydzial FTiMS, Politechnika Gdańska 12 kwiecień 2018 Agata Weltrowska, Paulina Zalewska Politechnika Gdańska Analiza Skladowych Glównych i Czynnikowa

Analiza Sk adowych G ównych i CzynnikowaM3... · 2018-04-25 · Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod Wstęp oraz cele Wprowadzenie W jednej ze swoich

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Analiza Składowych Głównych iCzynnikowa

Agata Weltrowska Paulina Zalewska

Wydział FTiMS, Politechnika Gdańska

12 kwiecień 2018

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wprowadzenie

W jednej ze swoich prac, A.E. Maxwell podaje, że analizaskładowych głównych znacznie wzrosła poprzez podjęte w owychczasach próby identyfikacji kryminalistów, które odbywały się zapomocą zbioru cech antropometrycznych. Alphonse Bertillionzaangażował się w rozwiązanie tego problemu pod koniec XIXwieku, napisał w roku 1893 dzieło pod tytułem ’Identificationanthropometrique’, w którym przedstawił swoje poglądy.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wprowadzenie

Alphonse Bertillion zaproponował, by posłużyć się dwunastomaróżnymi pomiarami ciała dla identyfikacji. Jednakże jego procedurazostała skrytykowana przez Francisa Galtona, który zauważył, iżniektóre z pomiarów są wysoko ze sobą skorelowane (jak naprzykład długość ramienia i nogi), dlatego wykorzystywanie obucech nie miało większego sensu. Zaproponował on wybór takichcech, które nie będą ze sobą znacznie skorelowane.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wprowadzenie

Pracę nad tym tematem kontynuował Karl Pearson (1901), któryna podstawie swoich badań stwierdził, że najlepszymi dowykorzystania pomiarami będą te, które korespondują z pionowymiosiami wielowymiarowej elipsoidy w p-wymiarowej przestrzenipomiarów. Uważa się, że teoretyczne podstawy analizy składowychgłównych zostały wprowadzone właśnie przez Pearsona.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wprowadzenie

W dalszym ciągu metoda była rozwijana przez HaroldaHotellinga (1933), to jego technika wyznaczała główne składoweoraz ładunki składnikowe. Koncepcja analizy składowych głównychbyła stosowana jako losowy wektor, którą rozwijał Hotelling.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Terminologia

Współcześnie spotykamy się z nazwą analiza głównychskładowych (z ang. principal component analysis) lub analizaskładowych, bądź analiza składnikowa (z ang. componentanalysis). Czasami można się spotkać z metodą składowychgłównych lub techniką, wszystkie te określenia są wymienne.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Cel

Celem analizy składowych głównych jest redukcja wymiarowościzłożonego zjawiska, a co za tym idzie redukcja danych, jak równieżbadanie korelacji pomiędzy zmiennymi, a także badanie grupowaniasię, następnie zaklasyfikowanie jednostek do wydzielonych grup.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Przykład

Potrzebna jest ocena nowo powstałego towaru na rynku, jakim sączekoladowe babeczki. Aby dowiedzieć się, czy są onewystarczająco smaczne i czy będą lubiane przez smakoszy, wartojest przeprowadzić ankietę, która zawierać będzie różne cechytowaru, między innymi smak, zapach, kolor, konsystencja, czynawet kolor opakowania.Ankieta ta zawiera 25 pytań, w tym cechy przedstawione wyżej.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Przykład

Wykorzystując analizę składowych głównych można sprawdzić, czyjest możliwość wyodrębnienia najważniejszych cech. Zamiana paruzmiennych na jedną ogólną, przebiega następująco:

ocena wyglądu = kolor, konsystencja, kolor opakowania

Jedna zmienna zastąpi trzy inne.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Definicja

Przypuszczono, że X jest wektorem o p-tej liczbie zmiennychlosowych, oraz że wariancja tych zmiennych losowych i strukturakowariancji lub korelacji pomiędzy p-tą liczbą zmiennych są godnezainteresowania. Chyba, że p jest niewielkie, lub struktura jestbardzo prosta, zazwyczaj wtedy nie jest zbyt pomocne prostespoglądanie na wariancję p i wszystkich z 1

2p(p − 1) korelacji lubkowariancji. Alternatywne podejście ukazuje kilka (� p)1

pochodzących zmiennych, które zachowują większość informacjinadanych przez tą wariancję i korelację lub kowariancję.

1� p - oznacza ’dużo mniejsze niż p’Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Definicja

Pierwszym krokiem analizy składowych głównych jest spojrzenie nafunkcję liniową αT

1 X. Szuka się wektora α1 takiego, żeα = (α11, α12, . . . , α1p), oraz:

z1 = αT1 X = α11X1 + α12X2 + . . .+ α1pXp =

∑pj=1 α1jXj

ma maksimum wariancji.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Definicja

Następnie, rozważa się funkcję liniową z2 = αT2 X. Funkcja ta jest

nieskorelowana z αT1 X oraz ma maksimum wariancji. Wnioskując

dalej, k − ty etap tej funkcji liniowej wygląda następująco: αTk X,

jest również znaleziony, posiada maksimum badanej wariancjibędącej nieskorelowanej z

αT1 X, αT

2 X, . . . , αTk X.

αTk X jest k-tą składową główną. Do p− tej liczby składowe główne

mogą zostać znalezione, w ogólności istnieje nadzieja, żenajwiększa z wariancji w X będzie opisywana przez m składowychgłównych, gdzie m� p.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Twierdzenie

Niech X = (X1,X2, . . . ,Xp)T jest wektorem losowym takim, że

∀j∈(1,p) EXj2 <∞.

Niech Σ oznacza macierz kowariancji. Wówczas składowe główne

zk = αTk X dla k = 1, 2, . . . , p,

gdzie α1, α2, . . . , αp to wektory własne macierzy Σ odpowiadającewartościom własnym λk takim, że

λ1 > λ2 > . . . > λp.

αk została wybrana o długości αTk αk = 1. Ponadto

var(zk) = λk .

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Interpretacja graficzna

Rozważono tutaj przypadek, gdzie p = 2. Korzyścią dla p = 2 jest,oczywiście to, że dane mogą zostać umieszczone na wykresiedokładnie dwuwymiarowym.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Interpretacja graficzna

Wykres składający sięz 50 obserwacji dladwóch zmiennychx1 i x2.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Interpretacja graficzna

Wykres składający sięz 50 obserwacji zodniesieniem do ichskładowych głównychz1 i z2.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Metoda Hotellinga jest jedną z najczęściej stosowanych proceduruzyskiwania składowych głównych. Powstała w roku 1933.Wykorzystuje metodę mnożników Lagrange’a maksymalizacjifunkcji wielu zmiennych.Przyjmijmy, że punktem wyjścia analizy jest macierz kowariancji S.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Rozważmy pierwszą główną składową modelu

Y1 = w11X1 + w21X2 + · · ·+ wp1Xp = w′1x

gdzie w′1=[w11,w21, . . . ,wp1] jest wieszowym wektorem ładunków

składnikowych pierwszej głównej składowej, której wariancjawynosi:

S2(Y1) =p∑

k=1

p∑j=1

wj1wk1sjk = w′1Sw1

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Dla funkcji p współczynniki w11,w21, . . . ,wp1 muszą być takdobrane, aby maksymalizowały wariancję przy warunku w

′1 = 1.

Taki warunek wprowadza ograniczenie na wartości wj1, tak abydługość wektora w, była równa 1, czyli:

w′1w1 =

p∑j=1

w2jl = 1

Warunek ten nazywamy warunkiem normalizującym.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Normalizacja wektorów odbywa się w następujący sposób:

wjl =ajl√∑pj=1 a

2jl

(każda współrzędna dzielona jest przez długość wektora)

gdzie ajl - elementy wektora własnego al związanego z l-tą głównąskładową przed normalizacją

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Dorozwiązania probleu, czyli określenia wektora współczynnikóww′1, który by maksymalizował wariancję pierwszej składowej,

stosuje się metodę Lagrange’a.Mnożnik oznaczony będzie λ1. Funkcja pomocnicznauwzględniająca ograniczenie zdefiniowana będzie następująco:

ϕ = 1−w′1w1 ≡ 0.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Następnie utworzymy funkcję Lagrange’a

L(w1) = S2(Y1) + λ1(1−w′1w1) = w

′1Sw1 + λ1(1−w

′1w1)

zaś obliczoną pochodną względem wektora w1 przyrównamy dozera

∂L

∂w1= 2Sw1 − 2λ1w1 = 2(S − λ1I )w1 = 0

gdzie I jest macierzą jednostkową p × p

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Poszukiwane współczynniki w1, muszą spełniać p jednorodnychrównań liniowych

(S− λ1I )w1 = 0 (∗)

Ponieważ równaniem nie może być wektor zerowy, to λ1 musi byćliczbą spełniającą równanie wyznacznikowe

|S− λ1I |w1 = 0

zatem macierz (S− λ1I ) musi być macierzą osobliwą.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Równanie (*) możemy zapisać:

Sw1 = λ1w1

Wiemy, że λ1 jest wartością własną macierzy S, zaś wektor w1 jestzwiązanym z nią wektorem własnym.Mnożąc następnie powyższe równanie lewostronnie przez w1 iwykorzystując ograniczenie w

′1w1 = 1, otrzymujemy:

w′1Sw1 = λ1w

′1w1 = λ1 = S2(Y1)

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Ponieważ wektor współczynników ma być wybrany tak, abymaksymalizował wariancję S2(Y1), to λ1 musi być największąwartością własną macierzy S.Pierwsza składowa jest zatem w pełni wyznaczona przez parę:wartość własną - wektor własny (λ1,w1).

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

W podobny sposób znajdujemy pozostałe główne składowe.

Postępowanie sprowadza się zatem do znalezienia wartościwłasnych macierzy S, którymi są pierwiastki równania

|S− λI | = 0.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Wektory własne odpowiadające poszczególnym wartościomwłasnym, zgodnie z relacją porządkującą

λ1 > λ2 > · · · > λp

wyznaczają współczynniki składowych. Następnie

(S− λl I )wl = 0

dla l = 1, 2, ..., p

Jednakże wektory rzadko okazują się unormowane po zastosowaniupowyższych wzorów. Należy zastosować odpowiedni wzórnormalizujący.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Metoda Hotellinga

Dla macierzy wariancji S otrzymujemy p par:

(λ1,w1), (λ2,w2), . . . , (λp,wp).

Podsumowując, można powiedzieć, że dla układu p zmiennychXj(j = 1, ..., p)I -tą główną składową jest kombinacja liniowa danarównaniem:

Y1 = w11X1 + w21X2 + · · ·+ wp1Xp

Y2 = w12X1 + w22X2 + · · ·+ wp2Xp

. . .Ym = w1mX1 + w2mX2 + · · ·+ wpmXp

o współczynnikach będących elementami wektora własnegomacierzy S odpowiadającego I -tej co do wielkości wartości własnejλl , tej macierzy.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Kryteria dla liczby składowych

Procent wyjaśnianej wariancji

Wszystkie składowe główne razem stanowią 100% wariancji.Należy wybrać najmniejsza liczbę składowych głównych, którerazem stanowią znaczny procent wariancji (w odniesieniu do sumywszystkich wariancji), wówczas takowe składowe mogą wzadowalający sposób zastąpić pierwotne zmienne.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Kryteria dla liczby składowych

Kryterium Kaisera

Kaiser (1960)Wyodrębnianie istotnych składowych głównych odbywa się to zapomocą interpretowania wysokości pojedynczych wariancji.Kryterium bierze tylko pod uwagę te składowe, których wartośćwłasna przekracza lub jest bliska wartości 1.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Kryteria dla liczby składowych

Wykres osypiska

Cattell (1966)Metoda graficzna - wykres liniowy, który przedstawia wartościwłasne, tempo ich spadku, czyli procentu wyjaśnionej wariancji.Wyznaczanie ilości pozostawionych składowych głównych odbywasię w taki sposób, ze analityk określa miejsce najłagodniejszegospadku, od tego momentu w prawo odrzucane zostają wartościwłasne, ponieważ reprezentują znikoma część wariancji.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Oznaczone trzy wartości własne zostały przyjęte, reszta odrzucona.Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Interpretacja składowych

Analiza składowych głównych ma za zadanie wyznaczyć nowezmienne, tak zwane składowe główne. Interpretacja poleganajczęściej na analizie ’wkładu’ zmiennych pierwotnych w nowazmienna. ’Wkład’ ten rozumieć należy jako kombinacje liniowazmiennych pierwotnych. Każda składowa główna wyjaśnia pewnaczęść zmienności zmiennych pierwotnych.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Definicja, model i kryteria

Zapis składowej głównej (jako kombinacji liniowej) wyglądanastępująco

α1X1 + α2X2 + · · ·+ αpXp

Jeżeli zostanie on zapisany w następujący sposób

αi1Xi1 + αi2Xi2 + . . .+ αipXip

gdzie

|αi1 | ­ |αi2 | ­ . . . ­ |αip |

dla ij = 1, 2, . . . , p oraz ij 6= ik gdy j 6= k

to ’wkład’ budowy składowej głównej wnoszą zmienneXi1 ,Xi2 , . . . ,Xip , które uporządkowane są od największego donajmniejszego.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 1: Wstępna analiza, sprawdzenie założeń

NORMALNOŚĆ ROZKŁADUCzy dany zbiór jest normalny? Założenie to nie jest konieczne, gdyzbiór zawiera bardzo dużą ilość danych.

WIELKOŚĆ PRÓBYWiarygodność otrzymanych wyników analizy zależy od wielkościpróby, która z kolei zależy od siły korelacji między zmiennymi wpopulacji. Przyjmuje się, że minimalna liczebność próby to 50obserwacji.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 1: Wstępna analiza, sprawdzenie założeń

PUNKTY NIETYPOWENietypowe, odstające punkty w zbiorze nie są mile widziane.Zwykle są wynikiem złego pomiaru danych. Wpływają negatywniena wyniki analizy, mogą nawet sfałszować faktyczne zależnościpomiędzy zmiennymi. Najlepszym sposobem by się ich pozbyć, jestwcześniejsze usunięcie je ze zbioru.

BRAKI DANYCHZbiory danych z brakującymi informacjami również nie wpływająpozytywnie na analizę. Dlatego właśnie w sytuacji z brakamidanych najlepiej zastąpić je przez średnie lub usunąć przypadki zbrakującymi danymi.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 1: Wstępna analiza, sprawdzenie założeń

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 2: Wybór macierzy

Należy przyjrzeć się oryginalnym zmiennym. Jeżeli analizowanezmienne będą porównywalne, znaczy to, że będą wyrażone w tychsamych jednostkach (będą znormalizowane), wówczas wykorzystujesię macierz kowariancji. Jeżeli jednak zmienne różnią sięjednostkami, to najlepszym sposobem jest skorzystanie z macierzykorelacji. Wybór jest bardzo ważny, ponieważ nie zawsze składowegłówne otrzymane dla macierzy kowariancji oraz korelacji będąmiały takie same wartości.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 2: Wybór macierzy

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 3: Wyznaczenie wartości i wektorów własnych

Za pomocą procedury PROC PRINCOMP w programie SASEnterprise Guide, wygenerowano tabelę wartości własnychmacierzy korelacji. Wartości własne są miarą zmiennościpierwotnych danych przedstawionych we współrzędnychskładowych głównych.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 3: Wyznaczenie wartości i wektorów własnych

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 4: Wybór składowych głównych

Procent wyjaśnianej wariancji - trzy pierwsze składowe wyjaśniają86, 85% wariancji

Kryterium Kaisera - dwie pierwsze wartości własne

Wykres osypiska - dwie pierwsze składowe

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 4: Wybór składowych głównych

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 4: Wybór składowych głównych

Poniżej przedstawiono schemat dwóch pierwszych składowychgłównych. Obrazuje on nam jak bardzo skorelowane są zmienne zesobą.

Interpretacja: Wykroczenia, które na poniższym schemacie leżąblisko siebie są wysoce ze sobą skorelowane (np. Assault orazRape), zaś te które leżą na przeciwko siebie (np. Auto Theft iMurder) są skorelowane ze sobą ujemnie.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 4: Wybór składowych głównych

Wygenerowane przez program SAS Enterprise Guide.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 4: Wybór składowych głównych

Wygenerowane przez program SAS Enterprise Guide.Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Algorytm działania

Krok 5: Interpretacja i podsumowanie

Przedstawiono poniżej dwie nowe zmienne dla zbioru danych.Wyniki zostały zaokrąglone do trzeciego miejsca po przecinku.

Y1 = 0.300 · Murder+ 0.432 · Rape+ 0.397 · Robbery+ 0.397 ·Assault+0.440 ·Burglary+0.357 ·Larceny+0.295 ·Auto Theft

Y2 = −0.629 · Murder− 0.169 · Rape+ 0.042 · Robbery− 0.344 ·Assault+0.203 ·Burglary+0.402 ·Larceny+0.502 ·Auto Theft

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Analiza czynnikowa

Twórcami głównej koncepcji tej metody są psychologowie CharlesSpearman i Louis Leon Thurstone. Spearman wprowadził pojęciepojedynczego czynnika ogólnego dla wyjaśnienia wyników testówinteligencji. Dopiero Louis Leon Thurstone stworzył podstawyteoretyczne analizy czynnikowej.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wprowadzenie

Analiza czynnikowa jest testem statystycznym, który używany jest,by znaleźć relację pomiędzy wielokrotnie skorelowanymi miarami.Jest to metoda statystyczna używana do opisu zmienności wśródobserwowanych, korelacji zmiennych w zakresie potencjalniemniejszej liczby nieobserwowanych zmiennych zwanych czynnikami.Obserwowane zmienne są modelowane jako kombinacje liniowepotencjalnych czynników.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Cel

Główne cele czynnikowych technik analitycznych to:1. Identyfikacja ukrytych w zbiorze zmiennych czynnikówwspólnych,2. Redukcja wymiarów,3. Ortogonalizacja przestrzeni,4. Identyfikacja charakteru zmiennych,5. Transformacja układu zmiennych,6. Prezentacja graficzna.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Model analizy czynnikowej

Zapis macierzowy

Xpx1 − µpx1 = Lpxm · Fmx1 + εpx1

Oznaczenia

X - wektor wartości obserwowalnych,µ - macierz wartości oczekiwanych X ,L - macierz ładunków czynnikowych,F - wektor czynników wspólnych,ε - wektor czynników specyficznych.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Założenia

Ze względu na dużą liczbę zmiennych nieobserwowalnych należyprzyjąć następujące założenia:

1 E (F) = 0,

2 Cov(F) = I,

3 E (ε) = 0,

4 Cov(ε) = Ψpxp - macierz diagonalna,

5 Cov(ε,F) = E (εF′) = 0.

Wówczas mamy do czynienia z ortogonalnym modelemczynnikowym.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Macierz kowariancji

Macierz kowariancji dla modelu analizy czynnikowej określona jestwzorem:

Σ = LL′ + Ψ

Co wynika z następujących obliczeń:Σ = Cov(X ) = E (X − µ)(X − µ)′ == LE (FF ′)L′ + E (εF ′)L′ + LE (F ε′) + E (εε′) = LL′ + Ψ

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Własności

Dla ortogonalnego modelu czynnikowego zachodzą własności:

Cov(X ) = LL′ + ΨCov(Xl ,Xk) = li1lk1 + ...+ limlkm

Cov(X ,F ) = L,

Z tego wynika, że

Var(Xi ) = σii = l2i1 + l2i2 + ...+ l2im + Ψi ,

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Wariancja

Wprowadżmy oznaczenie: h2i = l2i1 + l2i2 + ...+ l2im.

Wówczas możemy wyróżnić:- h2

i - wariancja wspólna, część całkowitej wariancji, która jestwspólna z innymi zmiennymi.- Ψi - wariancja specyficzna, czyli część wariancji całkowitej,która jest właściwa tylko tej konkretnej zmiennej.

Składowe wariancji X

Wariancja Xi = wariancja wspólna + wariancja specyficzna

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Model czynnikowy X− µ = L · F + ε nie jest unikatowy, cooznacza, że dla dwóch różnych par (L,F ) oraz (L, F ) możemyotrzymać tę samą macierz kowariancji Σ.

Uzasadnienie

Weźmy dowolną macierz ortogonalną T o wymiarach m ×m.Wówczas model możemy zapisać jako:X − µ = LF + ε = LTT ′F + ε = LF + εgdzie L = LT i F = T ′F .Wtedy zachodzi:E (F ) = T ′E (F ) = 0Cov(F ) = T ′Cov(F )T = T ′T = I

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Wstęp oraz cele

Oznacza to, że współczynniki F i F oraz L i L generują tę samąmacierz kowariancji Σ:

Σ = LL′ + Ψ = LL′ + Ψ

W dalszej części prezentacji pokażemy, jak tę niejednoznacznośćmożna wykorzystać do ułatwienia interpretacji wyników uzyskanychw metodzie analizy czynnikowej.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metody estymacji

Rozwiązanie analizy czynnikowej polega na wyznaczeniu układuczynników wspólnych F , dokonuje się tego wykorzystując jedną zpodstawowych metod estymacji, do których należą:1. Metoda głównych składowych,2. Metoda głównego czynnika,3. Metoda największej wiarygodności,4. Metoda centroidalna.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Zakładamy, że macierz kowariancji Σ jest postaci:

gdzie (λi , ei ) to pary wartości i wektorów własnych dlai = 1, 2, ..., p oraz λ1 ­ λ2 ­ . . . λp ­ 0.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Chociaż przedstawiona analiza macierzy Σ jest poprawna, nie jestona szczególnie użyteczna w praktyce, ponieważ używa tyle samowspólnych czynników ile jest zmiennych i nie pozwala najakąkolwiek wariancję specyficzną Ψ (czyli Ψi = 0).Preferuje się wzory, które wyjaśniają strukturę kowariancji wodniesieniu do czynników wspólnych.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Jednym ze sposobów jest pominięcie udziału

λm+1em+1e′m+1 + . . .+ λpepe

′p

jeżeli ostatnie p −m wartości własne są małe.Wówczas otrzymujemy przybliżenie:

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Dodając do tego macierz czynników specyficznych otrzymujemymacierz postaci

gdzie Ψi = σii −∑m

j=1 l2ij .

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Aby móc zastosować tę metodę do zbioru x1, x2, . . . , xn należyodjąć od nich średnią z próby x . Wówczas otrzymujemynastępujące obserwacje

z macierzą kowariancji S taką samą jak pierwotnych obserwacji.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Analiza głównego składnika modelu czynnikowego macierzy próbkikowariancji S jest określona za pomocą par złożonych z wartościwłasnej i wektora własnego: (λ1, e1), (λ2, e2), . . . , (λp, ep).Niech m < p będzie liczbą czynników wspólnych. Wówczas macierzprzybliżonych ładunków czynnikowych lij jest postaci:

L = [√λ1e1,

√λ2e2, . . . ,

√λmem]

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda głównych składowych

Elementy macierzy S− LL′ na głównej przekątnej tworząwyestymowane wartości wariancji specyficznej

gdzie Ψi = sii −∑m

j=1 l2ij .

Wariancja wspólna jest określona wzorem

h2i =∑m

j=1 l2ij =∑m

j=1 λi e2ij

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

W jaki sposób wybrać liczbę czynników m?

Jeżeli liczba czynników wspólnych nie jest określona przezpostawione wcześniej założenia, wybór liczby m czynników możeopierać się na przybliżonych wartościach własnych tak, jak naczynnikach głównych.Rozważmy macierz residuum

S − (LL′ + Ψ)

Diagonalne elementy są zerami i jeśli elementy nie leżące naprzekątnej są także małe, możemy przyjąć, że m-czynnikowy modeljest poprawny.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: DziesięciobójOznaczenia zmiennych

k1 - bieg na 100m,

k2 - skok w dal,

k3 - pchnięcie kulą,

k4 - skok wzwyż,

k5 - bieg na 400m,

k6 - bieg przez płotki na 100m,

k7 - rzut dyskiem,

k8 - skok o tyczce,

k9 - rzut oszczepem,

k10 - bieg na 1000m.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: DziesięciobójMacierz korelacji

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: DziesięciobójWartości własne

Na podstawie kryterium Kaisera, liczba ładunków wynosi 3.Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Czynniki

Na tej podstawie odczytujemy równania:

k1 = 0.696Factor1 + 0.022Factor2− 0.468Factor3k2 = 0.793Factor1 + 0.075Factor2− 0.255Factor3

. . .Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda największej wiarygodności

Jeśli założymy, że czynniki wspólne F i czynniki specyficzne ε mająrozkład normalny, to możemy uzyskać estymatory największejwiarygodności ładunków czynnikowych i wariancji specyficznej.Jeśli Fj i εj mają rozkład normalny, to obserwacjeXj − µ = LFj + εj też mają rozkład normalny. Funkcjaprawdopodobieństwa wygląda wtedy następująco:

i jest zależna od L i Ψ ze wzoru Σ = LL′ + Ψ.Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Metoda największej wiarygodności

Ten model nie jest najlepiej zdefiniowany, ze względu nawielokrotność wyboru macierzy L możliwej przez transformacjeortogonalne. Jednoznacznego wyboru L dokonujemy przeznałożenie dodatkowego warunku:

∆ = L′Ψ−1L

gdzie ∆ jest macierzą diagonalną.Estymacje największej wiarygodności L i Ψ muszą być uzyskaneprzez numeryczną maksymalizację prawdopodobieństwa L(µ,Σ).

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: Przestępcy

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: Przestępcy

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Metody estymacji

Przykład: Przestępcy

Murder = 0.578Factor1− 0.685Factor2

Czynnik 1. możemy interpretować jako wskaźnik ogólnejprzestępczości, czynnik 2. ma wartości dodatnie dla przestępstwnaruszających cudze mienie, a ujemne dla związanych ze zdrowiemi życiem.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Rotacja czynników

Jak mówiłyśmy wcześniej, macierz ładunków L nie zmienia swoichwłasności po wymnożeniu jej przez dowolną macierz ortogonalną.Taką transformację utożsamiać można z obrotem osi układuwspółrzędnych, które w naszym przypadku odpowiadają kolejnymczynnikom F1, . . . ,Fm. Z tego powodu transformację tą nazywamyrotacją czynników.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Teoria

Jeżeli L jest p ×m macierzą estymacji ładunków czynnika to

L∗ = LT , gdzie TT ′ = T ′T = I

jest macierzą rotacji ładunków wymiaru p ×m.Ponadto estymacja macierzy kowariancji pozostaje bez zmian,ponieważ:

LL′ + Ψ = LTT ′L′ + Ψ = L∗L∗′ + Ψ

Ponadto nie zmienią się także wariancje specyficzne Ψi i wariancjewspólne hi

2. Dlatego z matematycznego punktu widzenia, nie ma

znaczenia którą z macierzy L czy L∗ wykorzystamy w obliczeniach.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Teoria

Celem rotacji czynników jest uzyskanie macierzy L∗, którapozwoliłaby na prostą interpretację zależności poszczególnychzmiennych od czynników wspólnych. Najlepiej byłoby, gdyby każdaze zmiennych ma duży ładunek tylko na jednym czynniku i małeładunki na pozostałych. Zdarza się to bardzo rzadko, dlategostosujemy rotację macierzy L, dzięki której jesteśmy w stanieotrzymać prostsze w interpretacji wyniki.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Teoria

Do zilustrowania rotacji posłużymy się przykładem dla dwóchczynników (m = 2). W tym przypadku problem można częstorozwiązać graficznie: osie układu współrzędnych oznaczamy przezF1 i F2, a pary ładunków (li1, li2) dla i = 1, . . . , p traktujemy jakopunkty układu. Najprostszym przykładem rotacji jest obrót osi okąt Φ.Wówczas macierz obrotu T jest postaci

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Przykład: Studenci

Poniżej przedstawiono macierz korelacji wyników egzaminów z 6przedmiotów (p = 6) dla 220 studentów.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Estymujemy ładunki za pomocą metody największej wiarygodności

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Ładunki na czynniku pierwszym (F1) są dodatnie dla wszystkichzmiennych. Można interpretować go więc jako czynnik ogólnejinteligencji. Ładunki na czynniku drugim (F2) są dodatnie dlaprzedmiotów humanistycznych, a ujemne dla matematycznych,więc można założyć, że wskazuje on na typ inteligencji (zdolnościmatematyczne lub humanistyczne).

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Wykres przedstawia graficzne umiejscowienie punktów (li1, li2)odpowiadających kolejnych zmiennym na układzie współrzędnychF1,F2.

Układ współrzędnych obrócono o kąt Φ = 20◦ tak, aby oś F ∗1przechodziła przez punkt 4.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Rotacja czynnika

Ładunki zmiennych matematycznych są wysokie na F ∗1 i małoistotne na F ∗2 . F ∗1 może być nazwany czynnikiem matematycznychzdolności. Podobnie trzy zmienne testów niematematycznych mająwysokie ładunki na F ∗2 i stosunkowo małe ładunki na F ∗1 . F ∗2można być nazwany jako czynnik umiejętności humanistycznych.

Wpływ czynnika ogólnej inteligencji rozbił się więc na dwa noweczynniki umożliwiając bardziej precyzyjną interpretację.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

Analiza składowych głównych Analiza czynnikowa

orientacja wariancyjna: punktemwyjścia jest zwykła macierz ko-relacji

orientacja kowariancyjna: punk-tem wyjścia jest zredukowanamacierz korelacji lub macierzkowariancji

model zamknięty: uwzględnia sięwyłącznie wariancję badanychzmiennych

model otwarty: obok wariancjicech uwzględnia się także wa-riancję nieobjaśnianą (zm. po-minięte, losowość obserwacji)

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

zmienne pierwotne są liniowąfunkcją składowych głównych (agłówne składowe można przed-stawić jako kombinacje liniowezmiennych pierwotnych)

każda zmienna pierwotnajest funkcją nieobserwowa-nych czynników wspólnych iczynnika swoistego

wychodzi się od obserwacji em-pirycznych, a następnie budujemodel teoretyczny

buduje się teoretyczny modelzjawiska i sprawdza, czy jestzgodny z danymi empirycznymi

celem analizy jest uproszczeniestruktury danych

celem analizy jest identyfikacjaukrytych zmiennych

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

Kiedy stosować daną metodę?

Analizę Składowych Głównych stosujemy, gdy:

1 nie dysponujemy potencjalnym modelem ”głębokiej” strukturyczynników wyjaśniających związki pomiędzy zmiennymi, takimodel nie jest celem naszej analizy lub nie chcemy ”wtłaczać”w taki model posiadanych danych empirycznych

2 chcemy wyliczyć nieskorelowane główne składowe w celuzastosowania ich w dalszych analizach wielowymiarowych (np.regresji lub dyskryminacji)

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

3 wiemy, że wariancja specyficzna i wariancja wynikająca zbłędu jest niewielka, a także, gdy analizujemy dużo (np.więcej niż 15) skorelowanych zmiennych lub gdy korelacjamiędzy zmiennymi jest względnie wysoka

4 celem jest eksploracja, rozpoznanie struktury zbioru danych,chcemy przedstawić graficznie strukturę zbioru danych wprzestrzeni dwu- lub trójwymiarowej, szukamy skupieńobiektów ze względu na podobieństwo w zakresieanalizowanych cech, określamy minimalną liczbę wymiarów

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

Kiedy stosować daną metodę?

Analizę Czynnikową stosujemy, gdy:

1 chcemy wyjaśnić zaobserwowaną korelację między zmiennymiprzy pomocy modelu przyczynowego opartego na strukturzezwiązków zmiennych obserwowalnych z ukrytymi czynnikami

2 koncentrujemy się na wyjaśnieniu korelacji między zmiennymi idlatego chcemy wyłączyć z analizy wariancję swoistązmiennych

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

3 zmienne są obciążone względnie dużym błędem pomiarowym,który badacz chce wyłączyć z analizy

4 celem analizy jest klasyfikacja zmiennych we względniejednorodne grupy, w gruncie rzeczy będące właśniewskaźnikami pewnych konstruktów

5 dysponujemy modelem teoretycznym struktury takiegozwiązku lub będziemy uzyskane wyniki interpretować wkategoriach teoretycznego modelu przyczynowego

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod

Porównanie dwóch metod

Podsumowanie

Analiza czynnikowa i analiza głównych składowych tonajpowszechniej stosowane techniki analizy wielowymiarowej. Sąsprawdzonymi i dobrymi narzędziami, pod warunkiem dobregozrozumienia. Wiele wyborów dokonywanych przez badacza macharakter arbitralny. Z drugiej strony, jak to zauważyliśmy, analizaczynnikowa daje podobne rezultaty przy różnych metodachwyodrębniania czynników oraz podobne do analizy głównychskładowych. W selekcji i interpretacji czynników ważne jestdoświadczenie analityka i merytoryczna znajomość problemu.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Dodatek

Bibliografia I

Ravindra Khattree and Dayanand N. Naik.Multivariate Data Reduction and Discriminstion with SASSoftware.Cary, NC: SAS Institute Inc., 2000.

Jarosław Górniak.Analiza czynnikowa analiza głównych składowych.ASK, Instytut Socjologii UJ, 1998.

Johnson, R. A., Wichern, D. W.Applied multivariate statistical analysis.Prentice Hall, 1992.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa

Dodatek

Bibliografia II

Joanna Ciecieląg, Marek PęczkowskiWielowymiarowa Analiza Danych z wykorzystaniem pakietuSPSS.dostępny w Internecie pod linkiemdostęp: 10-04-2018.

Agata Weltrowska, Paulina Zalewska Politechnika Gdańska

Analiza Składowych Głównych i Czynnikowa