40
Statystyka Wyklad 9 Magdalena Alama-Bu´ cko 7 maja 2018 Magdalena Alama-Bu´ cko Statystyka 7 maja 2018 1 / 40

Wykład 9 Magdalena Alama-Bucko´ 7 maja 2018imif.utp.edu.pl/wp-content/uploads/2016/12/wyklad09_fir_2017_2018.pdf · Magdalena Alama-Bucko´ Statystyka 7 maja 2018 12 / 40. Zadanie

Embed Size (px)

Citation preview

StatystykaWykład 9

Magdalena Alama-Bucko

7 maja 2018

Magdalena Alama-Bucko Statystyka 7 maja 2018 1 / 40

Tematyka zajec:

Wprowadzenie do statystyki.Analiza struktury zbiorowosci

miary połozeniamiary zmiennoscimiary asymetriimiary koncentracji.

Analiza współzaleznosci zjawisk.Analiza dynamiki zjawisk.

Magdalena Alama-Bucko Statystyka 7 maja 2018 2 / 40

Poznalismy dotychczas nastepujace współczynniki słuzace oceniezaleznosci miedzy dwiema cechami:

współczynnik korelacji liniowej Pearsona

dwie cechy ilosciowe (mierzalne)

współczynnik korelacji rang Spearmana

dwie cechy ilosciowe (mierzalne)jedna cecha ilosciowa i jedna cecha jakosciowa (porzadkowa)

współczynnik zbieznosci V-Cramera

dwie cechy jakosciowejedna cecha ilosciowa i jedna cecha jakosciowa

Magdalena Alama-Bucko Statystyka 7 maja 2018 3 / 40

Współczynnik zbieznosci V-Cramera Vc- oparty nastatystyce χ2

dwie cechy jakosciowejedna cecha jakosciowa i jedna ilosciowa

Vc okresla siłe zaleznosci wyzej opisanych cech.

Magdalena Alama-Bucko Statystyka 7 maja 2018 4 / 40

Własnosci

Vc przyjmuje wartosci z przedziału [0;1]

im wartosc blizsza 1, tym zaleznosc jest silniejszaim wartosc blizsza 0, tym zaleznosc słabsza.

Interpretacja : - jak wczesniej:

wartosc 0− 0.2 : bardzo słaby zwiazekwartosc 0.2− 0.4 : słaby zwiazekwartosc 0.4− 0.6 : umiarkowany zwiazekwartosc 0.6− 0.8 : silny zwiazekwartosc 0.8− 1 : bardzo silny zwiazek

Magdalena Alama-Bucko Statystyka 7 maja 2018 5 / 40

X − r wariantów (czyli tabela korelacyjna ma r wierszy)Y − k wariantów (czyli tabela korelacyjna ma k kolumn)

Procedura wyliczenia statystyki χ2:

Dla kazdego pola w tabeli wyliczamy liczebnosci teoretyczne, tzn.

nij =ni• · n•j

n,

gdzie ni• oznacza liczebnosc cechy xi , a n•j oznacza liczebnosccechy yj .

wyliczamy wartosc statystyki χ2 :

χ2 =∑

i

∑j

(nij − nij)2

nij

Magdalena Alama-Bucko Statystyka 7 maja 2018 6 / 40

χ2 =∑

i

∑j

(nij − nij)2

nij

Uwaga

dane powinny byc tak pogrupowane tak, by nij > 5

χ2 = 0 gdy wszystkie liczebnosci teoretyczne i zaobserwowane satakie same. Wówczas cechy sa niezalezne.

χ2xy = χ2

yx

Magdalena Alama-Bucko Statystyka 7 maja 2018 7 / 40

Przykład 2 Wyznaczyc wartosc χ2 dla nastepujacych danych:

Y0 1

X0 10 201 40 30

oczywiscie n = 100przyjmujemy oznaczenia :

n00 = 10, n01 = 20

n10 = 40, n11 = 30

Dla kazdego pola w tabeli wyliczamy liczebnosci teoretyczne, tzn.

nij =ni• · n•j

n, i , j = 0,1

gdzie ni• oznacza liczebnosc cechy xi , a n•j oznacza liczebnosccechy yj .

Magdalena Alama-Bucko Statystyka 7 maja 2018 8 / 40

sumujemy liczebnosci w wierszach i kolumnach:

Y0 1 Suma

X0 10 20 n0• = 301 40 30 n1• = 70

Suma n•0 = 50 n•1 = 50 n = 100

wyliczamy liczebnosci teoretyczne:

n00 =n0• · n•0

n=

30 · 50100

= 15

n01 =n0• · n•1

n=

30 · 50100

= 15

n10 =n1• · n•0

n=

70 · 50100

= 35

n11 =n1• · n•1

n=

70 · 50100

= 35

Magdalena Alama-Bucko Statystyka 7 maja 2018 9 / 40

musimy wyliczyc

χ2 =∑

i

∑j

(nij − nij)2

nij

w tabeli korelacyjnej wpisujemy w odpowiednich komórkachwyliczone liczebnosci teoretyczne (czyli nij )

Y0 1 Suma

X0 10 (15) 20 (15) n0• = 301 40 (35) 30 (35) n1• = 70

Suma n•0 = 50 n•1 = 50 n = 100

χ2 =(10− 15)2

15+

(20− 15)2

15+

(40− 35)2

35+

(30− 35)2

35

=2515

+2515

+2535

+2535

= 4.762.

Magdalena Alama-Bucko Statystyka 7 maja 2018 10 / 40

współczynnik zbieznosci V-Cramera

Vc =

√χ2

n · g

gdzie g = min{r − 1, k − 1}.

χ2 =r∑

i=1

k∑j=1

(nij − nik )2

nik, nik =

ni• · n•j

n

r − liczba wierszy, k − liczba kolumn, n − liczebnosc próby

Magdalena Alama-Bucko Statystyka 7 maja 2018 11 / 40

współczynnik zbieznosci V-Cramera

Przykład 2- c.d.k = 2 liczba kolumnr = 2 liczba wierszyn = 100χ2 = 4.762

Jezeli g = min{r − 1, k − 1} to

Vc =

√χ2

n · g

g = min{r − 1, k − 1} = min{2− 1,2− 1} = min{1,1} = 1

Vc =

√4.762100 · 1

= 0.218

oznacza słaby zwiazek miedzy cechami

Magdalena Alama-Bucko Statystyka 7 maja 2018 12 / 40

Zadanie

Niech X oznacza płec studentów a Y - rodzaj studiów(stacjonarne/niestacjonarne). Dane z 2013 roku ( zródło: bank danychlokalnych) wygladaja nastepujaco:

StudiaStacjonarne Niestacjonarne

PłecK 499195 158408M 360579 132677

Zbadac, czy rodzaj trybu podejmowanych studiów zalezy od płci ?

Magdalena Alama-Bucko Statystyka 7 maja 2018 13 / 40

Wartosc współczynnika V−Cramera wskazuje na brak zaleznoscimiedzy płcia a rodzajem wybieranego trybu studiów.

Magdalena Alama-Bucko Statystyka 7 maja 2018 14 / 40

wypisane na poprzednim slajdzie liczebnosci teoretyczne zostaływyliczone nastepujaco:

nK ,St =nK• · n•St

n=

657603 · 8597741150859

= 491276,48

nK ,Nst =nK• · n•Nst

n=

657603 · 2910851150859

= 166326,52

nM,St =nM• · n•St

n=

493256 · 8597741150859

= 368497,51

nM,Nst =nM• · n•Nst

n=

493256 · 2910851150859

= 124758,48

Magdalena Alama-Bucko Statystyka 7 maja 2018 15 / 40

Regresja

X ,Y - dwie cechy, do których chcemy dopasowac pewna funkcjeopisujaca zaleznosc miedzy nimi

Zaleznosc korelacyjna miedzy cechami oznaczała, ze zmianawartosci zmiennej niezaleznej powoduje scisle okreslona zmianewartosci sredniej zmiennej zaleznej (objasnianej).

Funkcja regresji jest pewna matematyczna funkcja, która stanowiprzyblizenie faktycznej zaleznosci.

Jesli X - zmienna niezalezna, a Y - zmienna zalezna (opisywana),to

yi = f (xi),

gdzie yi - oczekiwana wartosc zmiennej Y dla X = xi .

Magdalena Alama-Bucko Statystyka 7 maja 2018 16 / 40

X - zmienna niezalezna, Y - zmienna zalezna (opisywana), to

yi = f (xi),

gdzie yi - oczekiwana wartosc zmiennej Y dla X = xi .

zaobserwowane wartosci yi odchylaja sie od funkcji regresji yi opewna wartosc ei , czyli

yi = yi + ei .

Wyrazenia ei nazywamy resztami, a pojawiaja sie one:

na skutek czynników losowychpod wpływem cech nie uwzglednionych w badaniu.

Magdalena Alama-Bucko Statystyka 7 maja 2018 17 / 40

dane: (xi , yi), i = 1,2, ...,nszukana funkcja y = f (x) jest "najlepiej" dopasowana do danych

Metoda najmniejszych kwadratów

suma kwadratów odchylen odległosci zaobserowanych wartosci yiod wartosci teoretycznych yi ma byc najmniejsza, tzn.∑

i

(yi − yi)2 → min

linowa postac funkcji regresji

y = bx + a

zmieniajac wartosc x o jedna jednostke, zmiana wartosci ynastepuje zawsze o tyle samo (o b jednostek).

Magdalena Alama-Bucko Statystyka 7 maja 2018 18 / 40

Obliczanie parametrów regresji liniowej

postac prostej regresji (tzn. współczynniki) zaleza od konkretnychdanych ( dla innego zestawu danych postac moze byc inna !!!)

y = a + b x

b jest współczynnikiem regresji

wartosci a i b obliczane na podstawie obserwacji: (xi , yi), i = 1,2,...,n

b =

1n

n∑i=1

xiyi − x · y

1n·

n∑i=1

x2i − (x)2

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

, a = y − b · x .

Magdalena Alama-Bucko Statystyka 7 maja 2018 19 / 40

wyrazenie okreslajace b mozna zapisac nieco inaczej

b =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

=

1n

n∑i=1

(xi − x)(yi − y)

1n

n∑i=1

(xi − x)2

=cov(x , y)

s2x

Wyrazenie w liczniku współczynnika b to kowariancja cech X i Y

cov(x , y) =1n

n∑i=1

(xi − x)(yi − y).

cov(x , y) jest pewna miara zaleznosci miedzy cechami

cov(x , x) = s2x , cov(y , y) = s2

y

rxy =cov(x , y)

sx · sy

Magdalena Alama-Bucko Statystyka 7 maja 2018 20 / 40

Uwaga

jezeli znamy współczynnik korelacji liniowej Pearsona orazsrednie i odchylenia stadardowe, to współczynniki regresji prostej

y = b · x + a

mozna obliczyc ze wzorów:

b = rxy ·sy

sx

a = y − b · x .

Magdalena Alama-Bucko Statystyka 7 maja 2018 21 / 40

Zadania z Wykładu 6

Zadanie 1 Zaobserwowano nastepujace wartosci wieku mezczyzn (X)i kobiet (Y) zawierajacych zwiazek małzenski (w latach).

X 22 21 30 18 28Y 26 22 29 22 25

rxy = 0.8239

r = r2xy = 0.82392 = 0.6788 =

68%

y = 0,48x + 13,28

x- wiek mezczyzny,y - sredni wiek kobiety

Magdalena Alama-Bucko Statystyka 7 maja 2018 22 / 40

Zadania z Wykładu 6

Zadanie 2 Zbadano zaleznosc miedzy stazem pracy (X), awydajnoscia pracownika (Y) w duzym przedsiebiorstwie. Wylosowanow sposób niezalezny stu pracowników.

Liczba sztuk na godzine10− 20 20− 30 30− 40 40− 50

Staz0− 2 15 5 − −2− 4 10 10 5 −4− 6 − 10 10 56− 8 − − 10 5

8− 10 − − 5 10

rxy = 0.802.x− staz pracy, y - wydajnosc

y = 3,24 · x + 14,6

Magdalena Alama-Bucko Statystyka 7 maja 2018 23 / 40

Jakosc dopasowywania krzywej regresji do danych rzeczywistychokreslamy za pomoca:

odchylenie standardowe składnika resztowego:

S2e =

∑ni=1(yi − yi)

2

n − 2, Se =

√S2

e =

√∑ni=1(yi − yi)2

n − 2informuje o srednim odchyleniu wartosci empirycznych odteoretycznych.współczynnik determinacji:

R2 = 1− ϕ2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

jaka czesc cechy zaleznej jest wyjasniona kształtowaniem siecechy niezaleznej.współczynnik zbieznosci (indeterminacji):

ϕ2 =

∑ni=1(yi − yi)

2∑ni=1(yi − y)2

jaka czesc cechy zaleznej nie jest wyjasniona kształtowaniemsie cechy niezaleznej, czyli jest wywołana działaniem czynnikówlosowych.

Magdalena Alama-Bucko Statystyka 7 maja 2018 24 / 40

WłasnoscDla korelacji liniowej zachodzi

R2 = r2xy ,

to odchylenie standardowe składnika resztkowego w przypadkuregresji liniowej moze byc liczona równiez ze wzoru

Se = sy ·√

1− r2xy .

Szczególne przypadki

gdy rxy = 0, to Se = sy

gdy rxy = 1, to Se = 0

Magdalena Alama-Bucko Statystyka 7 maja 2018 25 / 40

Przykład Do danych za pomoca programu Excel zostały dopasowanerózne typy funkcji :

"edytor" wykresulinia trenduwybór funkcji (mozliowosc podania równania i wyliczenia R2 )

Magdalena Alama-Bucko Statystyka 7 maja 2018 26 / 40

Magdalena Alama-Bucko Statystyka 7 maja 2018 27 / 40

Uzyskalismy zatem nastepujace wyniki:

regresja wykładnicza R2 = 0.9877regresja wielomianowa st.2: R2 = 0.9824regresja wielomianowa st.3: R2 = 0.998 -najlepsze dopasowanieregresja liniowa: R2 = 0.8238 - najgorsze dopasowanieregresja logarytmiczna: R2 = 0.9768regresja potegowa: R2 = 0.9152

UwagiExcel potrafi wyznaczyc wzory funkcji róznych typów najlepiejdopasowanych do obserwacjinie znamy ogólnych jawnych postaci tych wzorów !!!podałam jawne (ogólne) wzory jedynie na współczynniki regresjiliniowej.

Magdalena Alama-Bucko Statystyka 7 maja 2018 28 / 40

Dotychczas rozwazalismy przypadek, gdy x- zmienna niezalezna a y -zmienna zalezna. Równanie regresji w tym przypadku: y = bx + a.

Wprowadzmy indeksy y we współczynnikach a i b tak, by było dla nasjasne, ze sa to współczynniki prostej okreslajacej y , czyli:

y = byx + ay ,

gdzie (przypominamy):

by = rxy ·sy

sx, ay = y − b · x .

Magdalena Alama-Bucko Statystyka 7 maja 2018 29 / 40

Y - zmienna niezalezna, X - zmienna objasniana

Rozwazmy terazx = bx · y + ax

gdzie

bx =

1n

n∑i=1

xiyi − x · y

1n·

n∑i=1

y2i − (y)2

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(yi − y)2

, ax = x − bx · y .

Uwaga

jezeli znamy współczynnik korelacji liniowej Pearsona orazsrednie i odchylenia stadardowe, to współczynnik b moznaobliczyc ze wzoru:

bx = rxy ·sx

sy.

Magdalena Alama-Bucko Statystyka 7 maja 2018 30 / 40

Jezeli znamy wzór prostej regresji

y = by · x + ay ,

to w celu znalezienia wzoru

x = bx · y + ax ,

wszystkie współczynniki bx i ax nalezy wyliczyc od nowa.

Magdalena Alama-Bucko Statystyka 7 maja 2018 31 / 40

Zadania z Wykładu 6

Zadanie 1 Zaobserwowano nastepujace wartosci wieku mezczyzn (X)i kobiet (Y) zawierajacych zwiazek małzenski (w latach).

X 22 21 30 18 28Y 26 22 29 22 25

rxy = 0.8239

x- wiek mezczyzny (meza)y - wiek kobiety (zony)

prosta regresji y wyznaczona na podstawie naszych danych:

y = 0,48x + 13,28

prosta regresji x wyznaczona na podstawie naszych danych:

x = 1,4y − 11

Magdalena Alama-Bucko Statystyka 7 maja 2018 32 / 40

x = 23,8, y = 24,8

wraz ze wzrostem wieku meza a 1 rok nastepuje wzrost(sredniego) wieku zony o 0,48 roku.wraz ze wzrostem wieku zony a 1 rok nastepuje wzrost(sredniego) wieku meza o 1,4 roku.

Magdalena Alama-Bucko Statystyka 7 maja 2018 33 / 40

Zadania z Wykładu 6

Zadanie 2 Zbadano zaleznosc miedzy stazem pracy (X), awydajnoscia pracownika (Y) w duzym przedsiebiorstwie. Wylosowanow sposób niezalezny stu pracowników.

Liczba sztuk na godzine10− 20 20− 30 30− 40 40− 50

Staz0− 2 15 5 − −2− 4 10 10 5 −4− 6 − 10 10 56− 8 − − 10 5

8− 10 − − 5 10rxy = 0.802.wzór: x− staz pracy, y - wydajnosc

y = 3,24 · x + 14,6x = 0,199 · y − 1,26

Magdalena Alama-Bucko Statystyka 7 maja 2018 34 / 40

wzór: x− staz pracy, y - wydajnosc

x = 4,6, y = 29,5

y = 3,24 · x + 14,6x = 0,199 · y − 1,26⇒ y = 5,03x + 6,35

wzrost stazu pracy o 1 rok powoduje wzrost wydajnosci o 3,24sztuki.wzrost wydajnosci o 1 sztuke powoduje wzrost stazu o 0,2 roku(około 2,5 miesiaca).

Magdalena Alama-Bucko Statystyka 7 maja 2018 35 / 40

Połozenie prostych regresji

Własnosci Mamy zatem dwie funkcje regresji liniowej

y = ay + byx , x = ax + bxy .

obie proste regresji przecinaja sie w punkcie (x , y)

by = rxy ·sy

sx, bx = rxy ·

sx

sy

Zauwazmy, ze znaki bx i by zawsze sa takie same i pokrywaja sieze znakiem rxy , zatem:

obie proste regresji sa równoczesnie rosnace (gdy rxy > 0)

albo

obie proste regresji sa równoczesnie malejace (gdy rxy < 0).

gdy rxy = 0 (tzn. brak korelacji liniowej) to proste przyjmuja postac:

y = y , x = x ,

zatem sa do siebie prostopadłe.Magdalena Alama-Bucko Statystyka 7 maja 2018 36 / 40

Poniewaz by = rxy ·sy

sx, bx = rxy ·

sx

sy, to:

|rxy | =√

bx · by ,

przy czym znak rxy pokrywa sie ze znakiem bx .

Przykład 1 Jezeli bx = 2,by = 13 , to

|rxy | =√

2 · 13=

√0,677 = 0,817 ⇒ rxy = 0.817.

Przykład 2 Jezeli bx = −2,by = −13 , to

|rxy | =√(−2) · (−1

3) =

√0,677 = 0,817 ⇒ rxy = −0.817.

Przykład 3 Jezeli bx = −2, rxy = 12 , to ze wzoru r2

xy = bx · by mamy:

by =r2xy

bx=

14 · (−2)

= −18= −0,125.

Magdalena Alama-Bucko Statystyka 7 maja 2018 37 / 40

Jesli |rxy | = 1, to zaleznosc miedzy cechami jest liniowa i obieproste regresji sie pokrywaja. Zatem kat miedzy prostymi regresjiwynosi 0◦ stopni.

Jesli 0 < |rxy | < 1, to proste regresji tworza z soba pewien kat α (ostry, tzn. α ∈ (0◦,90◦)), który mozna obliczyc ze wzoru:

tgα =|1− rxy | · sx · sy

|rxy | · (s2x + s2

y ).

Jesli rxy = 0, to proste regresji przyjmuja postac x = x i y = y ,zatem sa do siebie prostopadłe. Stad kat miedzy takimi prostymiregresji wynosi 90◦.

prosta x = ay + by · y przyjmuje postac x = x , bo:

by = rxy ·sx

sy= 0, ay = x − by · y = x .

prosta y = ay + by · x przyjmuje postac y = y , bo:

by = rxy ·sy

sx= 0, ay = y − by · x = y .

Magdalena Alama-Bucko Statystyka 7 maja 2018 38 / 40

α− kat miedzy prostymi regresji

wraz ze wzrostem zaleznosci kat pomiedzy prostymi regresjimaleje

Magdalena Alama-Bucko Statystyka 7 maja 2018 39 / 40

Dziekuje za uwage !

Magdalena Alama-Bucko Statystyka 7 maja 2018 40 / 40