56
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 1 Badanie współzaleŜności dwóch cech ilościowych X i Y . Analiza korelacji prostej Badanie zaleŜności dwóch cech ilościowych. Analiza regresji prostej Kody znaków: Ŝółte wyróŜnienie – nowe pojęcie czerwony – uwaga kursywa – komentarz

Badanie współzaleŜności dwóch cech ilościowych X i Y ...agrobiol.sggw.pl/biometria/media//rajfura/STAT_Rol/Wyklad KORELACJE... · Analiza regresji prostej ... Testowanie hipotezy

Embed Size (px)

Citation preview

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 1

Badanie współzaleŜności dwóch cech ilościowych X i Y.

Analiza korelacji prostej

Badanie zaleŜności dwóch cech ilościowych.

Analiza regresji prostej

Kody znaków:

Ŝółte wyróŜnienie – nowe pojęcie czerwony – uwaga kursywa – komentarz

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 2

Zagadnienia 1. Związek deterministyczny (funkcyjny)

a korelacyjny.

2. Idea opisu współzaleŜności.

3. Testowanie hipotezy o korelacji.

1. Regresja liniowa Y względem X.

2. Prosta regresji.

3. Testowanie hipotezy o regresji.

4. Współczynniki opisujące regresję.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 3

Wprowadzenie - przykład A

W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y

Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10 czas pracy

1 40 40 34 21 7 16 12 31 9

zarobki 10 400 400 340 210 70 160 120 310 90

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 4

Wprowadzenie - przykład A

W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y

Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10

czas pracy

1 40 40 34 21 7 16 12 31 9

zarobki 10 400 400 340 210 70 160 120 310 90

Posortowane rosnąco wg czasu pracy:

Firma_A osoba 1 osoba 6 osoba 10 osoba 8 osoba 7 osoba 5 osoba 9 osoba 4 osoba 2 osoba 3

czas pracy

1 7 9 12 16 21 31 34 40 40

zarobki 10 70 90 120 160 210 310 340 400 400

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 5

Wprowadzenie - przykład A

Firma A

0

50

100

150

200

250

300

350

400

0 10 20 30 40

czas pracy

zarobki

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 6

Wprowadzenie - przykład A

Firma A

0

50

100

150

200

250

300

350

400

0 10 20 30 40

czas pracy

zarobki

Zarobki zaleŜą od czasu pracy według wzoru: zarobki = 10*czas pracy

y=10x

Jest to zaleŜność funkcyjna (deterministyczna).

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 7

Wprowadzenie - przykład B

W firmie_B za 1 godzinę dyŜuru pracownik otrzymuje 8 zł+opłatę za interwencję. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y

czas pracy

3 8 9 12 19 24 35 35 38 40

zarobki 44 120 72 128 310 260 427 310 380 430

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 8

Wprowadzenie - przykład B

Firma B

0

50

100

150

200

250

300

350

400

0 10 20 30 40

czas pracy

zarobki

Punkty nie leŜą na jednej prostej. Jest to zaleŜność korelacyjna.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 9

Wprowadzenie - przykład B

Firma B

0

50

100

150

200

250

300

350

400

0 10 20 30 40

czas pracy

zarobki

Firma B

0

50

100

150

200

250

300

350

400

0 10 20 30 40

czas pracy

zarobki

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 10

wyniki

z pierwszego

poletka

wyniki

z drugiego

poletka

Idea opisu współzaleŜności cech

Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli:

plon xi (kg)

20 21 22 23 22 25 30 27 24 26

zawartość skrobi yi (%)

17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4

Czy te wyniki wskazują na występowanie współzaleŜności między cechami X, Y?

Tworzenie wykresu.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 11

Diagram korelacyjny

zawartość skrobi

16,216,316,416,516,616,716,816,9

1717,117,2

18 20 22 24 26 28 30 32

plon Interpretacja bieŜącego diagramu korelacyjnego.

wyniki

z pierwszego poletka

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 12

wyniki dla pierwszej jednostki doświadczalnej

wyniki dla n-tej jednostki doświadczalnej

Korelacja cech ilościowych

X, Y – cechy ilościowe obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia:

wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 13

Kierunek korelacji

Diagram korelacyjny 1

wartości cechy X

wartości cechy Y

y1

x1

Cechy X, Y są ujemnie skorelowane

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 14

Kierunek korelacji cd.

Diagram korelacyjny 2

wartości cechy X

wartości cechy Y

Cechy X, Y są dodatnio skorelowane

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 15

Siła korelacji

Diagram korelacyjny 3 Diagram korelacyjny 4

X

Y

X

Y

Cechy X, Y są silnie skorelowane

Cechy X, Y są słabo skorelowane

Wyjaśnienie na tablicy.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 16

Brak korelacji

Diagram korelacyjny 5

wartości cechy X

wartości cechy Y

Cechy X, Y są nieskorelowane

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 17

Prezentacja braku korelacji cd.

Diagram korelacyjny 6

wartości cechy X

wartości cechy Y

Cechy X, Y są nieskorelowane

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 18

Problem

Jak wykryć (opisać) współzaleŜność pomiędzy cechami za pomocą parametru

liczbowego?

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 19

* Przykłady teoretyczne

Doświadczenie losowe D - dwukrotny rzut monetą.

Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne?

Przykład 1. zm. los. X1: liczba orłów w obu rzutach zm. los. X2: (liczba orłów w obu rzutach)·2

Przykład 2. zm. los. X3: liczba orłów w pierwszym rzucie zm. los. X4: liczba orłów w drugim rzucie

Przykład 3. zm. los. X1: liczba orłów w obu rzutach zm. los. X5: (liczba orłów w obu rzutach)·(-1)

Przykład 4. zm. los. X1: liczba orłów w obu rzutach zm. los. X6: (liczba orłów w obu rzutach)2

Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi losowymi, kiedy znane

są tylko ich rozkłady?

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 20

Kowariancja

WspółzaleŜność między zmiennymi losowymi X i Y opisuje parametr kowariancja

ozn.: COV ( X, Y ) Definicja

COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] = = E ( X·Y) – ( EX ) · ( EY ) Obliczanie kowariancji w przykładach 1 – 4.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 21

* Kowariancja - przykłady

Doświadczenie losowe D -dwukrotny rzut monetą.

Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne - odp.

na podstawie wartości kowariancji:

Odp. intuicyjna

Kowariancja

P 1.

zm. los. X1: l. orłów zm. los. X2: (l. orłów)·2

zaleŜne COV(X1, X2)=1

P 2.

zm. los. X3: l. orłów w pierwszym rzucie zm. los. X4: l. orłów w drugim rzucie

niezaleŜne COV(X3, X4)=0

P 3. zm. los. X1: l. orłów zm. los. X5: (l. orłów)·(-1)

zaleŜne COV(X1, X5)=-0,5

P 4.

zm. los. X1: l. orłów zm. los. X6: (l. orłów)2

zaleŜne COV(X1, X6)=1

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 22

Współczynnik korelacji

Miarą współzaleŜności liniowej dwóch zmiennych losowych X, Y jest wskaźnik nazywany współczynnikiem korelacji liniowej Pearsona,

oznaczany grecką literą ρ (czyt.: ro):

( )DYDX

YXCOV

⋅=

Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi:

1,1ρ −∈

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 23

* Współczynnik korelacji – przykłady

Doświadczenie losowe D - dwukrotny rzut monetą

Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne – odp. na

podstawie współczynnika korelacji:

Odp. intuicyjna

Współcz. korelacji ρ

P 1.

X1: l. orłów X2: (l. orłów)·2

zaleŜne ρ1 = 1

P 2.

X3: l. orłów w pierwszym rz. X4: l. orłów w drugim rz.

niezaleŜne ρ2 = 0

P 3. X1: l. orłów X5: (l. orłów)·(-1)

zaleŜne ρ3 = -1

P 4.

X1: l. orłów X6: (l. orłów)2

zaleŜne ρ4 ≈ 0,94

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 24

Uwagi i terminologia

1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi.

2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy współczynnik korelacji ρ:

• jeśli ρ = 0, to zmienne są nieskorelowane,

• jeśli | ρ | = 1, to zmienne losowe są całkowicie

skorelowane (zaleŜne liniowo), o jeśli ρ = 1, to są skorelowane dodatnio,

o jeśli ρ = - 1, to są skorelowane ujemnie.

3. Współczynnik korelacji ρ słuŜy do opisywania siły

korelacji: • jeśli ρ ≈ 0, to zmienne są słabo skorelowane,

• jeśli | ρ | ≈1, to zmienne są silnie skorelowane. Diagram na tablicy.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 25

Idea

Jak wykryć (opisać) współzaleŜność pomiędzy cechami?

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 26

Opis współzaleŜności

• W jednej populacji rozpatrujemy dwie cechy; modelują je zmienne losowe X, Y. W populacji występuje zaleŜność między X, Y opisana

współczynnikiem ρ, ale nie znamy jego wartości

liczbowej - moŜna ją estymować, testować hipotezy o tej wartości.

• Losujemy n-elementową próbę dwucechową: (x1, y1), (x2, y2), ..., (xn, yn);

• Oceniamy nieznaną wartość współczynnika

korelacji ρ na podstawie próby:

r=ρ

(współczynnik r jest oceną parametru populacyjnego ρ)

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 27

Opis współzaleŜności cd.

Obliczamy współczynnik korelacji r dla próby według wzoru:

( ) ( )

( ) ( ) ( ) ( )∑∑

∑∑

==

=

==

=

−⋅−

⋅⋅−⋅=

−⋅−

−⋅−=

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

yyxx

yxnyx

yyxx

yyxxr

1

2

1

2

1

1

2

1

2

1

RównowaŜny zapis licznika:

( ) ( ) ∑∑==

⋅⋅−⋅=−⋅−n

iii

n

iii yxnyxyyxx

11

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 28

Opis współzaleŜności cd.

Oznaczenia upraszczające zapis wzoru:

( )∑=

−=n

iix xxSS

1

2

, ( )∑

=

−=n

iiy yySS

1

2

, ( ) ( )∑

=

−⋅−=n

iiixy yyxxS

1

Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.

Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby:

yx

xy

SSSS

Sr

⋅=

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 29

Testowanie współzaleŜności

Czy korelacja między cechami X, Y jest znacząca (istotna)?

Jeśli cechy X oraz Y mają rozkład normalny, moŜna weryfikować hipotezę dotyczącą korelacji:

Hipoteza zerowa o braku korelacji

Hipoteza alternatywna

0ρ:0 =H 0ρ:1 ≠H

• wybieramy poziom istotności α, • losujemy próbę dwucechową: (x1, y1), (x2, y2 ), ..., (xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru:

yx

xy

SSSS

Sr

⋅=

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 30

Test r • stosujemy test r: wartość empiryczna funkcji testowej remp = r, • odczytujemy wartość krytyczną r α , v = n -2 , • jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 31

Test t

MoŜna zastosować teŜ test t-Studenta:

• wartość empiryczna funkcji testowej wyraŜona jest wzorem

21 2

−⋅−

= nr

rtemp

• odczytujemy wartość krytyczną t α , v, gdzie

ν = n-2

• jeŜeli | temp | > t α , v, to H0 odrzucamy, w

przeciwnym przypadku H0 nie moŜna odrzucić.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 32

Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi

17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4

Diagram korelacyjny zawartość skrobi (%)

16,216,316,416,516,616,716,816,9

1717,117,2

18 20 22 24 26 28 30 32

plon

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 33

Przykład cd. Przyjmujemy, Ŝe: 1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne, oraz 2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość jest nieznana. • Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze wzoru:

yx

xy

SSSS

Sr

⋅=

,

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 34

Przykład cd.

kgx 24= , %7,16=y , 84=xSS , 680,SS y =

, 86,S xy −=

r = - 0,90,

Czy korelacja między cechami X, Y jest znacząca (istotna)?

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 35

Przykład cd. • stawiamy hipotezę o braku korelacji:

0ρ:0 =H , 0ρ:1 ≠H ,

• wybieramy poziom istotności α = 0,05, • stosujemy test r; wzór funkcji testowej:

remp = r gdzie: r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby; w przykładzie r = - 0,9, zatem remp = - 0,9, • odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632, • poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy.

Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 36

Przykład cd.

Zastosowanie testu t-Studenta:

( )84,5210

9,01

9,02

1 22−=−⋅

−−

−=−⋅−

= nr

rtemp

• odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31,

• poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 37

Badanie zaleŜności dwóch cech ilościowych.

Analiza regresji prostej

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 38

Badanie zaleŜności cechy Y od X Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi

17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4

Diagram korelacyjny zawartość skrobi (%)

16,2

16,3

16,4

16,5

16,6

16,7

16,8

16,9

17

17,1

17,2

18 20 22 24 26 28 30 32

plon

Analiza korelacji przeprowadzona przy poziomie istotności 0,05 wykazała istotną korelację między plonem bulw a zawartością skrobi. Wyznaczono współczynnik korelacji Pearsona r = -0,90. Plon bulw i zawartość skrobi są ujemnie skorelowane.

O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)...

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 39

Oznaczenia i terminologia

Opis zaleŜności cechy Y od cechy X (opis regresji cechy Y względem cechy X)

cecha X : objaśniająca, opisująca, niezaleŜna

cecha Y : objaśniana, opisywana, zaleŜna

Postać funkcji regresji II rodzaju:

g (x) = β1 ∙ x + β0 lub g (x) = β ∙ x + α współczynnik regresji stała regresji

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 40

Opis zaleŜności cechy Y od X X, Y – cechy obserwowane w doświadczeniu, Y~N n – liczba jednostek doświadczalnych (liczebność próby), Próba:

nr jednostki doświadczalnej 1 2 3 n wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn

Diagram korelacyjny:

prosta regresji

cecha X

cecha Y

11β b= , 00β b=

równanie prostej regresji:

y = b1*x + b0

b1 - współczynnik regresji

b0 - stała regresji

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 41

Prosta regresji

Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów

(MNK):

Komentarz...

ei

cecha X

cecha Y

równanie prostej regresji:

y = b1*x + b0

b1 = ? b0 = ?

y (xi) = b1*xi + b0

ei = y( xi ) – yi

min1

2 →∑=

n

iie

yi

xi

y(xi)

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 42

Prosta regresji cd. Estymatory uzyskane metodą najmniejszych kwadratów:

( ) ( )

( )∑

=

=

−⋅−= n

ii

n

iii

xx

yyxx

b

1

2

11

xbyb ⋅−= 10

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 43

Prosta regresji cd.

Oznaczenia upraszczające zapis wzoru:

( )∑=

−=n

iix xxSS

1

2

, ( )∑

=

−=n

iiy yySS

1

2

,

( ) ( )∑=

−⋅−=n

iiixy yyxxS

1

Określenia:

SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.

Estymatory uzyskane metodą najmniejszych kwadratów:

x

xy

SS

Sb =1

, xbyb ⋅−= 10

Interpretacja współczynnika regresji b1...

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 44

Test t

Czy badana zaleŜność jest znacząca (istotna)?

Stawiamy hipotezę:

H0: β1 = 0 H1: β1 ≠ 0

(hipoteza o braku regresji)

Wybieramy poziom istotności α, stosujemy test t-Studenta:

b

emps

bt 1=

, gdzie ( ) x

xyy

bSSn

SbSSs

⋅−⋅−

=2

1

Odczytujemy z tablic wartość krytyczną: 2,α −== nvkryt tt

Wnioskujemy:

Jeśli | temp | > t kryt to H0 odrzucamy, w przeciwnym przypadku

H0 nie moŜna odrzucić.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 45

Test F Stawiamy hipotezę:

H0: β1 = 0 H1: β1 ≠ 0

(hipoteza o braku regresji)

Wybieramy poziom istotności α, stosujemy test F-Fishera:

xyy

xy

empSbSS

nSbF

1

1 )2(

−−⋅⋅

=

Odczytujemy z tablic wartość krytyczną: 2,1,α 21 −=== nvvkryt FF

Wnioskujemy:

Jeśli Femp > Fkryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 46

Przykład W przykładzie: n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68,

Sxy = -6,8.

Wyznaczamy równanie prostej regresji.

Współczynniki w równaniu

081,084

8,61 −=−==

x

xy

SS

Sb

64,1824)081,0(7,1610 =⋅−−=⋅−= xbyb

Prosta regresji: y = 18,64 – 0,081x

y = – 0,081x + 18,64 Uwaga o odczytaniu znaku współczynnika regresji.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 47

Przykład cd.

Badamy istotność regresji cechy Y względem cechy X (istotność zaleŜności Y od X)

Stawiamy hipotezę:

H0: β1 = 0 H1: β1 ≠ 0

(hipoteza o braku regresji)

Poziom istotności α = 0,05, stosujemy test t-Studenta:

( ) ( ) 014,0672

1292,0

84210

)8,6()081,0(68,0

2

1 ==⋅−

−⋅−−=⋅−⋅−

=x

xyy

bSSn

SbSSs

79,5014,0

081,01 −=−==b

emps

bt

31,2tt 8,05,0kryt ==

Wnioskujemy: |temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy.

Stwierdzono statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 48

Przykład cd. Zamiast testu t moŜna zastosować test F:

11,341292,0

4064,4

)8,6()081,0(68,0

2)-(10)8,6()081,0()2(

1

1 ==−⋅−−

⋅−⋅−=−

−⋅⋅=

xyy

xy

empSbSS

nSbF

11,34=empF 32,58,1,05,0 == FFkryt

Wnioskujemy: Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 49

Zgodność znaków współczynników b1 oraz r

Prosta regresji: y = b0 + b1*x

Dla cech X, Y znaki współczynnika regresji b1 i współczynnika

korelacji r są jednakowe. Na podstawie współczynnika regresji

b1 moŜna powiedzieć, jaki jest kierunek korelacji badanych cech.

W przykładzie

Prosta regresji y = 18,64 – 0,081x b1 = -0,081

zatem współczynnik korelacji r < 0.

Zawartość skrobi jest ujemnie skorelowana z plonem bulw ziemniaka. Kiedy plon rośnie, zawartość skrobi maleje.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 50

Interpretacja współczynnika regresji b1

Prosta regresji: y = b0 + b1*x

Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach

cechy X), to wartość cechy Y zmieni się o |b1| jednostek

(w jednostkach cechy Y), a dokładniej:

• wzrośnie, gdy b1 > 0

• zmaleje, gdy b1 < 0

Interpretacja współczynnika regresji b1 w przykładzie

Prosta regresji y = 18,64 – 0,081x b1 = -0,081

Jeśli plon bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,081%.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 51

Interpretacja – współczynnik determinacji

Współczynnik determinacji, ozn. d

d = r2 · 100%, gdzie r – współczynnik korelacji

Interpretacja współczynnika determinacji

Współczynnik d przedstawia udział zmienności cechy Y

objaśnionej (wytłumaczonej) zmiennością cechy X.

W przykładzie:

r = - 0,9, to d = (- 0,9)2· 100% = 0,81· 100% = 81%

W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu, natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu.

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 52

Predykcja wartości cechy Y

Obliczanie wartości przewidywanej dla cechy zaleŜnej Y oparte na równaniu regresji.

Prosta regresji: y = b0 + b1*x

Przewidywana wartość cechy Y

Gdy cecha X przyjmie wartość x, to cecha Y

przyjmie wartość, którą oznaczymy y .

Ocena punktowa:

xbby 10ˆ +=

Ocena przedziałowa: ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α

ˆ;ˆ

α1−=P

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 53

Predykcja wartości cechy Y cd.

We wzorze:

( )regrregr stystyY ⋅+⋅−∈ ν,αν,αˆ;ˆ

α1−=P

mamy:

( )x

xy

regrSS

xx

nn

SSbSSs

221 1

2

−+⋅−

−=

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 54

Przykład - predykcja wartości cechy Y W przykładzie:

Prosta regresji y = 18,64 – 0,081x

n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68, Sxy = -6,8

Dla plonu x=20 kg przewidywana zawartość skrobi wyniesie: Ocena punktowa (%):

02,1720*)081,0(64,18ˆ10 =−+=+= xbby

Ocena przedziałowa: ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α

ˆ;ˆ

α1−=P

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 55

Przykład - predykcja wartości cechy Y cd. W przykładzie:

Prosta regresji y = 18,64 – 0,081x

n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68, Sxy = -6,8

Dla plonu x=20 kg przewidywana zawartość skrobi wyniesie

%02,17ˆ =y

Ocena przedziałowa dla poziomu ufności P=1-α=95%

( )

( )

068,05390,01269,0

84

2420

10

1

210

84)81,0(68,0

1

2

22

221

=⋅=

=−+⋅−

⋅−−=

=−+⋅−

−=

x

xy

regrSS

xx

nn

SSbSSs

Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 56

Przykład - predykcja wartości cechy Y cd.

W przykładzie:

t α, ν = t 0,05, 8 = 2,3060, s regr = 0,068 ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α

ˆ;ˆ

α1−=P

( )068,03060,202,17;068,03060,202,17 ⋅+⋅−∈Y

05,01−=P

( )16,002,17;16,002,17 +−∈Y 95,0=P

( )18,17;86,16∈Y %95=P

Dla plonu na poziomie 20 kg przewidywana zawartość skrobi wyniesie między 16,9 a 17,2% z p-stwem 95%.

Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej. Wykorzystanie prostej regresji.