Upload
ilanit-lender
View
121
Download
0
Embed Size (px)
Citation preview
Prof.Lily Neuman 1
פרופ' לילי נוימן
Prof.Lily Neuman
נושאי השיעור
מקדם המתאם הלינארי שלPearsonרגרסיה לינארית פשוטהרגרסיה לינארית מרובהניתוח רב-משתני - מושגים נוספים
2
Prof.Lily Neuman
קשר סטטיסטי בין משתנים
i 1 2 … n
X x1 x2 … xn
Y y1 y2 … yn
.Y ו-Xנתבונן בשני משתנים כמותיים
של קשר סטטיסטי:משמעות
שינוי ערך במשתנה אחד גורר אחריו שינוי ערך במשתנה השני.
3
Prof.Lily Neuman
קשר סטטיסטי בין משתנים
4
Prof.Lily Neuman
(Pearsonמקדם המתאם של פירסון )5
ʭʩɹʩʁʸ ʭʩh ʹ ʮʯʩʡX-ʥY:ʩ"ʲ ʸ ʣʢʥʮ ,
YX
ii
ii
yx
YX
YyXx
YyXx
ryxrr
),cov(
])()[(
)]()[(
),(
22
,
Prof.Lily Neuman מקדם המתאם של פירסון(Pearson)
6
ʸ ʹ ʠʫ
n
YyXxYX ii )])([(
),cov(
ʬʹ ʺ ʴ ʺ ʥʮʺ ʥhʥʤX-ʥY((Covariance,
n
XxXx iiX
)])([(2 ʬ ʺ ʥhʥ - .X
n
YyYy iiY
)])([(2 ʬ ʺ ʥhʥ - .Y
Prof.Lily Neuman
(Pearsonמקדם המתאם של פירסון )
7
:ʭʠʺ ʮʤʭʣʮʬʹ ʺ ʥhʥʫ
1. ),(),( XYrYXr 2. 1),(1 YXr 3. 0r .ʩyʠʰʩʬʸ ʹ ʷʯʩʠ
1r .ʷʦʧ ʩʡʥʩʧ ʩyʠʰʩʬʸ ʹ ʷʹ ʩ 1r ʷʦʧ ʩʬʩʬʹ ʩyʠʰʩʬʸ ʹ ʷʹ ʩ.
Prof.Lily Neuman מקדם המתאם של פירסון(Pearson)
8
:rדוגמא לחישוב
0
2
4
6
8
10
12
14
0 5 10 15 20 25
Prof.Lily Neuman
(Pearsonמקדם המתאם של פירסון )9
))(( YyXx ii 2)( Yyi 2)( Xxi Yyi Xxi Y X
15 0 50 20 50
9 1
25 16 25
25 0
100 25 100
3 1 5 -4 -5
5 0
10 5-
-10
10 8 12 3 2
15 10 20 5 0
135 76 250 35 50
9.32.155
767
7
35
07.7505
25010
5
50
2
2
YY
XX
Y
X
275
135),( YXCov
97.09.307.7
27),cov(),(
YX
YXyxrr
Prof.Lily Neuman 1 מתאם ורגרסיה – דוגמא
50-55 גברים בגילאי 15בטבלה נתונים המשקל ורמת הכולסטרול של ס"מ 175-178 שגובהם
10
XY Y2 X2 Y (cholesterol)
X (weight)
11946 32761 4356 181 66 1 21204 51984 8649 228 93 2 12922 33124 5041 182 71 3 18675 62001 5625 249 75 4 21497 67081 6889 259 83 5 13869 40401 4761 201 69 6 33900 114921 10,000 339 100 7 18386 50176 6724 224 82 8 7616 12544 4624 112 68 9 20485 58081 7225 241 85 10 18450 50625 6724 225 82 11 16502 49729 5476 223 74 12 23130 66049 8100 257 90 13 29656 113569 7744 337 88 14 13987 38809 5041 197 71 15
282,207 841,855 96,979 3455 1197 " «�¥ 230.3 79.8 ¨¨�°¬ 57.35 10.21 £¢«£´
©±
Prof.Lily Neuman
1מתאם ורגרסיה – דוגמא 11
Prof.Lily Neuman
פונקציית ניבוי
.Y ו-Xנתבונן בשני משתנים כמותיים , אז ניתן לבנות Y ו-Xאם קיים קשר סטטיסטי בין שני המשתנים
פונקציה שמתארת קשר זה, כלומר:
.פונקצית ניבוי נקראת F(X) =Yהפונקציה היא פונקציה לינארית, זאת אומרת יש לה F(X)אם הפונקציה
צורה:
יש קשר לינארי.Y ו-Xאז אומרים שבין משתנים נמדד על-ידי מקדם המתאם של פירסון.חוזק הקשר הלינארי
12
)(XFY
bXaXF )(
Prof.Lily Neuman
רגרסיה לינארית פשוטה
)המוגדר Xהמטרה היא ללמוד על הקשר הלינארי בין משתנה)המוגדר כמשתנה תלוי( Yכמשתנה בלתי תלוי( לבין המשתנה
:X על-ידי Yולבנות פונקציית ניבוי של
13
bXaXF )(.
ʸ ʹ ʩʤʥʤbXa ʩʥʦʩʧʬʤʩɦʸ ʢy ʤʥʠʸ ʷʰYʩɹʬX.
ʤhʺ ʹ ʮʩʥʡʩhʬʸ ʺ ʥʩʡʡʥʨʤy ʹ ʩʤʥʤʠʥʤʤʩɦʸ ʢy ʤʥYʤhʺ ʹ ʮʤʪʮʱ ʬʲX.
Prof.Lily Neuman
רגרסיה לינארית פשוטה14
Prof.Lily Neuman
רגרסיה לינארית פשוטה15
עיקרון בניית קו הרגרסיה
i 1 2 … n
X x1 x2 … xn
Y y1 y2 … yn
:ʯʮʱ ʰ
ii bxay ˆ
iiiii bxayyye ˆ
Prof.Lily Neuman
רגרסיה לינארית פשוטה16
עיקרון בניית קו הרגרסיה
Y
X
1y
2y
ny
1y
2y ny
1e 2e
ne
ʥʠʥʁʮʬʠʩʤʤy ʨʮʤy :ʹ ʪʫ
min2 ieQ
Prof.Lily Neuman
רגרסיה לינארית פשוטה17
222 )()( iiiii bxayyyeQ
0,0min
b
Q
a
00)2())(2())(2(:.1
iiiiii eeyybxaya
Q
00)2())(2())(2(:.2
iiiiiiiiii xexexyyxbxayb
Q
iiii
ii
yxxbxa
yxbna
2
Prof.Lily Neuman
נוסחאות לחישוב משואת קו הרגרסיה הלינארית הפשוטה
18
ʩʥʦʩʧʬʺ ʩyʠʰʩʬʤʩɦʸ ʢy ʥYʩɹʬX : bxay
ʸ ʹ ʠʫ
x
ii
iiii
Sn
yxnxy
xx
yyxx
xx
yxyxnb
)1(...
)(
))((
)(
))((
2
2
xbya
Prof.Lily Neuman
רגרסיה לינארית פשוטה19
. לבנות קו רגרסיה לחיזוי המשקל של בעל החיים דוגמאלפי הגובה שלו.
Σ 8 7 6 5 4 3 2 1 i Σx=72 17 14 13 10 7 5 4 2 ʱ )"(ʮ Xi
Σy=64 20 11 11 4 10 13 2 3 ('ʸ ʢ)Yi
ʤʩɦʸ ʢy ʯʭʩhʥʡ
bxay
ʠʥʁʮʬʪʩyʶ ʸ ʮʥʬʫa-ʥbʭʩʡʹ ʧ ʮ . ʭʩʶʥʮ:88
649
8
72 YX.
Prof.Lily Neuman
רגרסיה לינארית פשוטה20
4.0200
80)917(...)95()94()92(
)810)(917(...)813)(95()82)(94()83)(92()(
))((
2222
2
xx
yyxxb
4.494.08 xbya
xy 4.04.4
קו :רגרסיה
Prof.Lily Neuman
רגרסיה לינארית פשוטה21
על גרף הנתוניםy= 0.4x + 4.4משוואת הקו
משקל בעל חיים ביחס לגובהו
0
5
10
15
20
25
0 5 10 15 20
x )ס"מ)
Prof.Lily Neuman 22
דוגמא על הקשר בין כולסטרול ומשקל
Prof.Lily Neuman 23
דוגמא על הקשר בין כולסטרול ומשקל
Prediction:
190ˆ y 70x
280ˆ y 90x
370ˆ y 110x
cholesterol levels and weight of 15 men
100
150
200
250
300
350
55 60 65 70 75 80 85 90 95 100 105 110
w eight )Kg(
cho
lest
ero
l )m
g/1
00m
l(
Prof.Lily Neuman
טיב החיזוי של רגרסיהכדי להעריך את טיב החיזוי של רגרסיה משתמשים
.R^2במדד שנקרא אחוז הניבוי והוא מסומן ב
חישוב אחוז הניבוי:
24
2
22
)(
)(
yy
yyR
i
i
2
2
)(
)(
yySS
yySS
iy
ireg
Prof.Lily Neuman
טיב החיזוי של רגרסיה
25
=ʩʥʡʩhʤʦʥʧ ʠ100%* R2
-ʡʺ ʸ ʡʱ ʥʮʤ ʥhʥʤʦʥʧ ʠ =ʩʥʡʩhʤʦʥʧ ʠyʩ"ʲx. :ʠʮʢʥʣ
3 2 1 i
3 1 2 xi
3 2 4 yi
3;2 yx bxay
5.0)23()21()22(
)33)(23()32)(21()34)(22(222
b 225.03 xbya
:ʤʩɦʸ ʢy ʤʥxy 5.02
. 35.025.215.02325.02 321 yyy
25.0)33()32()34(
)35.3()35.2()33(
)(
)(222
222
2
22
yy
yyR
i
i
=ʩʥʡʩhʤʦʥʧ ʠ100%*0.25 =25%.
:ʬʥyʨɦ ʬʥʫʤ ʮʢʥʣʡʥR2 = 0.64
Prof.Lily Neuman
דוגמא לרגרסיה לינארית פשוטהNumber of birth to unmarried mothers
26
Birth to older mothers (>40 yr.)
Birth to younger mothers(<19 yr.)
t x
12 177 1980 1 13 139 1981 2 23 146 1982 3 17 139 1983 4 21 116 1984 5 32 131 1985 6 66 122 1986 7 59 140 1987 8 62 129 1988 9 84 134 1989 10 95 142 1990 11
24 ± 83 (59,107 )
33±120 (87,153 )
1990 Prediction:
Prof.Lily Neuman 27
Number of births to unmarried mothers
0
20
40
60
80
100
120
140
160
180
200
1978 1980 1982 1984 1986 1988 1990 1992
Years
Bir
ths
Birth to younger mother(<19 yr.)
Birth to older mothers (>40 yr.)
Prof.Lily Neuman
דוגמא לרגרסיה לינארית פשוטה
¥«§¥¢�40 «�¥¢�19 4.51.8ˆ xy
85.0
86.02
2
adjR
R
7.1542.3ˆ xy
25.0
34.02
2
adjR
R
34.10
989.688
167.92
2
YX
Y
X
S
S
S
33.14
678.274
167.92
2
YX
Y
X
S
S
S
r=0.929 P<0.001
r=-0.579 p>0.05 (p0.08)
28
Prof.Lily Neuman
Multiple linear regression
where bi is a regression coefficient, b0 is the intercept,
xi are independent variables.
29
kk xbxbxbby .....ˆ 22110
Y X1 X2
ID Current Hospitalization
(days)
Number of previous Hospitalizations
Age (in years)
1 15 0 21
2 15 0 18
3 21 1 14
….. ….. ….. …..
15 50 5 65