1
Regression analysis
สถตอนมานทเรยนกอนหนาน (t-test, ANOVA) เปนสถตทตองการ power ในการทดสอบสมมตฐาน โดยมตวแปรตาม
เปน continuous scale variable และตวแปรตนเปน category scale variable
ยกตวอยางเชน คาเฉลยน าหนกสกรทกนอาหาร ก = คาเฉลยน าหนกสกรทกนอาหาร ข มน าหนกสกรเปนตวแปรตามทเปน
continuous scale และมตวแปรตนคออาหาร ซงเปน category scale
กรณทตองการหาความสมพนธหรอท านายความสมพนธ เมอตวแปรเปน continuous scale หรอเปน category scale ก
ได แตส าหรบบทเรยนนขอใชเฉพาะ continuous scale variable กอน
ตวอยางเชน ตองการหาความสมพนธระหวางเสนรอบวงเทาชาง กบ น าหนกชาง เปนตน จะใชสถต correlation หรอ
regression
ในกรณตองการหาความสมพนธใช correlation เปนการหาความสมพนธระหวางตวแปร continuous scale 2 ตวแปร ไม
มตวแปรตนและไมมตวแปรตาม เชน ตองการหาความสมพนธระหวางความสงของนายสตวแพทยและความสงของโค แต
หากตองการท านาย จะมตวแปรตน (x) และตวแปรตาม (y) คอเมอทราบตวแปรตน x จะสามารถท านายตวแปรตาม y ได
จะใชสถต regression ส าหรบ regression ทงายทสดคอ simple linear regression ใชสมการเสนตรง y = ax + b
ส าหรบขอมลจากประชากรใชสมการ yj = 0 + xj + j
Simple linear regression model
ความหมายของ 0 และ 1: เมอ 1 >0 จะม slope ทางบวก และ 1 <0 จะม slope ทางลบ
Theoretical Linear Model
y = 0 + 1x + โดย ε คอ residual error
ผลลพธของ simple regression คอสมประสทธ 1 และคาคงท 0
2
ตอไปนเปนการอธบายของการสราง regression line และความคลาดเคลอนตาง ๆ ทเกดขน
เสนไหนท fit กบขอมลไดดทสด? เนองจากเราอาจเลอก
แตกตางกน จงมวธการเลอกเสนทเหมาะทสด เรยกเสน
นนวา regression line
ในการท านายแตละจดของขอมล ขอมลคอ y และคาท
ท านายคอ
ส าหรบแตละ observation นนความแปรปรวนบรรยาย
ไดเปน y = y^ + ε คอ actual = explained + error
least squares regression เปนเสนทมผลรวมของคา
ยกก าลงสองของ error จากคาทท านาย (sum of
squared prediction error) ทนอยทสด คานเรยกวา
sum of squares of error หรอ SSE
การค านวณ SSR
Sum of Squares Regression (SSR) เปนผลรวมของ
ความแตกตางระหวางคาท านายของแตละ
observation กบคา population mean ยกก าลงสอง
3
Total variation ประกอบดวย 2 สวน:
= คาเฉลยของตวแปรตาม (dependent variable)
y = คาทสงเกตได (Observed value) ของตวแปรตาม
= คาประมาณของ y ของแตละคาของ x
SST = total sum of squares เปนการวดความแปรปรวนของคา yi รอบ ๆ คาเฉลย y
SSE = error sum of squares เปนความแปรปรวนอนเนองมาจากปจจยอน นอกเหนอจากความสมพนธระหวาง x และ y
SSR = regression sum of squares เปนความแปรปรวนทอธบายได อนเนองมาจากความสมพนธระหวาง x และ y
y
y
4
การประมาณ coefficient
เชนเดยวกบการใช x bar แทน เราใช b0 และ b1 ส าหรบ 0 และ ส าหรบจดตดแกน y และ slope ตามล าดบ ส าหรบ
least square หรอ regression line
= b0 + b1x
y = 0 + 1x
เปนการใชวธ least square เพอสรางเสนตรงทมผลรวมของ square difference ระหวางจดตาง ๆ และเสนตรง ใหนอย
ทสด
Least square line
สมประสทธการก าหนด (Coefficient of Determination, R2)
coefficient of determination เปนสดสวนของ total variation ของตวแปรตามทอธบายไดดวย variation ของตวแปร
ตน สามารถเรยกไดอกชอหนงวา R-squared และตวยอคอ R2
Note: เมอมตวแปรตนตวเดยว coefficient of determination คอ
เมอ: R2 = Coefficient of determination
(หากพบ r อยางเดยว หมายถง Simple correlation coefficient)
การวเคราะหดวยวธ least square ยงไง ๆ กไดเสนตรงขนมา แมวาจะไมมความสมพนธระหวางตวแปรเลยกตาม หรอ
แมแตเมอมความสมพนธกนแตไมใชเปนความสมพนธเชงเสนตรง ดงนนจงตองประเมนวาขอมล fit กบโมเดลดหรอไม โดย
การใช sum of square for error (SSE) (ส าหรบ SSR, SSE จะมสตรการหาอยในหนาถด ๆ ไป)
SST
SSRR 2 1R0 2
squares of sum
regressionby explained squares of 2
total
sum
SST
SSRR
22 rR
5
Standard Error of Regression
Standard Error ของ regression เปนการวด variability สามารถใชไดคลายคลงกบ standard deviation; y ± 2
standard error จะใหความมนใจประมาณ 95% และ 3 standard error จะใหชวงความมนใจท 99%
standard error =
n คอ จ านวน observation ของ sample
k คอ จ านวนตวแปรทงหมดในโมเดล
ผลจากการมคาแปรปรวน (σε) มาก (Effect of Larger Values of σε)
SSE สามารถค านวณไดจากสตร (พวกคา s ตาง ๆ มสตรหนาถดไป)
และใช SSE ในการค านวณ standard error of estimate:
(เนองจากม 2 ตวแปร คอ x และ y; k จงเปน 2)
ถา s เปนศนย แสดงวาจดทกจด (ทก x) อยบนเสน regression พอด
ถา s ต า แสดงวา fit ด และสามารถใชโมเดลเสนตรงในการท านายได
ถา s มาก แสดงวา โมเดลไมด
การจะตดสนคา s วามากหรอนอย ท าโดยเปรยบเทยบกบ sample mean ของตวแปรตาม ( )
ตวอยางเชน s = 0.3265 และ = 14.841
ดงนน ท าใหรสกไดวา ต า จงท าใหโมเดลเสนตรงของความสมพนธนน ๆ ด
6
β
β คอ การเปลยนแปลงตอหนวยของตวแปรตาม เมอตวแปรตนเปลยนแปลงไป 1 หนวย: =
สมประสทธ (coefficient) b1 และ b0 ส าหรบเสน least square… = b0 + b1x …ค านวณไดโดย:
และ
n
X)( - X
Y)/nX)(( - 2
2
XYb
7
ขอตกลงเบองตน (assumption) ส าหรบ linear regression analysis
Linearity
Linear regression เปนความสมพนธเชงเสนตรงระหวาง x และ y สามารถทราบไดโดยการท า scatter
plot ซงควรเปนจดเรมตนกอนเรมการวเคราะห
Constant variance
variance ของ residual คงทส าหรบทกคาของ x; ทดสอบไดโดยการ plot residual กบ ตวแปรตน
(independent variable) ถา plot กระจาย แสดงวา variance คงท
เราสามารถวเคราะห heteroscedasticity โดยการ plot residual กบ predicted y
แตหาก plot เปนรปลมไมวาจะปลายไปทางไหน (เพมหรอลด) หรอเปนรปโบวจะจดวาเปน variance ไม
คงท (heteroscedasticity) ตองแกไขกอนวเคราะหตอไป
การแกไขอาจท าไดโดยใช weighted linear regression หรอ transform ขอมล (เชน log เปนตน) ใหม
variance คงทใหได
8 Outlier
ถาคานนมากกวา 2 standard deviation อาจสงสยไดวาจะเปน outlier ซงตองจดการ outlier กอน
เพราะจะมผลตอเสน least square
outlier เกดไดจาก
- มความผดพลาดในการอานคา
- มขอมลทไมควรน ามาเขาในชดขอมลหลดเขามา
- อาจเปนจรง
เราสามารถพบ outlier ไดจากการท า scatter plot เชน odometer ของรถมอสองมตงแต 19100 ถง 49200 ไมล หาก
มคาหนงแค 5000 ไมล จดนคอ outlier
ขบวนการ regression analysis
1. ทดสอบความชน
2. ทดสอบความสมพนธเชงเสนตรง
3. หา Coefficient of determination
4. เขยน Regression equation
9
1. การทดสอบความชน (slope)
หลงจากทเตรยมขอมลเพอการวเคราะหไดแลว เราจะท าการวเคราะหความชนของตวแปร ถาไมมความสมพนธระหวางตว
แปร 2 ตว คาดไดวา regression line จะเปนแนวระนาบ (ขนานกบแกน x) คอม slope หรอความชนเปน ศนย
หมายความวาหาก x หรอตวแปรตนเพมขน แตตวแปร y หรอตวแปรตามคงท คอ x ไมไดเปนเหตให y เปลยนแปลงไป หาก
เปนเชนนกไมตองหาความสมพนธหรอสมการเสนตรงตอไป
ถาตองการพบความสมพนธเชงเสนตรง จงตองม slope (1) ทไมใช ศนย ดงนนสมมตฐานคอ
H1: 1 ≠ 0
1 = 0
การทดสอบทางสถตเพอทดสอบสมมตฐาน 1 = 0
ใช
เมอ sb1 คอ standard deviation ของ b1 เขยนไดเปน
ถา error variable () มการกระจายตวเปนปกต การทดสอบทางสถตทมการกระจายตวเปน Student t-distribution
เมอม degree of freedom เปน n-2
ตวอยาง: การทดสอบเพอตดสนวา slope แตกตางจาก 0 อยางมนยส าคญทางสถต (ทระดบ 5%) เราตองการทดสอบ
H1: 1 ≠ 0 H0: 1 = 0
ถา null hypothesis เปนจรง แสดงวาไมมความสมพนธเชงเสนตรง
บรเวณปฏเสธสมมตฐานคอ:
t < -t/2.v = -t.025 .98 -1.984 หรอ t > -t/2.v = -t.025 .98 1.984; (v = n-2 จากตวอยางใชตวอยางขอมล n = 100)
หรอดจากคา p-value ในกรณนได p-value < 0.0001 (t statistic ทค านวณไดเปน -13.49 คา t critical คอ -1.984)
เราสามารถประเมนชวงความมนใจส าหรบ slope parameter, 1 ได กอนหนานไดกลาวถงวาตวแทน 1 ส าหรบ sample
คอ b1 ไปแลว ชวงความเชอมนค านวณไดโดย b1 t/2 sb1 v = n-2
ดงนน b1 t/2 sb1 = -0.0669 1.984(0.00497) = -0.0669 0.0099
slope coefficient จงอยระหวาง -0.0768 และ -0.0570
10
2. ทดสอบวามความสมพนธเชงเสนตรง
ใชสถต ANOVA ส าหรบ simple linear regression model
H0: ไมมความสมพนธเชงเสนตรง
Source Degrees of freedom Sums of squares Mean squares F-statistic1
Regression 1 SSR MSR = SSR/1 F = MSR/MSE
Error n-2 SSE MSE = SSE/(n-2)
Total n-1 Variation in y (SST)
Source Degrees of freedom Sums of squares Mean squares F-statistic1 p-value
Regression 1 19.26 19.26 180.64 <0.0001
Error 98 10.45 0.11
Total 99 29.70
3. Coefficient of determination
เมอการทดสอบทผานมาบอกไดวามความสมพนธเชงเสนตรง ตอไปใหวดความแรงของความสมพนธนน โดยการค านวณ
coefficient of determination (R2)
หรอ
เมอ coefficient of determination เปน ยกก าลงสองของ coefficient of correlation (r) ดงนน R2 = r2 ส าหรบเมอม
ตวแปรตน 1 ตวแปร
ตวอยาง หาก R2 มคา 0.6483 หมายความวา 64.83% ของ variation ในตวแปรตาม (y) อธบายไดจากโมเดล
regression น และอก 35.17% ไมสามารถอธบายได เชน เกดจาก error
coefficient of determination ไมมคา critical value ทชวยเราในการสรปผลได (ไมเหมอนสถตอน ๆ)
โดยทวไปแลวเมอคา R2 สง แสดงวาโมเดล fit กบ data ด
R2 = 1 แสดงวามการเขากนไดสมบรณระหวางเสนตรงและขอมล
R2 = 0 แสดงวาไมมความสมพนธเชงเสนตรงระหวาง x และ y
11
4. Regression equation
ใชสมการ regression = b0 + b1x เพอท านายตวแปรตาม
ตวอยางเชน = 17.250 - 0.0669x = 17.250 - 0.0669(40) = 14,574
เรยกคาทไดน (14,574) วา point prediction (estimate) แตเนองจากตวแปรตามจรง ๆ จะมโอกาสแตกตางไปจากท
ท านายได ดงนนเราประเมนตวแปรตามดวยชวงความเชอมนจะดกวา เรยกวา prediction interval
5. Prediction interval
ใชเมอตองการท านายคาตวแปรตามหนง ๆ โดยมคาตวแปรตนมาให
= b0 + b1x
เราจะหาคาชวงความเชอมนส าหรบ expected value ของ y (คาเฉลยของ y) เมอเราตองการท านายชวงทม true
regression line อยในชวงนน คอเราประเมนคาเฉลยของ y เมอไดคา x มา
Prediction interval Confidence interval
ใชเพอประเมนคาของคา y (ท x หนง ๆ) ใชเพอประเมนคาเฉลยของ y (ท x หนง ๆ)
ชวงความเชอมน (confidence interval) ทใชประเมน expected value ของ y จะแคบกวาชวงทท านาย (prediction
interval) เพราะมความผดพลาดนอยกวาในการประเมนคาเฉลยเมอเทยบกบการท านายคาหนง ๆ
12
ตวอยาง Regression: เมอ x = ขนาดบาน, y = ราคาบาน
y = 25,000 + 75 x + ε
e.g. บานทกบานทมขนาดเทากนขายราคาเดยวกนหรอไม?
x y x - y - (x - ) * (y - ) (x - )2
1 6 -2.500 -2.333 5.833 6.250 2 1 -1.500 -7.333 11.000 2.250 3 9 -0.500 0.667 -0.333 0.250 4 5 0.500 -3.333 -1.667 0.250 5 17 1.500 8.667 13.000 2.250 6 12 2.500 3.667 9.167 6.250
รวม 21 50 0.000 0.000 37.000 17.500
= 3.500, = 8.333,
sxy = 7.400 [37.00/(6-1)], sx = 3.500 [17.5/(6-1)]
b1 = 2.114 [7.4/3.5], b0 = 0.933 [8.33 - 2.114*3.50]
r = 0.7007 คอ correlation (r)
R2 = 0.4910 เปนสดสวนของ variation ในตวแปร y ทสามารถอธบายไดดวยโมเดล regression
Standard error = 4.5029
Observation = 6
ANOVA table
df SS MS F p-value
Regression 1 78.23 78.23 3.86 0.121 Residual 4 81.10 20.28 Total 5 159.33
H0: regression model 'ไมด'
Coefficients Standard error t stat p-value
Intercept 0.933 4.19 0.22 0.83 X variable 1 2.114 1.08 1.96 0.12
H0: 1 = 0
13
ทดลองท า
Test 2 Grade = β0 +β1*(Test 1 Grade)
From Data:
Estimate β0
Estimate β1
Estimate σε
Student Test 1 Test 2
1 50 32
2 51 33
3 52 34
4 53 35
5 54 36
6 55 37
7 56 39
8 57 40
9 58 41
10 59 42
11 60 43
12 61 44
13 62 46
14 63 47
15 64 48
16 65 49
17 66 50
18 67 51
19 68 53
20 69 54
21 70 55
22 71 56
23 72 57
14
การวเคราะห Correlation, r
“-1 < r < 1”
ถาสนใจเฉพาะวามความสมพนธหรอไม จะท าเฉพาะ correlation analysis ตวอยางเชน ความสงของนสตและน าหนก
ตองการหาเฉพาะความสมพนธ ไมตองการท านายน าหนกจากสวนสง หรอ ไมตองการท านายสวนสงจากน าหนก
หรอ
ถา correlation coefficient เขาใกล +1 หมายความวามความสมพนธเชงบวกมาก
ถา correlation coefficient เขาใกล -1 หมายความวามความสมพนธเชงลบมาก
ถา correlation coefficient เขาใกล 0 หมายความวาไมมความสมพนธ
ทดสอบสมมตฐาน H0: r = 0; Ha: r≠0
ตวอยางเชน H0: อายกบคาความดนเลอดแบบซสโทลกไมมความสมพนธกน
Ha: อายกบคาความดนเลอดแบบซสโทลกมความสมพนธกน
r ระดบความสมพนธ 0.80 – 1.0 มาก
0.50 – 0.79 ปานกลาง 0.20 – 0.49 นอย
0 – 0.19 ไมควรสนใจ
Plot of Height vs Weight
100 140 180 220 260
Weight
4.6
5
5.4
5.8
6.2
6.6
7
Heig
ht
Plot of Height vs Weight
100 140 180 220 260
Weight
5.4
5.8
6.2
6.6
7
Heig
ht
Plot of Height vs Weight
100 140 180 220 260
Weight
5.3
5.6
5.9
6.2
6.5
6.8
Heig
ht
Plot of Height vs Weight
100 140 180 220 260
Weight
5
5.4
5.8
6.2
6.6
Heig
ht
22 )()(
))((
yyxx
yyxxr
ii
ii
]/)(][/)([
/))((
2222 nyynxx
nyxyxr
iiii
iiii