14
1 Regression analysis สถิติอนุมานที่เรียนก่อนหน้านี (t-test, ANOVA) เป็นสถิติที่ต้องการ power ในการทดสอบสมมุติฐาน โดยมีตัวแปรตาม เป็น continuous scale variable และตัวแปรต้นเป็น category scale variable ยกตัวอย่างเช่น ค่าเฉลี่ยน้าหนักสุกรที่กินอาหาร ก = ค่าเฉลี่ยน้าหนักสุกรที่กินอาหาร ข มีน้าหนักสุกรเป็นตัวแปรตามที่เป็น continuous scale และมีตัวแปรต้นคืออาหาร ซึ่งเป็น category scale กรณีที่ต้องการหาความสัมพันธ์หรือทานายความสัมพันธ์ เมื่อตัวแปรเป็น continuous scale หรือเป็น category scale ก็ ได้ แต่สาหรับบทเรียนนี ้ขอใช ้เฉพาะ continuous scale variable ก่อน ตัวอย่างเช่น ต้องการหาความสัมพันธ์ระหว่างเส้นรอบวงเท้าช้าง กับ น ้าหนักช ้าง เป็นต้น จะใช้สถิติ correlation หรือ regression ในกรณีต้องการหาความสัมพันธ์ใช้ correlation เป็นการหาความสัมพันธ์ระหว่างตัวแปร continuous scale 2 ตัวแปร ไม่ มีตัวแปรต้นและไม่มีตัวแปรตาม เช่น ต้องการหาความสัมพันธ์ระหว่างความสูงของนายสัตวแพทย์และความสูงของโค แต่ หากต้องการทานาย จะมีตัวแปรต้น (x) และตัวแปรตาม (y) คือเมื่อทราบตัวแปรต้น x จะสามารถทานายตัวแปรตาม y ได้ จะใช้สถิติ regression สาหรับ regression ที่ง่ายที่สุดคือ simple linear regression ใช้สมการเส้นตรง y = ax + b สาหรับข้อมูลจากประชากรใช้สมการ y j = 0 + x j + j Simple linear regression model ความหมายของ 0 และ 1 : เมื่อ 1 >0 จะมี slope ทางบวก และ 1 <0 จะมี slope ทางลบ Theoretical Linear Model y = 0 + 1 x + โดย ε คือ residual error ผลลัพธ์ของ simple regression คือสัมประสิทธิ 1 และค่าคงที 0

เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

  • Upload
    buidan

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

1

Regression analysis

สถตอนมานทเรยนกอนหนาน (t-test, ANOVA) เปนสถตทตองการ power ในการทดสอบสมมตฐาน โดยมตวแปรตาม

เปน continuous scale variable และตวแปรตนเปน category scale variable

ยกตวอยางเชน คาเฉลยน าหนกสกรทกนอาหาร ก = คาเฉลยน าหนกสกรทกนอาหาร ข มน าหนกสกรเปนตวแปรตามทเปน

continuous scale และมตวแปรตนคออาหาร ซงเปน category scale

กรณทตองการหาความสมพนธหรอท านายความสมพนธ เมอตวแปรเปน continuous scale หรอเปน category scale ก

ได แตส าหรบบทเรยนนขอใชเฉพาะ continuous scale variable กอน

ตวอยางเชน ตองการหาความสมพนธระหวางเสนรอบวงเทาชาง กบ น าหนกชาง เปนตน จะใชสถต correlation หรอ

regression

ในกรณตองการหาความสมพนธใช correlation เปนการหาความสมพนธระหวางตวแปร continuous scale 2 ตวแปร ไม

มตวแปรตนและไมมตวแปรตาม เชน ตองการหาความสมพนธระหวางความสงของนายสตวแพทยและความสงของโค แต

หากตองการท านาย จะมตวแปรตน (x) และตวแปรตาม (y) คอเมอทราบตวแปรตน x จะสามารถท านายตวแปรตาม y ได

จะใชสถต regression ส าหรบ regression ทงายทสดคอ simple linear regression ใชสมการเสนตรง y = ax + b

ส าหรบขอมลจากประชากรใชสมการ yj = 0 + xj + j

Simple linear regression model

ความหมายของ 0 และ 1: เมอ 1 >0 จะม slope ทางบวก และ 1 <0 จะม slope ทางลบ

Theoretical Linear Model

y = 0 + 1x + โดย ε คอ residual error

ผลลพธของ simple regression คอสมประสทธ 1 และคาคงท 0

Page 2: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

2

ตอไปนเปนการอธบายของการสราง regression line และความคลาดเคลอนตาง ๆ ทเกดขน

เสนไหนท fit กบขอมลไดดทสด? เนองจากเราอาจเลอก

แตกตางกน จงมวธการเลอกเสนทเหมาะทสด เรยกเสน

นนวา regression line

ในการท านายแตละจดของขอมล ขอมลคอ y และคาท

ท านายคอ

ส าหรบแตละ observation นนความแปรปรวนบรรยาย

ไดเปน y = y^ + ε คอ actual = explained + error

least squares regression เปนเสนทมผลรวมของคา

ยกก าลงสองของ error จากคาทท านาย (sum of

squared prediction error) ทนอยทสด คานเรยกวา

sum of squares of error หรอ SSE

การค านวณ SSR

Sum of Squares Regression (SSR) เปนผลรวมของ

ความแตกตางระหวางคาท านายของแตละ

observation กบคา population mean ยกก าลงสอง

Page 3: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

3

Total variation ประกอบดวย 2 สวน:

= คาเฉลยของตวแปรตาม (dependent variable)

y = คาทสงเกตได (Observed value) ของตวแปรตาม

= คาประมาณของ y ของแตละคาของ x

SST = total sum of squares เปนการวดความแปรปรวนของคา yi รอบ ๆ คาเฉลย y

SSE = error sum of squares เปนความแปรปรวนอนเนองมาจากปจจยอน นอกเหนอจากความสมพนธระหวาง x และ y

SSR = regression sum of squares เปนความแปรปรวนทอธบายได อนเนองมาจากความสมพนธระหวาง x และ y

y

y

Page 4: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

4

การประมาณ coefficient

เชนเดยวกบการใช x bar แทน เราใช b0 และ b1 ส าหรบ 0 และ ส าหรบจดตดแกน y และ slope ตามล าดบ ส าหรบ

least square หรอ regression line

= b0 + b1x

y = 0 + 1x

เปนการใชวธ least square เพอสรางเสนตรงทมผลรวมของ square difference ระหวางจดตาง ๆ และเสนตรง ใหนอย

ทสด

Least square line

สมประสทธการก าหนด (Coefficient of Determination, R2)

coefficient of determination เปนสดสวนของ total variation ของตวแปรตามทอธบายไดดวย variation ของตวแปร

ตน สามารถเรยกไดอกชอหนงวา R-squared และตวยอคอ R2

Note: เมอมตวแปรตนตวเดยว coefficient of determination คอ

เมอ: R2 = Coefficient of determination

(หากพบ r อยางเดยว หมายถง Simple correlation coefficient)

การวเคราะหดวยวธ least square ยงไง ๆ กไดเสนตรงขนมา แมวาจะไมมความสมพนธระหวางตวแปรเลยกตาม หรอ

แมแตเมอมความสมพนธกนแตไมใชเปนความสมพนธเชงเสนตรง ดงนนจงตองประเมนวาขอมล fit กบโมเดลดหรอไม โดย

การใช sum of square for error (SSE) (ส าหรบ SSR, SSE จะมสตรการหาอยในหนาถด ๆ ไป)

SST

SSRR 2 1R0 2

squares of sum

regressionby explained squares of 2

total

sum

SST

SSRR

22 rR

Page 5: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

5

Standard Error of Regression

Standard Error ของ regression เปนการวด variability สามารถใชไดคลายคลงกบ standard deviation; y ± 2

standard error จะใหความมนใจประมาณ 95% และ 3 standard error จะใหชวงความมนใจท 99%

standard error =

n คอ จ านวน observation ของ sample

k คอ จ านวนตวแปรทงหมดในโมเดล

ผลจากการมคาแปรปรวน (σε) มาก (Effect of Larger Values of σε)

SSE สามารถค านวณไดจากสตร (พวกคา s ตาง ๆ มสตรหนาถดไป)

และใช SSE ในการค านวณ standard error of estimate:

(เนองจากม 2 ตวแปร คอ x และ y; k จงเปน 2)

ถา s เปนศนย แสดงวาจดทกจด (ทก x) อยบนเสน regression พอด

ถา s ต า แสดงวา fit ด และสามารถใชโมเดลเสนตรงในการท านายได

ถา s มาก แสดงวา โมเดลไมด

การจะตดสนคา s วามากหรอนอย ท าโดยเปรยบเทยบกบ sample mean ของตวแปรตาม ( )

ตวอยางเชน s = 0.3265 และ = 14.841

ดงนน ท าใหรสกไดวา ต า จงท าใหโมเดลเสนตรงของความสมพนธนน ๆ ด

Page 6: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

6

β

β คอ การเปลยนแปลงตอหนวยของตวแปรตาม เมอตวแปรตนเปลยนแปลงไป 1 หนวย: =

สมประสทธ (coefficient) b1 และ b0 ส าหรบเสน least square… = b0 + b1x …ค านวณไดโดย:

และ

n

X)( - X

Y)/nX)(( - 2

2

XYb

Page 7: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

7

ขอตกลงเบองตน (assumption) ส าหรบ linear regression analysis

Linearity

Linear regression เปนความสมพนธเชงเสนตรงระหวาง x และ y สามารถทราบไดโดยการท า scatter

plot ซงควรเปนจดเรมตนกอนเรมการวเคราะห

Constant variance

variance ของ residual คงทส าหรบทกคาของ x; ทดสอบไดโดยการ plot residual กบ ตวแปรตน

(independent variable) ถา plot กระจาย แสดงวา variance คงท

เราสามารถวเคราะห heteroscedasticity โดยการ plot residual กบ predicted y

แตหาก plot เปนรปลมไมวาจะปลายไปทางไหน (เพมหรอลด) หรอเปนรปโบวจะจดวาเปน variance ไม

คงท (heteroscedasticity) ตองแกไขกอนวเคราะหตอไป

การแกไขอาจท าไดโดยใช weighted linear regression หรอ transform ขอมล (เชน log เปนตน) ใหม

variance คงทใหได

Page 8: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

8 Outlier

ถาคานนมากกวา 2 standard deviation อาจสงสยไดวาจะเปน outlier ซงตองจดการ outlier กอน

เพราะจะมผลตอเสน least square

outlier เกดไดจาก

- มความผดพลาดในการอานคา

- มขอมลทไมควรน ามาเขาในชดขอมลหลดเขามา

- อาจเปนจรง

เราสามารถพบ outlier ไดจากการท า scatter plot เชน odometer ของรถมอสองมตงแต 19100 ถง 49200 ไมล หาก

มคาหนงแค 5000 ไมล จดนคอ outlier

ขบวนการ regression analysis

1. ทดสอบความชน

2. ทดสอบความสมพนธเชงเสนตรง

3. หา Coefficient of determination

4. เขยน Regression equation

Page 9: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

9

1. การทดสอบความชน (slope)

หลงจากทเตรยมขอมลเพอการวเคราะหไดแลว เราจะท าการวเคราะหความชนของตวแปร ถาไมมความสมพนธระหวางตว

แปร 2 ตว คาดไดวา regression line จะเปนแนวระนาบ (ขนานกบแกน x) คอม slope หรอความชนเปน ศนย

หมายความวาหาก x หรอตวแปรตนเพมขน แตตวแปร y หรอตวแปรตามคงท คอ x ไมไดเปนเหตให y เปลยนแปลงไป หาก

เปนเชนนกไมตองหาความสมพนธหรอสมการเสนตรงตอไป

ถาตองการพบความสมพนธเชงเสนตรง จงตองม slope (1) ทไมใช ศนย ดงนนสมมตฐานคอ

H1: 1 ≠ 0

1 = 0

การทดสอบทางสถตเพอทดสอบสมมตฐาน 1 = 0

ใช

เมอ sb1 คอ standard deviation ของ b1 เขยนไดเปน

ถา error variable () มการกระจายตวเปนปกต การทดสอบทางสถตทมการกระจายตวเปน Student t-distribution

เมอม degree of freedom เปน n-2

ตวอยาง: การทดสอบเพอตดสนวา slope แตกตางจาก 0 อยางมนยส าคญทางสถต (ทระดบ 5%) เราตองการทดสอบ

H1: 1 ≠ 0 H0: 1 = 0

ถา null hypothesis เปนจรง แสดงวาไมมความสมพนธเชงเสนตรง

บรเวณปฏเสธสมมตฐานคอ:

t < -t/2.v = -t.025 .98 -1.984 หรอ t > -t/2.v = -t.025 .98 1.984; (v = n-2 จากตวอยางใชตวอยางขอมล n = 100)

หรอดจากคา p-value ในกรณนได p-value < 0.0001 (t statistic ทค านวณไดเปน -13.49 คา t critical คอ -1.984)

เราสามารถประเมนชวงความมนใจส าหรบ slope parameter, 1 ได กอนหนานไดกลาวถงวาตวแทน 1 ส าหรบ sample

คอ b1 ไปแลว ชวงความเชอมนค านวณไดโดย b1 t/2 sb1 v = n-2

ดงนน b1 t/2 sb1 = -0.0669 1.984(0.00497) = -0.0669 0.0099

slope coefficient จงอยระหวาง -0.0768 และ -0.0570

Page 10: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

10

2. ทดสอบวามความสมพนธเชงเสนตรง

ใชสถต ANOVA ส าหรบ simple linear regression model

H0: ไมมความสมพนธเชงเสนตรง

Source Degrees of freedom Sums of squares Mean squares F-statistic1

Regression 1 SSR MSR = SSR/1 F = MSR/MSE

Error n-2 SSE MSE = SSE/(n-2)

Total n-1 Variation in y (SST)

Source Degrees of freedom Sums of squares Mean squares F-statistic1 p-value

Regression 1 19.26 19.26 180.64 <0.0001

Error 98 10.45 0.11

Total 99 29.70

3. Coefficient of determination

เมอการทดสอบทผานมาบอกไดวามความสมพนธเชงเสนตรง ตอไปใหวดความแรงของความสมพนธนน โดยการค านวณ

coefficient of determination (R2)

หรอ

เมอ coefficient of determination เปน ยกก าลงสองของ coefficient of correlation (r) ดงนน R2 = r2 ส าหรบเมอม

ตวแปรตน 1 ตวแปร

ตวอยาง หาก R2 มคา 0.6483 หมายความวา 64.83% ของ variation ในตวแปรตาม (y) อธบายไดจากโมเดล

regression น และอก 35.17% ไมสามารถอธบายได เชน เกดจาก error

coefficient of determination ไมมคา critical value ทชวยเราในการสรปผลได (ไมเหมอนสถตอน ๆ)

โดยทวไปแลวเมอคา R2 สง แสดงวาโมเดล fit กบ data ด

R2 = 1 แสดงวามการเขากนไดสมบรณระหวางเสนตรงและขอมล

R2 = 0 แสดงวาไมมความสมพนธเชงเสนตรงระหวาง x และ y

Page 11: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

11

4. Regression equation

ใชสมการ regression = b0 + b1x เพอท านายตวแปรตาม

ตวอยางเชน = 17.250 - 0.0669x = 17.250 - 0.0669(40) = 14,574

เรยกคาทไดน (14,574) วา point prediction (estimate) แตเนองจากตวแปรตามจรง ๆ จะมโอกาสแตกตางไปจากท

ท านายได ดงนนเราประเมนตวแปรตามดวยชวงความเชอมนจะดกวา เรยกวา prediction interval

5. Prediction interval

ใชเมอตองการท านายคาตวแปรตามหนง ๆ โดยมคาตวแปรตนมาให

= b0 + b1x

เราจะหาคาชวงความเชอมนส าหรบ expected value ของ y (คาเฉลยของ y) เมอเราตองการท านายชวงทม true

regression line อยในชวงนน คอเราประเมนคาเฉลยของ y เมอไดคา x มา

Prediction interval Confidence interval

ใชเพอประเมนคาของคา y (ท x หนง ๆ) ใชเพอประเมนคาเฉลยของ y (ท x หนง ๆ)

ชวงความเชอมน (confidence interval) ทใชประเมน expected value ของ y จะแคบกวาชวงทท านาย (prediction

interval) เพราะมความผดพลาดนอยกวาในการประเมนคาเฉลยเมอเทยบกบการท านายคาหนง ๆ

Page 12: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

12

ตวอยาง Regression: เมอ x = ขนาดบาน, y = ราคาบาน

y = 25,000 + 75 x + ε

e.g. บานทกบานทมขนาดเทากนขายราคาเดยวกนหรอไม?

x y x - y - (x - ) * (y - ) (x - )2

1 6 -2.500 -2.333 5.833 6.250 2 1 -1.500 -7.333 11.000 2.250 3 9 -0.500 0.667 -0.333 0.250 4 5 0.500 -3.333 -1.667 0.250 5 17 1.500 8.667 13.000 2.250 6 12 2.500 3.667 9.167 6.250

รวม 21 50 0.000 0.000 37.000 17.500

= 3.500, = 8.333,

sxy = 7.400 [37.00/(6-1)], sx = 3.500 [17.5/(6-1)]

b1 = 2.114 [7.4/3.5], b0 = 0.933 [8.33 - 2.114*3.50]

r = 0.7007 คอ correlation (r)

R2 = 0.4910 เปนสดสวนของ variation ในตวแปร y ทสามารถอธบายไดดวยโมเดล regression

Standard error = 4.5029

Observation = 6

ANOVA table

df SS MS F p-value

Regression 1 78.23 78.23 3.86 0.121 Residual 4 81.10 20.28 Total 5 159.33

H0: regression model 'ไมด'

Coefficients Standard error t stat p-value

Intercept 0.933 4.19 0.22 0.83 X variable 1 2.114 1.08 1.96 0.12

H0: 1 = 0

Page 13: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

13

ทดลองท า

Test 2 Grade = β0 +β1*(Test 1 Grade)

From Data:

Estimate β0

Estimate β1

Estimate σε

Student Test 1 Test 2

1 50 32

2 51 33

3 52 34

4 53 35

5 54 36

6 55 37

7 56 39

8 57 40

9 58 41

10 59 42

11 60 43

12 61 44

13 62 46

14 63 47

15 64 48

16 65 49

17 66 50

18 67 51

19 68 53

20 69 54

21 70 55

22 71 56

23 72 57

Page 14: เป็นสถิติที่ต้องการ ในการ ...vph.vet.ku.ac.th/vphvetku/images/education/Biostat57/...8 Outlier ถ าค าน นมากกว

14

การวเคราะห Correlation, r

“-1 < r < 1”

ถาสนใจเฉพาะวามความสมพนธหรอไม จะท าเฉพาะ correlation analysis ตวอยางเชน ความสงของนสตและน าหนก

ตองการหาเฉพาะความสมพนธ ไมตองการท านายน าหนกจากสวนสง หรอ ไมตองการท านายสวนสงจากน าหนก

หรอ

ถา correlation coefficient เขาใกล +1 หมายความวามความสมพนธเชงบวกมาก

ถา correlation coefficient เขาใกล -1 หมายความวามความสมพนธเชงลบมาก

ถา correlation coefficient เขาใกล 0 หมายความวาไมมความสมพนธ

ทดสอบสมมตฐาน H0: r = 0; Ha: r≠0

ตวอยางเชน H0: อายกบคาความดนเลอดแบบซสโทลกไมมความสมพนธกน

Ha: อายกบคาความดนเลอดแบบซสโทลกมความสมพนธกน

r ระดบความสมพนธ 0.80 – 1.0 มาก

0.50 – 0.79 ปานกลาง 0.20 – 0.49 นอย

0 – 0.19 ไมควรสนใจ

Plot of Height vs Weight

100 140 180 220 260

Weight

4.6

5

5.4

5.8

6.2

6.6

7

Heig

ht

Plot of Height vs Weight

100 140 180 220 260

Weight

5.4

5.8

6.2

6.6

7

Heig

ht

Plot of Height vs Weight

100 140 180 220 260

Weight

5.3

5.6

5.9

6.2

6.5

6.8

Heig

ht

Plot of Height vs Weight

100 140 180 220 260

Weight

5

5.4

5.8

6.2

6.6

Heig

ht

22 )()(

))((

yyxx

yyxxr

ii

ii

]/)(][/)([

/))((

2222 nyynxx

nyxyxr

iiii

iiii