31
西 5- 1 第 5 第 第第第第第第 5.2 第第第第 5.2.1 第第第第第第第 第第第第第第第第第第第 第第第 第第第第第第第第第第第第 第第第第第 ,一。 第第第第第第 第第第 第第第第第第第第第第 第第第第第第第第第第第第第第第 第第第第 、、。, 第第第第 第第第第第第第第第第第第第第第第第第 第第第第第第第第第第第第第第第第第第 。, 第第第第第第第第第第第第第第第第第第第第 第第第第第第第第第第第第 第第 。。 第第第第第第第第第 第第第第 第第第第第第第 第第第第第第第第第第第第第第 第第第第 。一一, 第第第第第第第第第第第第第第 一。

第 5 章 实用线性模型

  • Upload
    rhett

  • View
    47

  • Download
    1

Embed Size (px)

DESCRIPTION

第 5 章 实用线性模型. 5.2 方差分析. 5.2.1 单因子方差分析. 在科学试验和生产实践中,影响一事物的因素往往是很多的。如产品质量是否受到配料、设备、人工等的差异的影响。要找出对产品质量有影响的因素,我们需要进行试验。方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。 在实验中我们称要考察的指标为试验指标。称影响指标的条件为因素。称因素所处的状态为水平。如果在一项试验中只有一个因素在改变称为单因子试验,如果多于一个因素在改变称为多因子试验。. - PowerPoint PPT Presentation

Citation preview

Page 1: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 1

第 5 章 实用线性模型5.2 方差分析

5.2.1 单因子方差分析 在科学试验和生产实践中,影响一事物的因素往往是很多的。如产品质量是否受到配料、设备、人工等的差异的影响。要找出对产品质量有影响的因素,我们需要进行试验。方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。 在实验中我们称要考察的指标为试验指标。称影响指标的条件为因素。称因素所处的状态为水平。如果在一项试验中只有一个因素在改变称为单因子试验,如果多于一个因素在改变称为多因子试验。

Page 2: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 2

如下表:样本观测值的,得到假定各次试验都是独立

次试验,共进行了次试验进行

下在水平个水平有设因数

,),,1;,,1(

,),,1(

,,,

1

1

iik

I

iii

iI

nkIiy

nNIin

AAAIA

iInnnik

I

I

I

yyyy

yyy

yyy

AAA

21 21

22212

12111

21

值测观水平

正态分布。为相互独立的 ),0(,,1

,,,1,

,,1;,,1,

2

NIi

nke

nkIiey

iik

iikiik

Page 3: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 3

I

iii

I

i

n

kik

n

kik

ii

ji

I

ynN

yN

y

Iiyn

y

H

H

i

i

11 1

1

1

210

11

,,11

,:

,:

在上表中计算:

至少存在一对要检验假设:

为应变量影响的差异归结对因子的不同水平对响

I

i

n

kiik

I

ii

I

ii

I

i

n

k

ik

I

i

n

kik

i

ii

yySSE

yNyyySSA

yNyyySST

1 1

2

1

22

1

2

1 1

22

1 1

2

:组内差平方和

:组间差平方和

:修正的总平方和为

Page 4: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 4

INI

SSTSSESSA

FINSSE

ISSA

MSSE

MSSAF

INSSEMSSEISSAMSSA

NfINfIf

SSESSASST

,1)(

)1(

)(.)1(

11

两种方法完全等价。时拒绝也就是尾概率,当

的没有显著差异。对给定就接受异;否则水平下的均值有显著差响应变量在不同的因子

这意味着时拒绝,当对给定的水平

.

,)(,.

.

0

,10

0,,,1

Hp

FFPpFH

HFF

INI

INI

1

)(

)1(1

NSST

INSSEMSSEINSSE

pMSSE

MSSAISSAMSSAISSA

pF

和随机误差

因子效应

值均方自由度平方和方差来源

单因子方差分析表

Page 5: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 5

5

1

4

1

24

1

2

5

1

24

1

24

1

5

1

4

1

4

1

5

1

4

1

4

1

1060932698521798120863145713767

415723106929864364579612320153361

85.7020

175.815.735.5375.8775.57

4

1

1417327294214351231

88703566524

79815091453

70646996672

90716098671

j iij

iij

j iij

iij

j iij

iij

j iij

iij

YY

YY

YY

YY

种肥施丁

种肥施丙

种肥施乙

种肥施甲

化肥只施

例 1. 对某农作物采取五种不同的施肥方案进行收获量试验。每种方案作四块田,结果如下表。试求不同施肥方案对农作物收获量有无显著性影响。

均不相等。、、、、 543211543210 :;: HH

Page 6: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 6

3.3536141720

1415723

4

1

20

1

4

1

4

1

2

25

1

4

1

5

1

24

1

25

1

j iij

j iij

jj YYYYSSA

差平方和再根据上表计算组间离

25.21624157234

1106093

4

125

1

4

1

5

1

4

1

25

1

4

1

2

j iij

j iij

j iij YYYYSSE组内平方和

方差分析表:

1955.5698

15.1441525.2162

005.0133.605.88443.3536

SST

SSE

SSA

pF

总和组内组间

值比平均离差平方和自由度离差平方和

Page 7: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 7

收获量有显著影响。即采用不同施肥方案对

拒绝

查表计算

.

81.4.133.615.144

05.884

0

01.0,15,4

HFF

FF

5.2.2 双因子等重复试验的方差分析 在双因素试验中,如果不仅考虑因素 及 各自对试验结果的影响,而且还要考虑因素 与 的交互作用(记作 ,简记作 )对试验结果的影响,则应该对于因素 与 的各个水平的每一种配合

分别进行 次重复试验,即共进行 次试验,假定各次试验都是独立的,得到样本观测值 如下表:

BA

BA

A

A),,1;,,1(),( JjIiBA ji

B

B

),,1( Kky ijk

I

2K IJKN

Page 8: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 8

IJk

IJ

kI

I

kI

I

I

mk

J

kk

Jk

J

kk

J

x

x

x

x

x

x

A

x

x

x

x

x

x

A

x

x

x

x

x

x

A

BBB

1

2

21

1

11

2

12

22

221

21

211

2

1

11

12

121

11

111

1

21

B因素

A因素

Page 9: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 9

);,,1;,,1(),

,

),( 2

JjIiBA

IBA

BB

AA

NY

BABA

ji

ij

jj

ii

ijjiij

jiji

下的效应(

在水平配合的交互作用与叫做因素

下的效应在水平叫做因素下的效应,在水平叫做因素其中

)下的总体,的配合(与设在水平

lmij

J

I

H

H

H

1103

2102

2101

:

:

:

:要检验的原假设分别是

Page 10: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 10

i j kijkij

iijj

jiji

kijkij

yIJK

yyI

y

yJ

yyK

y

1,

1

1,

1

计算:

i j kijijk

i jjiij

jj

ii

i j kijk

yySSE

yyyyKSSAB

yyIKSSBB

yyJKSSAA

yySST

2

2

2

2

2

随机误差平方和:

交互效应平方和:

:因子主效应平方和

:因子主效应平方和

:修正的总平方和为

Page 11: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 11

SSESSABSSBSSASST

SSE

SSAB

SSB

SSA

SST

fffff

KIJIJIJKf

JIJIIJf

Jf

If

IJKNf

SSESSABSSBSSASST

自由度分解公式:

。、

、、

、的自由度分别是:、、、、

)1(

)1)(1(1

1

1

11

)1(,)1)(1(

)1(,1

)1(,1

~,)]1([

)1)(1(

~,)]1([

)1(

~,)]1([

)1(

KIJJIABAB

KIJJBB

KIJIAA

FFKIJSSE

JISSAB

MSSE

MSSABF

FFKIJSSE

JSSB

MSSE

MSSBF

FFKIJSSE

ISSA

MSSE

MSSAF

Page 12: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 12

.)(

,,

.)(

,,

.)(

,,

2)1(,)1)(1(

,)1(,)1)(1(

1)1(,1

,)1(,1

0)1(,1

,)1(,1

HFFPp

FF

HFFPp

FF

HFFPp

FF

ABKIJJIAB

KIJJIAB

BKIJJB

KIJJB

AKIJIA

KIJIA

时就拒绝假设

或者当对指定的

时就拒绝假设

或者当对指定的

时就拒绝假设

或者当对指定的

1)1(

)1(

)1)(1()1)(1(

11

11

IJKSSTKIJ

SSEMSSEKIJSSE

pMSSE

MSSAB

JI

SSABMSSABJISSAB

pMSSE

MSSB

J

SSBMSSBJSSBB

pMSSE

MSSA

I

SSAMSSAISSAA

pF

AB

B

A

随机误差

交互效应

主效应

主效应

值均方自由度平方和方差来源

Page 13: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 13

例 2. 为比较三种松树在不同的地区的生长情况有无差别,在每个地区对每种松树随机的选取五株,测量它们的胸径,得到如下的数据:

19221213

2223131914222212

1218252321151018

23292826

2618251920261925

2117241926302228

24271821

2019241616211326

1714172120251523

3

2

1

A

A

A

松树种类区地

1B 2B 3B 4B iy

jy

98 100 94

84 92

105

105

130

397

120

102

116

75

471

353

1221293 314 323 291

说明:红色数字为

Page 14: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 14

4.10660

1221)9212098(

5

1

65.4960

1221)291323314293(

15

1

6.35560

1221)353471397(

20

1

65.1393543

1221)222126(

2212

22222

2222

2222

SSAB

SSB

SSA

SST

5965.1393

38.18480.882

4588.097.073.1764.106

4478.09.055.16365.49

0003.068.98.17726.355

和随机误差交互效应主效应主效应

值均方自由度平方和方差来源

分析表松树数据的双因子方差

B

A

pF

Page 15: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 15

著。对树种胸径主效应不显即地区因子没有理由拒绝拒绝

是一个很大的概率,考虑因子对

B

H

FPp

FB B

02

48,3 4478.09.0

90.0

。的生长优于数种最小。说明树种的均值最大,的均值的均值,比较响。要进一步考查,则即树种对胸径有显著影

非常小,因此拒绝考虑因子对

32

65.1755.23,,

003.068.9

68.9

32321

0148,2

AAAAA

HFPp

FA A

。,即交互效应也不显著也没有理由拒绝

也是一个很大的概率,考虑因子交互对

03

48,6 4588.097.0

97.0

H

FPp

FAB AB

Page 16: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 16

5.3 线性回归 我们知道现实生活中的许多现象之间存在着相互依赖、

相互制约的关系 . 一切事物都是相互联系着、发展变化着的。变量间的关系一般可以分为两大类。

1 、确定性关系,即我们所熟悉的变量间的关系可以用函数关系来表达,如圆的半径 R 与圆的面积 S 之间就存在确定的函数关系。

2 、非确定性关系,即变量之间虽有密切的关系,但这种关系无法用确定的函数关系表达,如人的年龄与血压之间有密切关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间这种非确定性关系,称为相关关系。

即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性。

回归分析是分析变量间的不确定性关系的一种方法,有时也称为相关分析。

Page 17: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 17

( 1 )从一组数据出发,分析变量之间存在着什么关系,建立这些变量之间的关系式(回归方程)并对关系式的可信程度进行统计检验。 ( 2 )利用回归方程式,根据一个或几个变量的值预测或控制另一个变量的取值。 ( 3 )从影响某一变量的诸多变量中判断哪些变量对它的影响是显著的,哪些是不显著的从而建立起更实用的回归方程。 ( 4 )根据预测和控制提出要求,选择试验点对试验进行设计。

1. 回归分析的内容:

Page 18: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 18

例 3. 在硝酸纳( NaNO3 )的溶解度试验中,测得在不同温度 x 下,溶解于 100份水中的硝酸纳份数 y 的数据如下表:

1.1256.1134.999.927.856.803.760.717.66

6851362921151040

i

i

y

x

)( C。

这里 为自变量, 是随机变量,我们要求 对 的回归。

x yxy xy 10

以温度 为横坐标,硝酸纳份数 为纵坐标将这些观察值 描在平面直角坐标系上 . 称为散点图。根据散点图可以作出经验直线:

xy

)( , ii yx

xy 10

Page 19: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 19

的回归直线方程。对称为也称为回归变量。自变量

称为回归系数,、固定的未知参数

为一元线性回归模型,记

确定的模型为一般地,称由

xyxy

x

Var

E

xy

xy

10

10

2

10

10

.,0

一元线性回归分析的主要任务是:

(1) 用试验值(样本值)对 、 和 作点估计; (2) 对回归系数 、 作假设检验;(3) 在 处对 作预测,对 作区间估计 .

00 2

0xx yy

11

Page 20: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 20

n

iii

n

ii

nii

ii

nn

xyQQ

DE

nixy

yxyxn

1

210

1

210

212

10

21

),(

..., ,0

,...,2,1,

),(,,),(

,设

组独立观测值,有

相互独立且

(1) 回归系数的最小二乘估计

3. 模型参数估计

),(min)ˆ,ˆ(

ˆˆ

10,

10

1010

10

QQ

,使得和的估计和最小二乘法就是选择

Page 21: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 21

n

ii

n

iii

xx

yyxx

xx

yxxy

xy

1

2

11

221

10

ˆˆ

ˆˆ

,解得

n

iii

n

ii

n

ii

n

ii yx

nxyx

nxy

nyx

nx

11

22

11

1,

1,

1,

1其中

)(ˆˆˆˆ110 xxyxy (经验)回归方程为:

xy 8706.05078.67ˆ:

8706.05078.67

1

10

回归方程为

中出例根据上述公式,可计算

Page 22: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 22

称为剩余标准差。

独立。、分别与

差)为剩余方差(残差的方称

的无偏估计为

方和为残差平方和或剩余平称

的无偏估计)(

e

e

e

ee

e

n

i

n

iiiii

e

Qn

Q

yyxy

QQ

ˆ

ˆ

ˆ2

)ˆ(ˆˆ

)ˆ,ˆ(

2

102

2

22

1 1

22

10

10

2

Page 23: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 23

4. 检验、预测与控制 

(1) 回归方程的显著性检验

.0:;0: 1110

10

进行检验归结为对假设的显著性检验,对回归方程

HH

xY

程也无意义。来描述,所得的回归方回归的关系不能用一元线性与否则回归不显著,

性回归方程有意义;存在线性关系所求的线与认为被拒绝,则回归显著,假设

xy

xy

H 0: 10

Page 24: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 24

.,)2,1(

ˆ

)2,1()2/(

1

001

1

2

0

HHnFF

yyU

nFnQ

UFH

F

n

ii

e

否则就接受,拒绝故

(回归平方和)其中

~成立时,当

检验法)

n

ii

n

iixx

e

xx

xnxxxL

HHntT

ntL

TH

t

1

22

1

2

00

2

10

)(

.,)2(

)2(ˆ

ˆ

)2

其中

否则接受,拒绝故

~成立时,当

检验法

Page 25: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 25

2,121

1

.;

)()(

))((

)3

11

001

1 1

22

1

nFnr

HHrr

yyxx

yyxxr

r

n

i

n

iii

n

iii

其中

否则就接受时,拒绝当

检验法

回归的效果是显著的。

即认为线性所以拒绝

。在本题中若取

0025.0,7

2,2

1

21

58.563646.2

58.56ˆ

050

Htt

xx

T

n

e

n

ii

Page 26: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 26

(2)回归系数的置信区间

xxexxe

xxe

xxe

LntLnt

L

x

nnt

L

x

nnt

/ˆ)2(ˆ,/ˆ)2(ˆ

1ˆ)2(ˆ,

1ˆ)2(ˆ

1

21

1

21

1

2

21

0

2

21

0

10

的置信区间分别为置信水平为和

)2(

,)2(

1

2

2

2

21

2

n

Q

n

Q ee

的置信区间为的置信水平为

Page 27: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 27

(3)预测与控制1 )预测

n

ii

nxx

xx

nty

y

yxyy

1

2

20

2,2

0

0

001000

11ˆ~

1

ˆˆˆ

的预测区间为的置信水平为的预测值,作为的回归值用

)8360.91,7096.86()5632.2278.89(

%9525

4060

26

9

103183.28706.05078.67

1

9804.0ˆ05.0

2

0

预测区间为的时,在

的预测区间为的置信水平为可以在本题中若取

yx

xx

ye

Page 28: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 28

在实际问题中样本容量 常常很大,这时我们不但能得到较短的预测区间,还可以 简化式子

, 得到近似的预测区间 .

n

n

ii

nxx

xx

nty

1

2

20

2,2

0

11ˆ~

ˆ2~,ˆ2~00 yy

ˆ3~,ˆ3~00 yy

置信度为 99.7% 的预测区间近似地为:

置信度为 99.% 的预测区间近似地为:

特别, 的0y

在 很大时 ,上式中根式近似等于 1 , n22 )2( znt 用

近似,于是 预测区间近似地为:)% 1( 100

.ˆ~,ˆ~2020 uyuy

Page 29: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 29

2 )控制 控制是预测的反问题,即要求观察值 在某区间 内取值时,应控制 在什么范围。亦即要求以 的置信 度求出相应的 使 所队应的观察值 落在 内。

y),( 21 yy x

,, 21 xx 21 xxx y ),( 21 yy

)%`1(100

这里我们只讨论 很大时的情形。利用前面的式子n

2020 ˆ~,ˆ~ uyuy

21022

21021

ˆ~ˆˆ~

uxuyy

uxuyy

的上下限。来作为控制解出 xx

.ˆ2,ˆ2

,

2122

21

yy

yy

即大于长度)(要实现控制必须使区间注意:

第 5 章结束

Page 30: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 30

全课程结束 再见

Page 31: 第 5 章 实用线性模型

西南科技大学网络教育课

5- 31