Upload
rhett
View
47
Download
1
Embed Size (px)
DESCRIPTION
第 5 章 实用线性模型. 5.2 方差分析. 5.2.1 单因子方差分析. 在科学试验和生产实践中,影响一事物的因素往往是很多的。如产品质量是否受到配料、设备、人工等的差异的影响。要找出对产品质量有影响的因素,我们需要进行试验。方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。 在实验中我们称要考察的指标为试验指标。称影响指标的条件为因素。称因素所处的状态为水平。如果在一项试验中只有一个因素在改变称为单因子试验,如果多于一个因素在改变称为多因子试验。. - PowerPoint PPT Presentation
Citation preview
西南科技大学网络教育课
程
5- 1
第 5 章 实用线性模型5.2 方差分析
5.2.1 单因子方差分析 在科学试验和生产实践中,影响一事物的因素往往是很多的。如产品质量是否受到配料、设备、人工等的差异的影响。要找出对产品质量有影响的因素,我们需要进行试验。方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。 在实验中我们称要考察的指标为试验指标。称影响指标的条件为因素。称因素所处的状态为水平。如果在一项试验中只有一个因素在改变称为单因子试验,如果多于一个因素在改变称为多因子试验。
西南科技大学网络教育课
程
5- 2
如下表:样本观测值的,得到假定各次试验都是独立
次试验,共进行了次试验进行
下在水平个水平有设因数
,),,1;,,1(
,),,1(
,,,
1
1
iik
I
iii
iI
nkIiy
nNIin
AAAIA
iInnnik
I
I
I
yyyy
yyy
yyy
AAA
21 21
22212
12111
21
值测观水平
正态分布。为相互独立的 ),0(,,1
,,,1,
,,1;,,1,
2
NIi
nke
nkIiey
iik
iikiik
西南科技大学网络教育课
程
5- 3
I
iii
I
i
n
kik
n
kik
ii
ji
I
ynN
yN
y
Iiyn
y
H
H
i
i
11 1
1
1
210
11
,,11
,:
,:
在上表中计算:
至少存在一对要检验假设:
为应变量影响的差异归结对因子的不同水平对响
I
i
n
kiik
I
ii
I
ii
I
i
n
k
ik
I
i
n
kik
i
ii
yySSE
yNyyySSA
yNyyySST
1 1
2
1
22
1
2
1 1
22
1 1
2
:组内差平方和
:组间差平方和
:修正的总平方和为
西南科技大学网络教育课
程
5- 4
INI
SSTSSESSA
FINSSE
ISSA
MSSE
MSSAF
INSSEMSSEISSAMSSA
NfINfIf
SSESSASST
,1)(
)1(
)(.)1(
11
~
两种方法完全等价。时拒绝也就是尾概率,当
的没有显著差异。对给定就接受异;否则水平下的均值有显著差响应变量在不同的因子
这意味着时拒绝,当对给定的水平
.
,)(,.
.
0
,10
0,,,1
Hp
FFPpFH
HFF
INI
INI
1
)(
)1(1
NSST
INSSEMSSEINSSE
pMSSE
MSSAISSAMSSAISSA
pF
和随机误差
因子效应
值均方自由度平方和方差来源
单因子方差分析表
西南科技大学网络教育课
程
5- 5
5
1
4
1
24
1
2
5
1
24
1
24
1
5
1
4
1
4
1
5
1
4
1
4
1
1060932698521798120863145713767
415723106929864364579612320153361
85.7020
175.815.735.5375.8775.57
4
1
1417327294214351231
88703566524
79815091453
70646996672
90716098671
j iij
iij
j iij
iij
j iij
iij
j iij
iij
YY
YY
YY
YY
种肥施丁
种肥施丙
种肥施乙
种肥施甲
化肥只施
例 1. 对某农作物采取五种不同的施肥方案进行收获量试验。每种方案作四块田,结果如下表。试求不同施肥方案对农作物收获量有无显著性影响。
均不相等。、、、、 543211543210 :;: HH
西南科技大学网络教育课
程
5- 6
3.3536141720
1415723
4
1
20
1
4
1
4
1
2
25
1
4
1
5
1
24
1
25
1
j iij
j iij
jj YYYYSSA
差平方和再根据上表计算组间离
25.21624157234
1106093
4
125
1
4
1
5
1
4
1
25
1
4
1
2
j iij
j iij
j iij YYYYSSE组内平方和
方差分析表:
1955.5698
15.1441525.2162
005.0133.605.88443.3536
SST
SSE
SSA
pF
总和组内组间
值比平均离差平方和自由度离差平方和
西南科技大学网络教育课
程
5- 7
收获量有显著影响。即采用不同施肥方案对
拒绝
查表计算
.
81.4.133.615.144
05.884
0
01.0,15,4
HFF
FF
5.2.2 双因子等重复试验的方差分析 在双因素试验中,如果不仅考虑因素 及 各自对试验结果的影响,而且还要考虑因素 与 的交互作用(记作 ,简记作 )对试验结果的影响,则应该对于因素 与 的各个水平的每一种配合
分别进行 次重复试验,即共进行 次试验,假定各次试验都是独立的,得到样本观测值 如下表:
BA
BA
A
A),,1;,,1(),( JjIiBA ji
B
B
),,1( Kky ijk
I
2K IJKN
西南科技大学网络教育课
程
5- 8
IJk
IJ
kI
I
kI
I
I
mk
J
kk
Jk
J
kk
J
x
x
x
x
x
x
A
x
x
x
x
x
x
A
x
x
x
x
x
x
A
BBB
1
2
21
1
11
2
12
22
221
21
211
2
1
11
12
121
11
111
1
21
B因素
A因素
西南科技大学网络教育课
程
5- 9
);,,1;,,1(),
,
),( 2
JjIiBA
IBA
BB
AA
NY
BABA
ji
ij
jj
ii
ijjiij
jiji
下的效应(
在水平配合的交互作用与叫做因素
下的效应在水平叫做因素下的效应,在水平叫做因素其中
~
)下的总体,的配合(与设在水平
lmij
J
I
H
H
H
1103
2102
2101
:
:
:
:要检验的原假设分别是
西南科技大学网络教育课
程
5- 10
i j kijkij
iijj
jiji
kijkij
yIJK
yyI
y
yJ
yyK
y
1,
1
1,
1
计算:
i j kijijk
i jjiij
jj
ii
i j kijk
yySSE
yyyyKSSAB
yyIKSSBB
yyJKSSAA
yySST
2
2
2
2
2
随机误差平方和:
交互效应平方和:
:因子主效应平方和
:因子主效应平方和
:修正的总平方和为
西南科技大学网络教育课
程
5- 11
SSESSABSSBSSASST
SSE
SSAB
SSB
SSA
SST
fffff
KIJIJIJKf
JIJIIJf
Jf
If
IJKNf
SSESSABSSBSSASST
自由度分解公式:
。、
、、
、的自由度分别是:、、、、
)1(
)1)(1(1
1
1
11
)1(,)1)(1(
)1(,1
)1(,1
~,)]1([
)1)(1(
~,)]1([
)1(
~,)]1([
)1(
KIJJIABAB
KIJJBB
KIJIAA
FFKIJSSE
JISSAB
MSSE
MSSABF
FFKIJSSE
JSSB
MSSE
MSSBF
FFKIJSSE
ISSA
MSSE
MSSAF
西南科技大学网络教育课
程
5- 12
.)(
,,
.)(
,,
.)(
,,
2)1(,)1)(1(
,)1(,)1)(1(
1)1(,1
,)1(,1
0)1(,1
,)1(,1
HFFPp
FF
HFFPp
FF
HFFPp
FF
ABKIJJIAB
KIJJIAB
BKIJJB
KIJJB
AKIJIA
KIJIA
时就拒绝假设
或者当对指定的
时就拒绝假设
或者当对指定的
时就拒绝假设
或者当对指定的
1)1(
)1(
)1)(1()1)(1(
11
11
IJKSSTKIJ
SSEMSSEKIJSSE
pMSSE
MSSAB
JI
SSABMSSABJISSAB
pMSSE
MSSB
J
SSBMSSBJSSBB
pMSSE
MSSA
I
SSAMSSAISSAA
pF
AB
B
A
和
随机误差
交互效应
主效应
主效应
值均方自由度平方和方差来源
西南科技大学网络教育课
程
5- 13
例 2. 为比较三种松树在不同的地区的生长情况有无差别,在每个地区对每种松树随机的选取五株,测量它们的胸径,得到如下的数据:
19221213
2223131914222212
1218252321151018
23292826
2618251920261925
2117241926302228
24271821
2019241616211326
1714172120251523
3
2
1
A
A
A
松树种类区地
1B 2B 3B 4B iy
jy
98 100 94
84 92
105
105
130
397
120
102
116
75
471
353
1221293 314 323 291
说明:红色数字为
和
西南科技大学网络教育课
程
5- 14
4.10660
1221)9212098(
5
1
65.4960
1221)291323314293(
15
1
6.35560
1221)353471397(
20
1
65.1393543
1221)222126(
2212
22222
2222
2222
SSAB
SSB
SSA
SST
5965.1393
38.18480.882
4588.097.073.1764.106
4478.09.055.16365.49
0003.068.98.17726.355
和随机误差交互效应主效应主效应
值均方自由度平方和方差来源
分析表松树数据的双因子方差
B
A
pF
西南科技大学网络教育课
程
5- 15
著。对树种胸径主效应不显即地区因子没有理由拒绝拒绝
是一个很大的概率,考虑因子对
B
H
FPp
FB B
02
48,3 4478.09.0
90.0
。的生长优于数种最小。说明树种的均值最大,的均值的均值,比较响。要进一步考查,则即树种对胸径有显著影
非常小,因此拒绝考虑因子对
32
65.1755.23,,
003.068.9
68.9
32321
0148,2
AAAAA
HFPp
FA A
。,即交互效应也不显著也没有理由拒绝
也是一个很大的概率,考虑因子交互对
03
48,6 4588.097.0
97.0
H
FPp
FAB AB
西南科技大学网络教育课
程
5- 16
5.3 线性回归 我们知道现实生活中的许多现象之间存在着相互依赖、
相互制约的关系 . 一切事物都是相互联系着、发展变化着的。变量间的关系一般可以分为两大类。
1 、确定性关系,即我们所熟悉的变量间的关系可以用函数关系来表达,如圆的半径 R 与圆的面积 S 之间就存在确定的函数关系。
2 、非确定性关系,即变量之间虽有密切的关系,但这种关系无法用确定的函数关系表达,如人的年龄与血压之间有密切关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间这种非确定性关系,称为相关关系。
即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性。
回归分析是分析变量间的不确定性关系的一种方法,有时也称为相关分析。
西南科技大学网络教育课
程
5- 17
( 1 )从一组数据出发,分析变量之间存在着什么关系,建立这些变量之间的关系式(回归方程)并对关系式的可信程度进行统计检验。 ( 2 )利用回归方程式,根据一个或几个变量的值预测或控制另一个变量的取值。 ( 3 )从影响某一变量的诸多变量中判断哪些变量对它的影响是显著的,哪些是不显著的从而建立起更实用的回归方程。 ( 4 )根据预测和控制提出要求,选择试验点对试验进行设计。
1. 回归分析的内容:
西南科技大学网络教育课
程
5- 18
例 3. 在硝酸纳( NaNO3 )的溶解度试验中,测得在不同温度 x 下,溶解于 100份水中的硝酸纳份数 y 的数据如下表:
1.1256.1134.999.927.856.803.760.717.66
6851362921151040
i
i
y
x
)( C。
这里 为自变量, 是随机变量,我们要求 对 的回归。
x yxy xy 10
以温度 为横坐标,硝酸纳份数 为纵坐标将这些观察值 描在平面直角坐标系上 . 称为散点图。根据散点图可以作出经验直线:
xy
)( , ii yx
xy 10
西南科技大学网络教育课
程
5- 19
的回归直线方程。对称为也称为回归变量。自变量
称为回归系数,、固定的未知参数
为一元线性回归模型,记
确定的模型为一般地,称由
xyxy
x
Var
E
xy
xy
10
10
2
10
10
.,0
一元线性回归分析的主要任务是:
(1) 用试验值(样本值)对 、 和 作点估计; (2) 对回归系数 、 作假设检验;(3) 在 处对 作预测,对 作区间估计 .
00 2
0xx yy
11
西南科技大学网络教育课
程
5- 20
n
iii
n
ii
nii
ii
nn
xyQQ
DE
nixy
yxyxn
1
210
1
210
212
10
21
),(
..., ,0
,...,2,1,
),(,,),(
记
,设
组独立观测值,有
相互独立且
(1) 回归系数的最小二乘估计
3. 模型参数估计
),(min)ˆ,ˆ(
ˆˆ
10,
10
1010
10
,使得和的估计和最小二乘法就是选择
西南科技大学网络教育课
程
5- 21
,
n
ii
n
iii
xx
yyxx
xx
yxxy
xy
1
2
11
221
10
ˆˆ
ˆˆ
,解得
n
iii
n
ii
n
ii
n
ii yx
nxyx
nxy
nyx
nx
11
22
11
1,
1,
1,
1其中
)(ˆˆˆˆ110 xxyxy (经验)回归方程为:
xy 8706.05078.67ˆ:
8706.05078.67
1
10
回归方程为
中出例根据上述公式,可计算
西南科技大学网络教育课
程
5- 22
称为剩余标准差。
独立。、分别与
差)为剩余方差(残差的方称
的无偏估计为
方和为残差平方和或剩余平称
记
的无偏估计)(
e
e
e
ee
e
n
i
n
iiiii
e
Qn
Q
yyxy
ˆ
ˆ
ˆ2
1ˆ
)ˆ(ˆˆ
)ˆ,ˆ(
2
102
2
22
1 1
22
10
10
2
西南科技大学网络教育课
程
5- 23
4. 检验、预测与控制
(1) 回归方程的显著性检验
.0:;0: 1110
10
进行检验归结为对假设的显著性检验,对回归方程
HH
xY
程也无意义。来描述,所得的回归方回归的关系不能用一元线性与否则回归不显著,
性回归方程有意义;存在线性关系所求的线与认为被拒绝,则回归显著,假设
xy
xy
H 0: 10
西南科技大学网络教育课
程
5- 24
.,)2,1(
ˆ
)2,1()2/(
1
001
1
2
0
HHnFF
yyU
nFnQ
UFH
F
n
ii
e
否则就接受,拒绝故
(回归平方和)其中
~成立时,当
检验法)
n
ii
n
iixx
e
xx
xnxxxL
HHntT
ntL
TH
t
1
22
1
2
00
2
10
)(
.,)2(
)2(ˆ
ˆ
)2
其中
否则接受,拒绝故
~成立时,当
检验法
西南科技大学网络教育课
程
5- 25
2,121
1
.;
)()(
))((
)3
11
001
1 1
22
1
nFnr
HHrr
yyxx
yyxxr
r
n
i
n
iii
n
iii
其中
否则就接受时,拒绝当
记
检验法
回归的效果是显著的。
即认为线性所以拒绝
。在本题中若取
0025.0,7
2,2
1
21
58.563646.2
58.56ˆ
050
Htt
xx
T
n
e
n
ii
西南科技大学网络教育课
程
5- 26
(2)回归系数的置信区间
xxexxe
xxe
xxe
LntLnt
L
x
nnt
L
x
nnt
/ˆ)2(ˆ,/ˆ)2(ˆ
1ˆ)2(ˆ,
1ˆ)2(ˆ
1
21
1
21
1
2
21
0
2
21
0
10
和
的置信区间分别为置信水平为和
)2(
,)2(
1
2
2
2
21
2
n
Q
n
Q ee
的置信区间为的置信水平为
西南科技大学网络教育课
程
5- 27
(3)预测与控制1 )预测
n
ii
nxx
xx
nty
y
yxyy
1
2
20
2,2
0
0
001000
11ˆ~
1
ˆˆˆ
的预测区间为的置信水平为的预测值,作为的回归值用
)8360.91,7096.86()5632.2278.89(
%9525
4060
26
9
103183.28706.05078.67
1
9804.0ˆ05.0
2
0
预测区间为的时,在
的预测区间为的置信水平为可以在本题中若取
yx
xx
ye
西南科技大学网络教育课
程
5- 28
在实际问题中样本容量 常常很大,这时我们不但能得到较短的预测区间,还可以 简化式子
, 得到近似的预测区间 .
n
n
ii
nxx
xx
nty
1
2
20
2,2
0
11ˆ~
ˆ2~,ˆ2~00 yy
ˆ3~,ˆ3~00 yy
置信度为 99.7% 的预测区间近似地为:
置信度为 99.% 的预测区间近似地为:
特别, 的0y
在 很大时 ,上式中根式近似等于 1 , n22 )2( znt 用
近似,于是 预测区间近似地为:)% 1( 100
.ˆ~,ˆ~2020 uyuy
西南科技大学网络教育课
程
5- 29
2 )控制 控制是预测的反问题,即要求观察值 在某区间 内取值时,应控制 在什么范围。亦即要求以 的置信 度求出相应的 使 所队应的观察值 落在 内。
y),( 21 yy x
,, 21 xx 21 xxx y ),( 21 yy
)%`1(100
这里我们只讨论 很大时的情形。利用前面的式子n
2020 ˆ~,ˆ~ uyuy
21022
21021
ˆ~ˆˆ~
uxuyy
uxuyy
令
的上下限。来作为控制解出 xx
.ˆ2,ˆ2
,
2122
21
yy
yy
即大于长度)(要实现控制必须使区间注意:
第 5 章结束
西南科技大学网络教育课
程
5- 30
全课程结束 再见
西南科技大学网络教育课
程
5- 31