Upload
benedict-lowe
View
125
Download
9
Embed Size (px)
DESCRIPTION
变量 S 的值随 t 而定,这就是说,如果 t 去了固定值,那么 S 的值就完全确定了 这种关系就是所谓的函数关系或确定性关系 回归分析方法是处理变量之间相关关系的有力工具,它不仅提供建立变量间关系的数学表达式 —— 经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性. 二、回归分析所能解决的问题 回归分析主要解决以下几方面的问题: ( 1 )确定几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式 ( 2 )根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度 - PowerPoint PPT Presentation
Citation preview
1
第五章 回归分析方法
2
§5 - 1 一元线性回归• 一、什么叫回归分析• (一)两种不同类型的变量关系、函数与相关• 简单的说,回归分析就是一种处理变量与变量之间关系
的数学方法。• 例:自由落体运动中,物体下落的举例 S 与所需时间 t 之间,
有如下关系
21(0 )
2S gt t T
3
• 变量 S 的值随 t 而定,这就是说,如果 t 去了固定值,那么 S 的值就完全确定了
• 这种关系就是所谓的函数关系或确定性关系
• 回归分析方法是处理变量之间相关关系的有力工具,它不仅提供建立变量间关系的数学表达式——经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性
4
• 二、回归分析所能解决的问题• 回归分析主要解决以下几方面的问题:• ( 1 )确定几个特定变量之间是否存在相关关系,如
果存在的话,找出她们之间合适的数学表达式• ( 2 )根据一个或几个变量的值,预报或控制另一个
变量的取值,并且要知道这种预报或控制的精确度• ( 3 )进行因素分析,确定因素的主次以及因素之间
的相互关系等等
5
• 一元线性回归分析,只要解决:• ( 1 )求变量 x 与 y 之间的回归直线方程• ( 2 )判断变量 x 和 y 之间是否确为线性关系• ( 3 )根据一个变量的值,预测或控制另一变量
的取值
6
• 二、一元线性回归方程的确定
iy ( 1,2,..., )
x y
x y
i N
数学上判定直线合理的原则:如果直线与全部观测数据 的离差平方和,
比任何其它直线与全部观测数据的离差平方和更小,该直线就是代表 与 之间关系较为合理的一条直线,这条直线就是 和 之间的回归直线。
7
*
*
* *
*
, )( 1,2,
..., ) x y
( )
i i
i
i i i i i
i i i
i
y a bx x y i
N
x y a bx
y a bx y x y
y y y a bx
y
(设 是平面上的一条任意直线,是变量 , 的一组观测数据。
那么,对于每一个 ,在直线 上确可以确定一
个 的值, 与 处实际观测值 的差:
就刻画了 与直线偏离度
8
x
y
1x
( , )i ix y
^
( , )i ix y
^
y a bx
9
*
* 2 2
1 1
( 1,2,..., ) ( 1,2,..., )
( ) ( )
( 1,2,..., )
,
a b Q
i i
N N
i i i ii i
i
y i N y i N
Q y y y a bx
Q y i N
Q x y
全部观测值 与直线上对于的
的离差平方和则为:
反映了全部观测值 对直线的偏离程度,显
然,离差平方和 越小,愈能较好地表示 之间的关系。
用最小二乘法原理,通过选择合适的系数 , ,使 最小
10
1
1
_ _
1 1 1 1_
22 2
1 1
_ _
2 ( ) 0 (6 1)
2 ( ) 0 (6 2)
1( )( )
(6 3)1
( ) ( )
(6 4)
N
i ii
N
i i ii
N N N N
i i i i i ii i i i
N N
i i ii i
Qy a bx
a
Qy a bx x
b
x x y y x y x yN
x x x xN
a y b x
N
i =1
联合求解得:
b=
11
_ _
1 1
^
1 1, (6 5)
a b
(6 6)
b
N N
i ii i
x x y yN N
y a bx
此处
求得 , 后,回归方程为:
便可以确定, 称为回归系数
12
• 三、回归方程检验方法• (一)方差分析法• 回顾方差分析的基本特点:• 把所给数据的总波动分解为两部分,一部分反映水平变
化引起的波动,另一部分反映由于存在试验误差而引起的波动。然后把各因素水平变化引起的波动与试验误差引起的波动大小进行比较,而达到检验因素显著性的目的 .
13
^
_ _^ ^2 2
_^ ^2 2
( , )( 1,2,..., ) x y
x y
( ) [( ) ( )]
( ) ( )
i i i
i i
i
yy i i i i
i i i
x y i N x
y x y a bx
y
L y y y y y y
y y y y
_
N N
i =1 i =1
N
i =1 i =1
设 为变量 , 间的一组观测数据,
为观测点, 为 处的观测之, 为这组观测数据求得的变量 , 间的回归方程,在回归问题中,观测数
y据总的波动情况,用各观测值 与总平均 之间的平方和即总变动平方和表示
_^ ^
2 ( )( )i i iy y y y N N
i =1
14
^2
_^2
( )
( ) (6 8)
x y y
(6 9)
i i
i
Q y y
Q
U y y
U Q
U
N
i =1
N
i =1
yy
第一项
是观测值与回归直线的离差平方和,反映了误差的大小
第二项
反映了总变动中,由于 与 的线性关系而引起 变化的一部分,称为回归平方和第三项为零
L
15
U
Q
U Q
N
N 2
U Q
f
f
f
f
f f f
yy
yy 总
总
总
L “ ”每一个变动平方和(即 、 、 )都有一个 自由度
L和它们对应, 自由度称为总自由度,记做 。
1 1=观测值个数- = -
1== -
三者之间仍然有:
16
a
a
F
( 2)
2 a 0.05 0.01 F
(1, 2)
F F
F F
UN
Q
N
u
Q
a
可用 检验考察回归直线的显著性:U/ f
1 F=( )计算Q/ f
()对于选定的显著性水平 = (或 ),从 分布F上找出临界值
3( )比较 与 的大小。>若 ,则回归方程有意义,反之则说明方程意义不大
17
• (二)相关系数检验法
_ _^2 2
_2 2
_^ ^2
_ _2 2
2
_ _2 2
( ) [( ) ( )]
( )
[( ) ( )]
( ) ( )1 (6 11)
( ) ( )
i i
i
yy i i i
i i i
i i
U y y U a bx a b x
b x x
L y y y y
y y x xb
y y y y
N N
i =1 i =1
N
i =1
N
i =1
N N
i =1 i =1N N
i =1 i =1
由
代入 整理后可得
18
_ ^2 2
2 2
_ _2 2
_2
_2
( ) ( )1 (6 12)
( ) ( )
( )
( )
i i i
i i
i
i
x x y yr b
y y y y
x xr b
y y
N N
i =1 i =1N N
i =1 i =1
N
i =1N
i =1
令
19
_2
^
_2
1 y x
( ), 1,
( )
i
i i
i
y yy y r b
x x
N
i =1N
i =1
下面存在三种情形:() 与 有严格函数关系时
x
y 1r
x
y 1r
20
_^
2 y x
, 0, 0y y r b
() 与 无任何依赖关系时
x
y 0r
x
y 0r
21
3 y x
r
() 与 存在相关关系时
0<| | <1
x
y 1 0r
x
y 0 1r
22
_ __2
1_ _ _2 2 2
1 1
y x
r
( )( )( )
( ) ( ) ( )
N
i iii
N N
i i ii i
xy
xx yy
x x y yx xr b
y y x x y y
l
l l
N
i =1N
i =1
检验 与 是否相关的步骤:1( )按下式计算 :
=
23
,
,
,
,
2 f n 2
3 | |
| | x y
| | x y
a f
a f
a f
a f
r
r r
r r
r r
()给定显著行水平 ,按自由度 = - ,由相关系数临界表中查处临界值 。
()比较 与 的大小。
若 ,认为 与 之间存在线性相关关系;
若 ,认为 与 之间不存在线性相关关系。
24
n-2
123456789
10
0.05 0.01
0.9970.9500.8780.8110.7540.7070.6660.6320.6020.576
1.0000.9900.9590.9170.8740.8340.7980.7650.7350.708
n-2
11121314151617181920
0.05 0.01
0.5530.5320.5140.4790.4820.4680.4560.4440.4330.413
0.6840.6610.6410.6230.6060.5900.5750.5610.5490.537
n-2
21222324252627282930
0.05 0.01
0.4130.4040.3960.3880.3810.3740.3670.3640.3550.349
0.5260.5150.5050.4960.4870.4780.4700.4630.4560.449
相关系数临界值表
25
• 四、预报与控制• 当我们求得变量 x 、 y 之间的回归直线方程
后,往往通过回归方程回答这样两方面的问题:• ( 1 )对任何一个给定的观测点 x0 ,推断 y0 大致落的范围• ( 2 )若要求观测值 y 在一定的范围 y1<y<y2 内取值,应将
变量控制在什么地方• 前者就是所谓的预报问题,后者称为控制问题。
26
^
0 0 0
^
0
^
0 0
2y
x y y
y
y y
QS
N
(一)预报问题
一般来说,对于固定 处的观测值 ,其取值是以 为
中心而对称分布的。愈靠近 的地方,出现的机会愈大,
离 愈元的地方,出现的机会少,而且 的取值范围与量
有下述关系:
27
^
0 0
^
0 0
^
0 0
0 0
^ ^
0 0 0
^ ^
0 0 0
3
2
2 2
2 2
y
y
y
y y
y y
y y
y y S
y y S
y y S
x x x
y y S y S
y S y y S
S S
99. 7落在 范围内的可能性为 %
95落在 范围内的可能性为 %
68落在 范围内的可能性为 %
95利用此关系,对于指定的 ,我们有 %的把握说,在
处的实际观测值 介于 与 之间
即:
这样,预报问题就得到了解决量 称为剩余标准差。 用来衡量预报的精确度
28
0
1 0 2
1 1 1 1
2 2 2 2 2
1 2 1 2
0 1
2
2 3
2 3
y y
y
y
y y y
a S bx y a S bx y
a S bx y a S bx y
x x x x x
y y
y
(二)控制问题控制问题只不过是预报的反问题。若要求观测值在 范围内取值,则可从
(或 )
及 (或 )
中分别解出 、 ,只要将 的取值控制在 与 之间,
95 99. 7我们就能以 %(或 %)的把握保证, 在 与范围内取值。
29
1
2
2 (6 17)
2 (6 18)
y
y
y a bx S
y a bx S
进行预报和控制,通常也采用图解法。其作法是:在散点图上作两条平行与回归直线的直线
x
y 2 yy a bx S ^
y a bx
1x 2x
1y
2y
2 yy a bx S
0b
x
y
2 yy a bx S
2 yy a bx S
^
y a bx
1x 2x
1y
2y
0b
30
1 2
95x
y y
x x
可以预测在 附近的一系列观测值中,%将落在这两条直线所夹成的带行趋于中,若要求在 与 范围内取值,
则只需要图中虚线所示的对于关系,可在 轴上找到值的控制范围。
31
• 五、应用举例• 例 6 - 1 在某产品表明腐蚀刻线,下表是试
验活得的腐蚀时间( x )与腐蚀深度( y )间的一组数据。试研究两变量( x , y )之间的关系。
腐蚀时间 x(秒)腐蚀深度 y( μ)
5 5 10 20 30 40 50 60 65 90 120
4 6 8 13 16 17 19 25 25 29 46
32
i ix , y作散点图,即( )图
40
30
20
10
y
x10 20 30 40 50 60 70 80 90 100 110 120
x y可见 与 之间无确定的函数关系,而表现为相关关系
33
_22 2
1 1 1
_22 2
1 1 1
_ _
1 1 1 1
_ _
2
1
1( ) ( )
1( ) ( )
1( )( ) ( )( )
(6 19)
(6 20) (6 21)
N N N
xx i i ii i i
N N N
yy i i ii i i
N N N N
xy i i i i i ii i i i
xy
xx
xy xy
xxxx yy
L x x x xN
L y y y yN
L x x y y x y x yN
La y b x b
L
l Lr U
Ll l
()求回归直线
记
34
序号
123456789
1011
x y 2x2y xy
55
1020304050606590
120495
468
1316171925252946
208
2525
100400900
16002500360042258100
1440035875
163664
169256289361625625841
21165398
203080
260480680950
1500162526105520
13755
35
2 2 2 2
1 1 1 1 1
_ _
2
495 208
11 111 48345
13755 495 20811 111 149600
35875 49511 11
N N N N N
i i i i i i i i i ii i i i i
xy
xx
x y x y x y x y x y
x y
L
L
具体计算格式如下:
列表计算 、 、 以及 , , , ,
36
_ _
, 0.05,9
,
483450.328
149600
208 4950.323 4.37
11 114.37 .323
2
0.521
| |
xy
xx
xy
xx yy
f
f
Lb
L
a y b x
y x
lr
l l
r r
r r
回归方程为:()显著性检验
0. 98相关系数 =
回归方程有意义
37
0
^
0
^
0
^
0
3
2 452.24
9
0.75
4.37 .323 4.37 0.32. 75 28.6( )
2 28.6 2 2.24 24.12( )
2 28.6 2 2.24 33.08( )
y
y
y
sN Q
x
y x
y s
y s
()预报与控制首先计算
现在可以来回答两个问题1)预测当腐蚀时间 秒时的腐蚀深度由回归方程
38
0
1
2
1
2
95 0.75
24.12 33.08
2) 10 20
2 10
2 20
31.3
34.5
y
y
x
y
x s
x s
x
x
故有 %的把握回答: 秒的腐蚀深度范围为:
若要求克现深度在 ~ 之间,应将腐蚀时间控制在什么范围:
4. 37+0. 323解方程
4. 37+0. 323
得 秒秒
32 34故知应将腐蚀时间控制在 ~ 秒内
39
§5 - 2 多元回归分析方法一、多元回归分析概述 上节讨论的只是两个变量的回归问题,其中因变量只
与一个自变量相关。但这只是最简单的情况,在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。
我们这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。不过,应用计算机多元回归的计算量是很小的,一般的计算机都有多元回归(以及逐步回归方法)的专门程序
。
40
1 2
11 21 1
2 12 22 2
1 2
ij i j
0 1 11 2 21 1 1
0 1 12 2 2
1.
x ,x
Y
( ; , )
( ; , )
( ; , )
x x j y Y j
k
k
n n n kn
k k
y x x x
y x x x
y x x x
b b x b x b x
b b x b x
k
0 1 1 k k
1
1
2
模型设因变量 , , x ,有关系;=b +bx + +b x + (7-24)
其中 是随机项,现有几组数据:
(其中 是自变量 的第个值; 是 的第个观察值)
假设: y
y 2 2 2
0 1 1 2 2
0 1 1 2 n, ,
N 0 1
k k
n n k kn n
k
b x
b b x b x b x
b b b
n
y
其中 是待估参数;而 , 相互独立且服从
相同的标准正态分布 (,),( 未知)
41
1 2 k
1 2 kt
k
2
2.
Y k x x x
, , ; ), 1,2 7 26
y x x
y 7 27
Q( ( )
t t t
t
x x x y t N
y y
1
0 1 1 2 2 k k
0 1 k
0 1 k
最小二乘法与正规方程设影响因变量 的自变量共有 个, , ,通过实验得到以下几组观测数据( ( - )根据这些数据,在 与 之间欲配线性回归方程=b+bx +bx + +bx ( - )用最小二乘法,选择参数b , b b ,使离差平方和达最小,即使
b , b b )= 2t 0 1 1t k kt
1
y b +b x + +b x 7 28N
t
N
t=1
- ( - )
最小
42
0
1
k
Q0
bQ
0b 7 29
Q0
b
7 29
11 1 12 2 1k k 1y
21 1 22 2 2k k 2y
由数学分析中求极小值原理得
=
=
( - )
=
化简并整理( - )可得下列方程组
l b+l b+ +l b=l
l b+l b+ +l b=l
11 12 1k 1 1y
21 22 2k 2 2y
k1 k2 kk ky
0 1 1
7 30
7 30
l 1 l l
l l l l (7 30
l l l lk
b
b
b
b y b x
k1 1 k2 2 kk k ky
( - )l b+l b+ +l b=l
将( - )写成矩阵形势为
- )
7 31k kb x ( - )
43
1 1
N
ij ji it i jt j
t=1
N
it jt
t=1 1 1
1 1 y= ,
n
i=1,2, k
l =l = x x x x i,j=1,2 k
1 = x x 7 30a
N N
i i it
t t
N N
it jt
t t
y x xn
x xn
其中
- -
- ( - )
N
iy t
t=1
N
it t
t=1 1 1
k
l = , 1,2
1 = x y 7 30b
n
7 30
Q
b b b
it i
N N
it t
t t
x x y y i k
x y
0 1 n 0 1 n
0 1
- ( - )
方程组( - )称为正规方程
解正规方程,可得使 b , b b 达最小参数b , b b,其中
为常数项, 为回归系数
44
yy
22
2
1 1
3.
l Q U (7-32)
1N N
t tt t
y yn
N
yy t
t=1
多元线性回归方差分析与一元线性回归情形类似,对多元线性回归我们有平方和分解公式:= +
其中 l = y -y
45
2
1
2
1 1
2
2
ˆ
ˆ
U Q
U
E Q/ (7-33)
Q/r
N
t
t
N N
t i iy
t i
Q y y
U y y b l
i 0 1 i t 2 2t k kt
1 1y 2 2y k ky
而 y =b+bx +bx + +bx t=1, 2 n
还称 为回归平方和, 为剩余平方和。跟一元线性回归类似,我们有 =b l +b l + +b l
具体计算时,用这个公式比较方便的。
我们有 n-k-1
实际上,可以证明 服从自由
2
2
2 2 2 2
1
ˆ Q/
ˆ ˆ S
S (7-34)
S
n k
度为 的 分布
记 = n-k-1
式(7-33)表明 是 的无扁估计,实际中常用 来表示 。
= Q/ (n-k-1)
又叫剩余标准差。
46
2
0.1 0.05 0.01
F Y k
F
F (7-35)
F (k,n-k-1),F (k,n-k-1),F (k,n-k-1)
7 35
U
kS
1 2 k
可以利用 检验对整个回归进行显著性检验,即 与所考虑的 个自变量x , x x之间的线性关系究竟是否显著,检验方法与一元线性回归的检验相同。只是这里仅能对总回归作出检验
U/ k=
Q/ (n-k-1)检验的时候,分别查出临界值 ,并与( -
0.01
0.05 0.01
0.1 0.05
0.1
F
F F (k,n-k-1), 0.01
F (k,n-k-1) F F (k,n-k-1) 0.05
F (k,n-k-1) F<F (k,n-k-1)
F<F (k,n-k-1) Y k
)计算的 值比较。若 认为回归高度显著或称在 水平上显著
。认为回归在 水平上显著则称回归在0. 01水平上显著。
若 ,则回归不显著,此时 与这 个自变量的线性关系就不确切。
47
多元线性回归方差分析表
变差来源 自由度 Fit
U/k
均方
总和
k
n-k-1
n-1
平方和
回归
剩余
2
1 1
ˆN N
t i iy
t i
U y y b l
2
1
ˆN
t yyt
Q y y l U
2
N
yy t
t=1
l = y -y
2/U kS
2
1
QS
n k
48
4.偏回归平方和与因素主次的差别 前面讲的有关多元线性回归的内容,纯属一元情形的推广,只
是形式上复杂一些而已,而偏回归平方和与因素主次的差别则是多元回归问题所特有的。
先从判别因素的主次说起。在实际工作中 , 我们还关心 Y 对 x1,x
2,···xk 的线性回归中 ,哪些因素 (即自变量 )更重要些 ,哪些不重要 ,怎栏来衡量某个特定因素(i=1,2,…k)的影响呢 ?我们知道 , 回归平方和 U 这个量 , 刻划了全体自变量 x1,x2,···xk
对于 Y 总的线性影响 , 为了研究 xk 的作用 , 可以这样来考虑 : 从原来的k个自变量中扣除 xk , 我们知道这k-1个自变量 x1,x2,···xk-1 对于 Y 的总的线性影响也是一个回归平方和 ,记作U(k);我们称 Pk=U-U(k)
49
为 x1,x2,···xk 中 xk 的偏回归平方和。这个偏回归平方和也可看作 xk 产生的作用 , 类似地 , 可定义为 U(i).
一般地 , 称 Pi=U-U(i)
为 x1,x2,···xk 中x i 的偏回归平方和。用它来衡量x i 在 Y 对 x1,x2,···xk 的线性回归中的作用的大小。
50
1 2
*j
j
*jj
ij ij
Y ,
Y k b
b
b j i (7-37)b
Cij l C C
k
i
iji
ii
x x x
x
Cb
C
k*k
为了得出偏回归平方和的计算公式。我们首先在回归方程中取消某个自变量时,其他变量回归类系数的改变公式。设在 对 的多元线性回归中,取消一个自变量 ,则 对剩下的 -1自变量的回归系数 与原来的回
归系数 之间有关系
=
式中 是回归正规方程系数矩阵,是 的逆矩阵 = 的元素。
在总回归中取消自变
i
i
ijk*k
x
P (7-38)
l
2i
i i
i i
量 所引起的回归平方和的减小,可以从上面回归系数的改变的公式中推出。在这里我们也仅给出结果而不详细,此数值为
b=
c
其中c 是回归正规方程系数矩阵, 的逆矩阵对角线上的第i个元素。
51
从偏回归平方和的意义可以看出 ,凡是对 Y作用显著的因素一般具有较大的P i 值。P i愈大 ,该因素对 Y 的作用也就愈大 ,这样通过比较各个因素的 Pi值就可以大致看出各个因素对因素变量作用的重要性。 在实用上 , 在计算了偏回归平方和后 , 对各因素的分析可以按下面步骤进行 :
① 凡是偏回归平方和大的 ,也就是显著性的那些因素 , 一定是对 Y 有重要影响的因素。至于偏回归平方和大到什么程度才算显著 , 要对它作检验 , 检验的方法与本节中对总回归的检验法类似。
为此 , 我们要先计算
2
2 2i i
i
ii
P bF
S C S
52
其中 S 2即是方差分析计算中的剩余方差 ,Fi自由度为(1,N-k-1) , 于是在给定的显著性水平 α ,按前面的 F 检验法 , 检验该因素的偏回归平和的显著性。
② 凡是偏回归平方和小的 ,即不显著的变量 ;则可肯定偏回归平方和最小的那个因素必然是在这些因素中对 Y作用最小的一个 ,此时应该从回归方程中将变量剔除。剔除一个变量后 , 各因素的偏回归平方和的大小一般的都会有所改变 , 这时应该对它们重新作出检验。
另外需要说明一下就是 , 在通常情况下 , 各因素的偏回归平方和相加并不等于回归平方和。
只有当正规方程的系数矩阵为对角型
53
11
22
kk
11
22
kk
2
1 1 1
0
l
0 l
1 0
1C
l1
0 l
U
U
k k k ki
i iy i ii iiii i i
l
L
l
bb l b l P
c
时,由于此时它的逆矩阵为
=
从而回归平方和为
=
即 等于所有因素的偏回归平方的和