21
1 回帰分析(重回帰) 麻生良文 1.前提 k 個の説明変数からなるモデルを考える(重回帰モデル: multiple regression model)。 u x x x y k k + + + + + = β β β α L 2 2 1 1 (1) z y:被説明変数(explained variable), 従属変数(dependent variable), regressand z x i :(i=1,2,..,k) 説明変数(explanatory variable), 独立変数(independent variable), regressor z u: 誤差項(error term), 撹乱項(disturbance term) モデルの特徴 z 線型モデル z x 以外の効果は誤差項に集約されていると考える。 ¾ 他の変数,モデルで想定していない変数の効果 ¾ 観察不可能な変数の影響 ¾ y の測定誤差 回帰分析の前提 z まず,次の仮定をおく(単回帰の場合と同じ)。 (仮定 1線型性 真のモデルが次の式で表される(αβに関して線形関数)。 i ki k i i i u x x x y + + + + + = β β β α L 2 2 1 1 (A1) αβ(および誤差項の分散)が推定すべき未知パラメータ。 (x 1i , x 2i , ,...,x ki , y i )i 番目の観 測値。u i は誤差の実現値。

回帰分析(重回帰)fs1.law.keio.ac.jp/~aso/ecnm/pp/reg2.pdf2 (仮定2)誤差項の期待値は0(すべてのi について)。 E(ui ) =0 (A2) (仮定3)誤差項の分散はすべてのi

Embed Size (px)

Citation preview

1

回帰分析(重回帰)

麻生良文

1.前提

k 個の説明変数からなるモデルを考える(重回帰モデル: multiple regression model)。

uxxxy kk +++++= βββα L2211 (1)

y:被説明変数(explained variable), 従属変数(dependent variable), regressand

xi :(i=1,2,..,k) 説明変数(explanatory variable), 独立変数(independent variable), regressor

u: 誤差項(error term), 撹乱項(disturbance term)

モデルの特徴

線型モデル

x 以外の効果は誤差項に集約されていると考える。

他の変数,モデルで想定していない変数の効果

観察不可能な変数の影響

y の測定誤差

回帰分析の前提

まず,次の仮定をおく(単回帰の場合と同じ)。

(仮定 1)線型性

真のモデルが次の式で表される(α,βに関して線形関数)。

ikikiii uxxxy +++++= βββα L2211 (A1)

α,β(および誤差項の分散)が推定すべき未知パラメータ。 (x1i, x2i, ,...,xki, yi)は i 番目の観

測値。uiは誤差の実現値。

2

(仮定 2)誤差項の期待値は 0(すべての i について)。

0)E( =iu (A2)

(仮定 3)誤差項の分散はすべての i について等しい(分散均一性 homoskedasticity)。

2)var( σ=iu (A3)

(仮定 4)誤差項に系列相関は存在しない。

誤差項 uiと ujの共分散は 0 (i ≠ j であるようなすべての i と j について)。

0),cov( =ji uu (A4)

(仮定 5) 説明変数と誤差項の独立性。

説明変数 x(k 個の説明変数からなるベクトル)と誤差項 u はすべての i と j に関して独立

である。古典的回帰モデルでは,x は非確率変数であると仮定される。その場合には自動的

にこの仮定は満たされる。

なお,現在の教科書のほとんどは,x を非確率変数とせず,x が与えられた場合の誤差項の

条件付分布について(仮定 2)以下が成り立つという前提で議論を進めている。

(仮定 6)正規分布の仮定

誤差項の確率分布は正規分布に従う。(仮定 2),(仮定 3),(仮定 4)とこの仮定をあわせる

と,誤差項は互いに独立で,同一の正規分布 N(0,σ2)に従う。

...),0(~ 2 diiNui σ (A5)

(i.i.d.は independently identically distributed の略)

(仮定 7)説明変数 x1,x2,...,xkの間に多重共線性の問題は無い(詳細は後述)。

2.最小二乗法

重回帰の場合にも,単回帰の場合と同様に,残差平方和を最小にするようにα,β1,β2,...,βk

3

の推定値を決定する。α,β1,β2,...,βk の推定値を a,b1,b2,...,bk で表すと,残差は次の式で与えら

れる。

kikiiiiii xbxbxbayyye −−−−−=−= L2211ˆ (2)

したがって,残差平方和は次の式で与えられる。

( )∑=

−−−−−=n

ikikiii xbxbxbayS

1

22211 L (3)

(3)式は,a,b1,b2,...,bk の 2 次関数である。(3)式の最小化のための必要条件を求めると次の通

りになる。

( )

( )

( )

( ) 02

02

02

02

2211

2211

12211

2211

=−−−−−−

=−−−−−−

=−−−−−−

=−−−−−−

kii

kikiii

jii

kikiii

ii

kikiii

ikikiii

xxbxbxbay

xxbxbxbay

xxbxbxbay

xbxbxbay

L

K

L

L

L

L

なお,上の 1 番目の式は

kk xbxbxbay L+++= 2211

と書き換えることができる。ここで, kxxy ,, 1L は,被説明変数,説明変数の標本平均を

表す。この式は,回帰直線は必ず点 ( )kxxy ,, 1L を通ることを意味している。この性質は単

回帰の場合にも成り立っていた。また,2 番目以降の式は,

∑=

=n

iijiex

1

0

が j=1,2,..,k について成り立つことを意味する。これは,残差が説明変数と必ず直交する(無

相関である)ことを意味する。

4

両辺を−2 で割って整理すると次の式を得る(正規方程式 normal equation と呼ぶ)。

( )

( )

( )

( )∑∑

∑∑

∑∑

∑∑

++++++=

++++++=

++++++=

++++++=

ikikjikijikiikiki

iiki

ikijikjijijiijiji

iiji

ikiikjiijiiii

iii

ikikjijii

ii

xbxxbxxbxxbaxyx

xxbxbxxbxxbaxyx

xxbxxbxxbxbaxyx

xbxbxbxbay

22211

22211

112122

1111

2211

LL

K

LL

L

LL

LL

(4)

これらは, k+1 個の未知パラメータ a,b1,b2,...,bkに関する k+1 本の連立 1 次方程式である。

この方程式を a,b1,b2,...,bk について解くことで,最小二乗法の推計値が求まる。なお,k=2

の場合については,(4)の最初の方程式を残りの 2 本の方程式に代入することで,2 本の連立

方程式に帰着させることができ,その場合には,なんとか解析的に解を求めることができ

るが,k が 3 以上になると,行列を用いないと困難になる。

(4)式を行列で表現してみよう。まず, n 個のオブザベーション yi(i=1,2,..,n)からなるベク

トルを y で表そう。また,定数項の 1 を第 1 列として,j 番目の説明変数 xjの n 個のオブザ

ベーションを第 j+1 列目の要素として持つ行列 X を考える。y と X は次の式で与えられる。

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

n

i

y

y

y

yM

M1

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

knn

k

k

xx

xxxx

X

L

MM

MM

L

L

1

212

111

1

11

5

このとき,(4)式の左辺は次のように表すことができる。

yX

y

yy

xx

xxxx

y

yy

xxx

xxx

yxyxyx

yxyxyxyyy

nknn

k

k

nknkk

n

nknkk

nn

n

′=

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

⎡′

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

+++

++++++

=

M

M

L

MMM

MMM

L

M

M

LL

MMM

LL

LL

L

L

L

L

2

1

1

212

111

2

1

21

11211

2211

1212111

21

1

11

111

LHS

ここで,X’は X の転置行列 (transposed matrix)を表す。また,右辺は次のように書き直すこ

とができる。

XbX

b

ba

xx

xxxx

xx

xxxx

b

ba

xx

xxxx

xxx

xxx

b

ba

xxxx

xxxx

xxn

kknn

k

k

knn

k

k

kknn

k

k

knkk

n

ki

kii

ikii

ki

ikii

ii

ii

iki

ii

′=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

⎡′

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

∑∑∑

∑∑∑∑∑

M

L

MMM

MMM

L

L

L

MMM

MMM

L

L

M

L

MMM

MMM

L

L

LL

MMM

LL

LL

M

L

MMM

L

L

1

1

212

111

1

212

111

1

1

212

111

21

11211

1

21

12

11

1

1

11

1

11

1

11

111

RHS

ここで,最後の b は係数の推定値からなら k+1 次元の列ベクトルで b=(a,b1,b2,...,bk)’である。

6

結局,行列を用いると(4)式は次のように表現できる。

XbXyX ′=′ (4)’

(4)’の X’X の逆行列が存在すれば(X’X の階数(rannk)が k+1 なら,逆行列は存在する),

( ) yXXXb ′′ −1= (5)

が得られる。(5)式は,最小二乗推定量 b が y の線型関数であることを示している。

以上の結果を,最初から行列を用いて示しておこう。まず,第 i 番目のオブザベーション

が(A1)式のように書けたとする。

ikikiii uxxxy +++++= βββα L2211 (A1)

i 番目のオブザベーションの説明変数のベクトルを xiで表し(定数項 1 を含んだ k+1 次元

の行ベクトル),(A1)式の係数ベクトルをβで表すことにしよう(βは k+1 次元の列ベクトル

であるとする)。すなわち,

[ ]kiiii xxxx K211=

'2

1

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

ββα

βM

とする。このとき,(A1)式は

iii uxy += β (6)

とコンパクトに表すことができる。さらに, yi,uiの n 個のオベザベーションを縦に並べて

できる n 次元の列ベクトルを y,u で表す。同様に,xiの n 個のオブザベーションを縦に並

べてできる n×(k+1)行列を X で表す。(6)式を i=1,2,..,n について縦に並べて表示すると

7

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

n

i

kknn

k

k

n

i

u

u

u

xx

xxxx

y

y

y

M

M

M

L

MMM

MMM

L

L

M

M1

1

1

212

1111

1

11

β

βα

(7)

となるので,結局,n 個の(6)式は

uXy += β (8)

と表せることがわかる。なお,行列 X の階数は k+1 であるとする(列数に等しい)。これが回

帰分析の前提で述べた仮定 7 の正確な表現である(行列 X の階数が k+1 のとき,X’X の逆行

列は存在する)。また,誤差項に関する仮定 2 から仮定 6 は

),0(~ 2 INu σ (9)

と表すことができる。0 は全ての要素が 0 であるような n 次元の列ベクトル,I は n 次元の

単位行列を表す。

さて,真のモデルが(8)式で表されるとき,βの推定量を b とした時の残差 e は次の式で与

えられる(e は第 i 番目の要素が第 i 番目のオブザベーションの残差 eiであるような n 次元

の列ベクトルである)。

Xbye −= (10)

この時,残差平方和 S は次のような計算で求められる。

[ ] [ ]

XbXbyXbyyXbXbyXbXbyyy

XbyXbyeeeSn

ii

''''2''''''1

2

+−=+−−′=

−′−=′== ∑= (11)

ここで y’, e’,X’は,y, e, X の転置行列である。S の最小化の 1 階の条件を行列を用いて表現

すると,

8

0'2'21 =+−=

⎥⎥⎥⎥

⎢⎢⎢⎢

∂∂

∂∂∂∂

≡∂∂ XbXyX

bS

bSaS

bS

k

M

となり,b に関する方程式が得られる。これを b について解くと,

yXXXb ')'( 1−= (12)

が得られる。なお,(12)式から残差は

( )yXXXXIyXXXXyXbye ')'(')'( 11 −− −=−=−=

となるが,この式から

0=′eX

という関係が導かれる。これは,残差と説明変数(定数項も含む)が直交していることを

意味する。

行列の微分

a と x が次のような列ベクトルであるとする。

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

=

nn x

xx

x

a

aa

aMM2

1

2

1

,

∑=

=′=n

iii xaxay

1

として,y の x に関する微分を考える。

9

( ) ( ) a

a

aa

xy

xyxy

axx

xaxx

y

nn

=

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

∂∂

∂∂∂∂

=′∂∂

=′∂∂

=∂∂

MM2

1

2

1

が成り立つ。

次に 2 次形式の微分を求めよう。A は n×n の対称行列で,(i,j)成分が aijで与えられてい

るものとする。A は対称行列なので aij=ajiが成立する。このとき y=x’Ax の x に関する微分を

考える。まず,

[ ] ∑∑=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

==i j

jiij

nnnnn

n

n

n xxa

x

xx

aaa

aaaaaa

xxxAxxyM

L

MOMM

L

L

L 2

1

21

22221

11211

21'

である。このとき,

( ) Ax

xaxaxa

xaxaxaxaxaxa

xy

xyxy

Axxxx

y

nnnnn

nn

nn

n

2

222

222222

2211

2222112

1212111

2

1

=

⎥⎥⎥⎥

⎢⎢⎢⎢

+++

++++++

=

⎥⎥⎥⎥

⎢⎢⎢⎢

∂∂

∂∂∂∂

=′∂∂

=∂∂

L

M

L

L

M

が成立する。

3.最小二乗推定量の確率分布

1.で述べたモデルの前提をもう一度述べる。まず,真のモデルが(A1)式で表されるような

ものであるとする。(A1)式を行列で表現すると次のように書けた。

uXy += β (13)

また,誤差項に関する仮定 2 から仮定 6 が成り立つとき,誤差項は期待値が 0,分散がσ2I

であるような多変量正規分布に従う。すなわち,

10

( )

Iuu

2)var(0Eσ=

= (14)

が成立する。(7)式の 0 は n 個の 0 からなるベクトル,I は n 次元の単位行列である。

(12)式に(13)式を代入し,(14)式を用いると,最小二乗推定量 b の確率的性質が導かれる。

まず,(13)式を(12)式に代入すると

( ) ( ) ( ) uXXXuXXXXb ′′+=+′′= −− 11 ββ (15)

が得られる。したがって,誤差項 u が正規分布に従えば,b も正規分布に従うことがわかる。

なお,b の期待値は,(15)式より,

( ) ββ =′+= − )E(')E( 1 uXXXb (16)

となる。つまり,b は不偏性を持つ。次に,b の分散(分散共分散行列)を求めよう。(15)

式と(16)式から

( ) uXXXbbb ′′=−=− −1)E( β

であるから,

( )( ) ( ) ( ) 11)E()E( −− ′′′′=′−− XXXuuXXXbbbb

となる。したがって,

[ ] ( ) ( )

( ) ( ) ( ) ( ) 12121

11 )E())E())(E((E)var(−−−

−−

′=′′′=

′′′′=′−−=

XXXXXIXXX

XXXuuXXXbbbbb

σσ (17)

が得られる。特に,j 番目の説明変数の係数 bjの期待値と分散は

11

j

xxjjj

jj

Sab

bE2

2)var(

)(

σσ

β

==

=

(18)

で与えられる。ここで,ajj は(X’X)-1 の(j+1,j+1)要素1,Sxxj は j 番目の説明変数「固有」の平

方和である(ここで「固有」とは,j 番目の説明変数を定数項+他の k-1 個の説明変数で回

帰し,それらの説明変数で説明できる部分を除いた xj 独自の要因に起因する平方和という

意味である)。

(16),(17),(18)式は,単回帰の場合に成立していた性質が重回帰の場合にも成立するこ

とを表している((18)式の導出は煩雑なので省略)。以上の結果をまとめると,最小二乗推

定量は,期待値がβ,分散(分散・共分散行列)がσ2(X’X)-1 の多変量正規分布に従う。ある

いは,

))'(,(~ 12 −XXNb σβ (19)

が成立する。σ2は誤差項の分散で未知のパラメータである(σは標準偏差)。

残差の確率分布

次に最小二乗残差の性質を述べる。まず,残差は

[ ]yXXXXIyXXXXyXbye ')'(')'( 11 −− −=−=−= (20)

で与えられる。これから,残差 e は y の線型関数になっていることがわかる。今,

')'( 1 XXXXIM −−≡ (21)

とおくと M は n×n 行列の対称行列で

Mye = (22)

と表すことができる。一方, y の推定値を y で表すと

1 行列 X において j 番目の説明変数のベクトル xjは第 j+1 列にある。第 1 列は定数項の 1 か

らなるベクトルである。

12

( ) yXXXXXby ''ˆ 1−== (23)

である。

( ) '' 1 XXXXP −≡ (24)

とおけば(P もまた対称行列である),

Pyy =ˆ (25)

が成立する。M と P の間には M=I–P という関係が成り立ち,さらに,次のような性質が成

立する。

OMXXPX

==

(26)

MM

PP=

=2

2

(27)

( ) OPPPPPPIMP =−=−=−= 2 (28)

(27)の性質(行列の平方がもとの行列に等しい)が成り立つ行列をべき等行列(idempotent

matrix)という。計量経済学の応用では,対称なべき等行列の固有値は 0 または 1 であるとい

う性質が重要である。さらに,P は X の張る空間への射影行列という意味合いがある(M

はその空間に直交する空間への射影)。詳しくは,Greene 等の大学院レベルの教科書を参照

のこと。

さて,(22)式に(13)式を代入し,(26)式を用いると

MuuXMMye =+== )( β (29)

が得られる。これから,

0)E( =e (30)

また,

13

0)'('' === uMXMuXeX (31)

という性質が成り立つこともわかる。

残差平方和は

MuuMuMuee '''' ==

で与えられる。残差平方和の期待値を求めると

( ) ( ) ( ) ( )

( ))1()tr())(tr()E(tr()tr(E)tr(EEE222 +−===′=

′=′=′=′

knMIMuuMuMuMuuMuueeσσσ

となる。tr( )はトレース(行例の対角成分の和)を表す。M のトレースが n−(k+1)になるこ

とについては Greene 等の教科書を参照せよ。なお,n はサンプル数,k+1 は定数項を含んだ

説明変数の個数である。

以上から,誤差項の分散の不変推定量は次の式で与えられることがわかる(単回帰と同

様の結果)。

)1(

2

+−=

knSSRs (31)

単回帰の場合と同様に,s2 の平方根を,回帰の標準誤差(standard error of regression)と呼ぶ。

また,残差平方和を真の分散で割った変数は,自由度 n-(k+1)のカイ二乗分布に従うこと

を示すことができる(n 個が独立に動けるわけではない)。

( ) ( ) ))1((~'' 2

2222 +−′

=== knΧMuMuMuueeSSRσσσσ

(32)

決定係数

単回帰と同様に次の式が成立する。

RSSESSTSS += (33)

14

TSS は全平方和(平均値の回り),ESS は回帰式で説明できる平方和,RSS は残差平方和で

ある。この関係は, MyPyeyy +=+= ˆ で M と P が直交することから導くことができる。

決定係数は次の式で定義される。

TSSRSS

TSSESSR −== 12 (34)

なお,R2 は説明変数の個数が増加すれば,単調に増加する。そこで,説明変数の個数の増

加をペナルティーとするように修正した決定係数を考えることができる。自由度修正済み

決定係数(adjusted R2)は次の式で定義される。

)1(

))1((12

−+−

−=nTSS

knRSSR (35)

重回帰分析では,通常は,この自由度修正済み決定係数を用いて,当てはまりの良さを評

価する。

仮説検定

以下では,個々の係数に関する仮説検定と,複数の係数制約についての仮説検定を説明す

る。前者は t 検定を用い,後者は F 検定を用いる。なお,個々の係数についての検定では,

片側検定と両側検定がある。

個々の係数に関する仮説検定(両側検定)

次の仮説(帰無仮説)を考える。

H0 : βj=βj0

対立仮説は次の通りである。

H1 : βj≠βj0

H0 が真の時,最小二乗推定量 b は次のような正規分布をした。

( )120 )'(,~ −XXNb σβ (36)

ここで,σ2は誤差項の分散で,未知のパラメータである。特に,b の要素 bjの分布は次の通

りであった。

15

( )jjjj aNb 20 ,~ σβ (37)

ここで,ajjは(X’X)-1の(j+1,j+1)要素であり(定数項があるため,xj の分散に対応する成分は

(j+1,j+1)要素になる), ajj=Sxxjである(Sxx

jは説明変数 xjを他の説明変数および定数項に回帰

した残差の平方和:xj から他の変数の影響を除去した xj 固有の平方和)。なお,これから,

次の式が導かれる。

)1,0(~0

Na

b

jj

jj

σβ−

(38)

誤差項の分散に関する最小二乗推定量は次の式で与えられた。

)1()1(

'2

+−=

+−=

knRSS

knees (39)

さらに,残差平方和を誤差項の真の分散で割った値は,自由度 n-(k+1)のカイ二乗分布にし

たがう。

( ) ))1((~)1(' 2

2

2

22 +−+−

== knXsknRSSeeσσσ

(40)

そして,最小二乗推定量 bjの標準誤差は次の式で与えられる。

jjjxx

j asS

sbes ==).(. (41)

z が標準正規分布に従う確率変数で,x が自由度 m のカイ二乗分布に従う確率変数で,互い

に独立であるとき, mxz は自由度 m の t 分布に従う。ここで,

σσσσ

σ

β

ssknRSSkn

RSSmx

a

bz

jj

jj

==+−

=+−

=

−=

2

2

2

2

0

))1(()1(

16

としよう(m=n− (k+1)としている)。この z と m は互いに独立であることを示すことができ

る(残差と b が直交することを用いる)。z と mx / の比を計算すると

( )

).(.

)( 000

j

jj

jj

jjjjjj

besb

as

bs

ab ββσ

σβ −=

−=

となり, bj−βj0 を bj の標準誤差で割った変数に等しくなる。z と mx / の比は,自由度 m

の t 分布に従うので,結局

( ))1(~).(.

0

+−−

kntbes

b

j

jj β (42)

が成り立つ。(42)式が,個々の係数に関する仮説検定の基礎になる。

帰無仮説が H0 : βj=βj0であり,対立仮説が H1 : βj≠βj

0であるとき,推定された bjがβj0とあ

まり離れていなければ,仮説 H0を受け入れ,そうでなければ仮説 H0を棄却する。今,推定

された係数が jb~ という特定の値をとったとしよう。仮説 H0を棄却するのは,H0を真とした

ときに,

( ) αββ <−>− 00 ~Pr jjjj bb (43)

を満たす場合とする。通常は,通常はα=0.05 として検定を行う(もっと厳しい場合には,

α=0.01 とする)。つまり,推計された推定値と仮説 H0 で想定した係数の距離が,(42)の確

率分布から考えて,十分にありそうも無いとき仮説 H0を棄却するのである。

(43)式に基づく検定は両側検定と呼ばれる。なお, ( ) αββ =−>− 0*0Pr jjjj bb を満たす

ような bj*を臨界値とか境界値と呼ぶ。

帰無仮説が

H0 : βj=βj0

であり,対立仮説が

17

H1 : βj>βj0

のような仮説検定も考えられる。この場合には,

( ) αββ <−>− 00 ~Pr jjjj bb (44)

であれば,H0を棄却する。このような検定は片側検定と呼ばれる。

-3 -2 -1 0 1 2 3

両側検定

臨界値の両側に落ちる確率をαとして検定

18

-3 -2 -1 0 1 2 3

片側検定

臨界値の片側に落ちる確率をαとして検定

複数の制約

帰無仮説

H0 : Rβ=q

を考える。対立仮説は

H1 : Rβ≠q

を考える。例えば,

1) R=[0 1 0 .....0], q=[0 0 ... 0]’とすれば,

H0:β1=0

という仮説を考えていることになる(1 本の制約と同じである)。

2)

⎥⎦

⎤⎢⎣

⎡=

⎥⎦

⎤⎢⎣

⎡=

00

0010000010

q

RL

L

の場合,

19

H0:β1=0,β2=0

という 2 本の制約にに帰着する。

さて,H0が真であるとき,

uXXXRquXXXRRyXXXRRb ')'(')'(')'( 111 −−− +=+== β

が成立するので,Rb は次の正規分布に従うことがわかる。

)')'(,(~ 12 RXXRqNRb −σ (45)

このとき

( ) [ ] ( ) )(~')'( 2112 rXqRbRXXRqRbW −′−=−−σ (46)

が成り立つ。ここで,r は制約の数(R のランク)を表す。また,

))1((~' 222 +−== knXSSReeV

σσ (47)

が成り立つ。さらに,W と V は互いに独立であることを示すことができる(残差と b の直

交性より)。したがって,

[ ]

[ ] ))1(,(~/)(')'()(

))1(/(1)(')'()(

))1((

2

11

2

112

+−−′−

=

+−⋅

−′−=

+−

−−

−−−

knrFs

rqRbRXXRqRb

knSSRrqRbRXXRqRb

knVrW

σσ

(48)

が成立する。仮説 H0 が正しければ,この変数の分子は小さくなり,(48)式の値は小さくな

る。仮説 H0が正しくなければ,(48)式の値は大きくなるのである。

(48)式は自由度(r, n−(k+1))の F 分布に従うが,F 分布は次の図のような形状をしている。

20

図のように,(48)式から計算される統計量が棄却域に入れば,H0を棄却すればよい(そうで

なければ H0を受け入れる)。

0 1 2 3 4 5

F Distribution: Numerator df = 5, Denominator df = 100

f

臨界値よりも大きな値をとる場合に仮説H0を棄却

なお,(48)式の W/r と V/(n-(k+1))の比を計算して求めるのではなく,次の方法でテストは

(48)式と同等であることが知られている。まず,係数に何の制約も課さない回帰分析を行い,

そのときの残差平方和を URSS (Unrestricted Residual Sum of Squares: 制約無しの残差平方

和)とする。次に,H0 の制約を課した上で回帰分析を行い,そのときの残差平方和を RRSS

(Restricted Residual Sum of Squares 制約付きの残差平方和)とする。そして,RRSS-URRS を

計算し(つまり制約を課すことでどのくらい当てはまりが悪くなるかを計算し),それを制

約の数で割った値を分子にする。また,分母は,制約無しの残差平方和を自由度で割った

値とする(制約無しの回帰の標準誤差の平方に等しい)。このとき,

))1(,(~))1(/(/)(

+−+−

− knrFknURRS

rURRSRRSS (49)

21

が成立する。ここでも,棄却域をαとおいて,H0が真のとき,(49)式の左辺がありそうも無

い値をとる場合には H0を棄却する。特に,

H0 : β1=0, β2=0, ..., βk=0

という仮説(全ての説明変数に説明力が無い;ただし,定数項を除く)の検定は,制約無

しの回帰の全平方和と TSS,回帰変数で説明される部分の平方和を ESS,残差平方和を RSS

で表すと,制約付きの残差平方和 RRSS は TSS に等しいので,RRSS−URRS=TSS−RSS=ESS

が成り立つ。したがって,

))1(,(~))1((

+−+−

knkFknRSSkESS

であることを用いればよい(通常の統計パッケージでは,回帰分析の標準的な出力にこの F

値が報告される)。