57
東京⼤学 数理・情報教育研究センター 北川 源四郎 時系列解析(3)

時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

東京⼤学 数理・情報教育研究センター北川 源四郎

時系列解析(3)

Page 2: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

2

概 要

• 統計的モデリングとモデル評価• 予測の視点とK-L情報量• K-L情報量の推定と最尤法• バイアス補正とAICの導出• TICとの関係• AICによるモデル選択例• その他の情報量規準

Page 3: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

3

統計的モデリング

モデルを通して情報抽出が実現できる

統計的モデル情報抽出の「道具」

情報抽出知識発⾒

予測シミュレーション

制御管理

データ

経験的知識

理論

Page 4: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

利⽤するモデルの影響

4

時系列モデルによるトレンド推定

時系列モデルによるスペクトル推定

利⽤するモデルによって,予測や情報抽出の結果は著しく異なる.

多項式回帰モデル

Page 5: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

5

モデル評価の重要性

• モデルの利⽤によって,予測や情報抽出ができる• 統計的推論の結果は利⽤するモデルに依存する• モデル評価・選択が重要

モデル評価のための情報量規準

Page 6: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

6

情報量規準:論⽂被引⽤回数

年別被引⽤数 累積被引⽤数

■ Akademiai Kiado (1973)■ IEEE Automatic Control (1974)

0

1000

2000

3000

4000

5000

1972 1977 1982 1987 1992 1997 2002 2007 2012 2017

AK(1973)IEEE(1974)

0

10000

20000

30000

40000

50000

60000

1972 1977 1982 1987 1992 1997 2002 2007 2012 2017

AK(1973)IEEE(1974)

⾚池弘次⽒ Googleのトップロゴになる 11/6/2017Google Doodlehttps://www.google.com/doodles/hirotugu-akaikes-90th-birthday

Page 7: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

7

情報量規準への道

• モデルのよさを予測能⼒で評価する• 予測は点推定ではなく予測分布で⾏う• 分布の近さをKL情報量で評価する

真の分布

将来のデータ

現在のデータ

モデル推定

予測

評価

モデル真のデータ

データ

予測の視点従来の視点

推定・検定

Page 8: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

1

log

)()()(log

)()()(log

)()(log);(

i i

ii

Y

fgg

dxxgxfxg

xdGxfxg

YfYgEfgI

8

K-L情報量によるモデルの評価

モデル

Kullback-Leibler情報量(K-L ダイバージェンスともいう)

:)(:)(

yfyg

Akaike(1973,1974),⼩⻄・北川 3.1

真の分布とモデルの分布の乖離を測る尺度

真の分布モデルの分布

連続分布モデル

離散分布モデル

Page 9: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

K-L情報量の性質

9

)()( 0);( )(

0);( )(

xfxgfgIii

fgIi

(注意)K-L情報量は距離ではない.距離の公理の(2)対称性,(3)三⾓不等式を満たさない.

(距離の公理)(1) ( , ) 0, ( , ) 0 ( ) ( )(2) ( , ) ( , )(3) ( , ) ( , ) ( , )

d g f d g f g x f xd g f d f gd f g d g h d f h

Page 10: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

10

その他の尺度

• へリンジャ―距離

• ⼀般化情報量

• ダイバージェンス

• L1ノルム

• L2ノルム

2

2

( ) ( )

1 ( ) 1 ( )( )

( ) ( )( )

( ) ( )

( ) ( )

f x g x dx

g x g x dxf x

g xu g x dxf x

g x f x dx

g x f x dx

Page 11: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

11

K-L情報量とエントロピー

11

1!

! !knn

kk

nn nW f f Boltzmannのエントロピー

i

ii f

ggfgIfgB log);();(

⼩⻄・北川(2004) 30p

Wn

fgB log1~);(

モデル f = ( f1,…, fk)n個の独⽴な観測値 (n1,…,nk) n1+・・・+nk=n相対度数 (g1,…,gk)gi=ni/n (n1,…,nk)が得られる確率

W: 想定したモデルから得られたサンプルの相対度数が真の分布と⼀致する確率

log ! logn n n nスターリングの近似

1 1

1 1 1

1 1

1

1

log ! log ! log ! log

~ log log log

log log

log

log ( ; )

k k

i i ii i

k k k

i i i i ii i i

k ki

i i ii i

ki

iii

ki

iii

W n n n f

n n n n n n n f

nn n fn

fng

fn g nB g fg

Page 12: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

12

K-L情報量:計算例

1)(log21);(

212log

21)(log)(

2)(2log

21

2)(2log

21)(log)(

2

22

2

2

2

2

222

2

22

fgI

dxxgxg

XEdxxfxg X

正規分布

dxxfxgdxxgxgfgI

NyfNyg

)(log)()(log)();(

),(~)(),,(~)( 22

⼩⻄・北川(2004) 30p

i

i

iiY f

ggfgEfgI loglog);(

6

1

多項分布f1 = {0.20,0.12,0.18,0.12,0.20,0.18}f2 = {0.18,0.12,0.14,0.19,0.22,0.15}g = { 1/6, 1/6, 1/6, 1/6, 1/6, 1/6}

I(g;f1)=0.023, I(g;f2 )= 0.020

応⽤:⽐例代表制における議席配分g : 得票分布,f:議席配分

Page 13: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

K-L情報量の推定

13

統計的モデリングでは通常,K-L情報量は直接計算できない

• 理由: 真のモデル g(y) は未知• 対策: I(g(y); f (y)) をデータから推定する

fEgEfgEfgI YYY logloglog);(

EYlog gとEYlog f を分離できることがK-L情報量のメリット

Page 14: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

14

平均対数尤度

)(log YfEY 平均対数尤度

):()(log

fgIYfEY 絶対評価

相対評価注意:

log ( ) : ( : )YE f Y I g f⼤ ⼩ :

EY log g は未知だが f に関係なく⼀定

モデリングにはK-L情報量の代わりに平均対数尤度を使える

( ; ) log logY YI g f E g E f

Page 15: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

15

n

iin XyI

nyGyG

1),(1)(ˆ )(

平均対数尤度 E log f の推定

平均対数尤度

対数尤度)(log)(ˆ)(log

1

n

iin XfyGdyfn

(経験分布)

)(log YfEY)(log1

1

n

iiXf

n

)()(log)(log ydGyfYfEY

Data

⼤数の法則

平均対数尤度も未知の分布を含む 推定が必要

( ) ( )dG y g y dy

Page 16: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

16

最尤法

対数尤度 )|(log)|(log)(1

XfXfn

ii

),,( ),|( 1 kyf

ˆ ˆmax ( ) ( )X

Max : Max :)(log Min );( YfEfgI Y:

パラメトリックモデル

最尤法

最尤法は近似的にK-L情報量を最⼩化 )ˆ|(

)ˆ(

ˆ

yf

最尤推定量最⼤対数尤度最尤モデル

Page 17: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

17

最尤推定値の例(平均)

平均対数尤度対数尤度

n=10n=100

)1,( :model ),1,0(~ NNy

( )( )

Page 18: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

18

最尤推定値の例(分散)

n=10 n=100

),0( :model ),1,0(~ 2NNy

2 2

2( ) 2( )

平均対数尤度対数尤度

Page 19: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

19

最尤推定値の求め⽅(1)尤度⽅程式を解く(2)数値的最適化による

最尤推定量の性質(1)尤度⽅程式 は0に収束する解を持つ(2) は のとき0に確率収束(3)

最尤推定値

n

))(,0()ˆ( -100 INn n

( ) 0

n

Page 20: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

20

複数モデルの⽐較

最⼤対数尤度 を⽐較して,最⼤となるj を探せばよい?

)ˆ( jj

)ˆ()ˆ( 11

1

1

kk

k

kMM

モデル

パラメータ最⼤対数尤度

Page 21: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

次数 残差分散 対数尤度

− 0.678301 -24.50 0 0.006229 22.411 0.002587 31.192 0.000922 41.513 0.000833 42.524 0.000737 43.755 0.000688 44.446 0.000650 45.007 0.000622 45.458 0.000607 45.699 0.000599 45.83

21

多項式回帰の次数と残差分散,対数尤度

⼩⻄・北川 (2004) p60

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7 8 9

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0 1 2 3 4 5 6 7 8 9

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

残差分散

対数尤度

はそのままではモデル選択に使えない )ˆ( jj

Page 22: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

22

理由・原因と対策

理由:

原因:

対策: バイアスを評価し補正する

パラメータ推定と平均対数尤度の推定に同じデータを2回⽤いたため

が の推定値としてバイアスを持ちしかも,バイアス量がモデルによって異なる

)ˆ|(log xfE)ˆ(

Page 23: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

23

最⼤対数尤度のバイアス補正

0

D

))(ˆ|(log))(ˆ|(log1 )( XYfEXXf

nEGb YX

ˆlog ( | ( )) ( )ˆlog ( | ( ))

X

Y

E f X X b G

E f Y X

)())(ˆ|(log GbXXf

バイアス補正 対数尤度log ( | ( ))f X X

平均対数尤度))(|(log XYfEY

(Dの期待値を補正)

Page 24: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

24

記号と準備

( ) ( | )g x f x

0

0

log ( | ) max log ( | )log ( | ) 0

Y Y

Y

E f Y E f YE f Y

2( ) ( | )TJ E f Y

( ) log ( | ) log ( | )T

I E f Y f Y

真のモデル パラメトリックモデル

「真」の値

最尤推定値1 1

1

ˆlog ( | ) max log ( | )

ˆlog ( | ) 0

n n

i ii i

n

i

f x f x

f Y

I( ):Fisher情報⾏列,J( ):Hessianの期待値

0

0

対数尤度log ( | ( ))f X X

))(|(log XYfEY 平均対数尤度

Page 25: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

25

記号と準備

0ˆ n

00 )|()( xfxg となる が存在しない場合でも

))()()(,0()ˆ( -100

-100 JIJNn n

0 0 0 0 0 0

1 10 0 0 0

10 0

1

1

ˆ ˆ ˆ ˆ( ) ( )( ) tr ( ) ( )( )

tr ( ) ( ) ( ) ( )

tr ( ) ( )

T T

n

n

E J J E

J J I J

I J

-10 0

ˆ( ) (0, ( ) )nn N I

標準的中⼼極限定理

Page 26: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

26

バイアスの評価

321

0

00

0

))(ˆ|(log)|(log

)|(log)|(log

)|(log))(ˆ|(log

))(ˆ|(log))(ˆ|(log

1

11

1

DDDXYfEYfE

YfEXf

XfXXf

XYfEXXfD

YY

Y

Y

n

nn

n

  

 

  

  

対数尤度 平均対数尤度

log ( | ( ))f X X

E f Y XG log ( | ( ))

D

D1

D2

D3

対数尤度

平均対数尤度

1

1

( , , )log ( | ) log ( | )

Tn

nii

X x xf X f x

0

Page 27: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

27

バイアスの構造

D

D1

D 2

D3

対数尤度log ( | ( ))f X X

平均対数尤度))(|(log XYfEY

0

Page 28: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

28

バイアスの評価

1 2 3E D E D E D E D

D の期待値を計算する

Page 29: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

2

0 0 0

10 0 02

10 0 0 02

ˆlog ( | ( ))ˆlog ( | ) log ( | )( )

ˆ ˆ( ) log ( | )( )

ˆ ˆlog ( | ) ( ) ( )( )

Y

Y YT

Y

TY

E f Y XE f Y E f Y

E f Y

E f Y J

29

13 0

1ˆlog ( | ) log ( | ( )) tr2X X Y YE D E E f Y E f Y X IJ

n

0

10 0 0 0 0

1ˆ ˆ( ) ( )( ) tr ( ) ( )TXE J I J

n

D3 の評価

))(ˆ|(log XYfEY

Page 30: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

)ˆ)(()ˆ())(ˆ|(log

)ˆ))((ˆ|(log)ˆ(

)ˆ))((ˆ|(log))(ˆ|(log)|(log

00021

0021

0

0

2

JXXf

XXf

XXfXXfXf

T

T

30

11 01ˆlog ( | ( )) log ( | ) tr

2X XE D E f X X f X IJn

10 0 0 0 0

ˆ ˆ( ) ( )( ) tr ( ) ( )TXE J I J

D1 の評価

Page 31: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

31

0)|(log)|(log1002

YfEXf

nEDE YXX

n

jjn

n

XfXXfXf

XXX

11

1

)|(log)|,,(log)|(log

),,(

)|(log

)|(log1)|(log1

0

100

YfE

XfEn

Xfn

E

Y

n

jjXX

D2 の評価

D 2

0

Page 32: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

32

バイアス補正量

1 2 3( ) X Xb G E D E D D D

1TIC )()(tr)( GJGIGb

2

log ( | ) log ( | )( )

log ( | )( )

X

X

f X f XI G E

f XJ G E

D D2

D3

対数尤度log ( | ( ))f X X

平均対数尤度))(|(log XYfEY

1D

Fisher情報量

ヘッセ⾏列の期待値0

Page 33: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

33

情報量規準

11 2 3( ) [ ] [ ] [ ] ( ) ( )trb G E D E D E D I G J G

1ˆ2 log ( | ) 2 { ( ) ( ) }TIC trf x I G J G

ˆ2 log ( | ) 2 ( )IC f x b G

情報量規準の⼀般形

I(G) Fisher 情報行列

J(G) -(Hessianの期待値)

竹内(1976)

Page 34: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

34

⾚池情報量規準 AIC

ˆ2 log ( | ) 2f x k AIC

Akaike (1973)

k: 自由パラメータ数 (の次元)

最尤推定量

最大対数尤度ˆ( | )f x

ˆ( | ) max ( | )f x f x

Page 35: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

35

2 21log ( | ) ( | ) log ( | ) log ( | )( | )G G G

i j i j i jE f x E f x E f x f x

f x

)()( JI

2

2

2

2

log ( | ) log ( | )

1 ( | )( | )

1 1( | ) ( | ) ( | )( | ) ( | )

1 ( | ) log ( | ) log ( | )( | )

i j i j

i j

i j i j

i j i j

f x f x

f xf x

f x f x f xf x f x

f x f x f xf x

⾏列 I( ) と J( ) の関係

⼩⻄・北川(2004) 45p

⼀般に

Page 36: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

36

AICとTICの関係

)|()( s.t. 00 xfxg

1( ) ( ) ( )

k

b G I G J GI k

tr tr

2 2

0 00

2

0

1 ( | ) ( | )( | )

( | ) 0

Gi j i j

i j

E f x f x dxf x

f x dx

)()( JI

モデル族が真の分布を含む場合

0( | ),f x

( )g x

Page 37: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

37

AICとTICの関係

AICの補正項は真の分布G を含まない.1.TICの補正項の計算はやや⾯倒2.TICの補正項は実際には未知 データから推定3.⾼次モーメントを含む. 分散が⼤きい.

モデルが真の分布を含む場合: TIC=AIC

TICがAICより優れていることを意味しない

Page 38: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

38

TICの補正項:正規分布の場合2 2

2 2 2

02 2

42 2 2

1log ( | ) log ( | ) 0( )

10log ( | ) log ( | ) 2( )

E f X E f X

J

E f X E f X

48

46

3

63

2

4

2

22

4

2

2

2

0

41

42

21

2)(

21

2)(

21)(

XXX

X

EI

21

22

1

200

41

42

21

)()(

44

43

23

4

2

484

63

63

21

GJGI

6

2

422

2

42

2

22

2

4

2

22

2

)(2

1)|(log)(

)|(log

1)|(log

)(2

1)|(log

)|(log

xxf

xxf

xf

xxf

xxf

2

22

2

2

22

2)(2log

21)|(log

2)(exp

21),|(

xxf

xxf

44

441 1

21

21

21})()({tr

GJGI

Page 39: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0 1 2 3 4 5 6 7 8 9

39

モデル選択例:多項式回帰の次数

)2(2ˆlog)12(logAIC2

)ˆ2log(2

)ˆ(

21)2log(

2)(

),,,,(

),0(~,

2

2

2

1 02

2

210

210

pnn

nn

yyn

Nxxy

p

n

i

p

jjiji

p

pp

⼩⻄・北川 (2004) p60

次数 p20

25

30

35

40

45

50

0 1 2 3 4 5 6 7 8 9

残差分散 対数尤度

データ

Page 40: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

次数 残差分散 対数尤度 AIC AICの差

− 0.678301 -24.50 50.99 126.490 0.006229 22.41 -40.81 34.681 0.002587 31.19 -56.38 19.112 0.000922 41.51 -75.03 0.473 0.000833 42.52 -75.04 0.464 0.000737 43.75 -75.50 0.005 0.000688 44.44 -74.89 0.616 0.000650 45.00 -74.00 1.497 0.000622 45.45 -72.89 2.618 0.000607 45.69 -71.38 4.129 0.000599 45.83 -69.66 5.84

-80

-70

-60

-50

-40

0 1 2 3 4 5 6 7 8 9

40

モデル選択例:多項式回帰の次数

⼩⻄・北川 (2004) p60

次数 p

AICp

Page 41: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

41

モデル選択例:多項式回帰の次数

p=9p=1

p=4

次数⼩:バイアスが⼤きい次数⼤:変動が⼤きい

Page 42: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

42

予測誤差 = バイアス + 分散

バイアス 〜 モデルの不安定さ分散 〜 モデルの悪さ

モデルの予測誤差分散

AIC 最⼩モデル(p = 4)バイアスと分散を適度に⼩さくしたモデル期待予測誤差最⼩のモデル

Page 43: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

43

情報量規準の有限修正

c( 1)( )

2n pb Gn p

( 1)ˆAIC 2 log ( | ( )) 22c

n pf X Xn p

),0(~, 2nINXy

n 4 6 8 12 18 25 50 100 200

bAc(G) 8.0 4.0 3.2 2.7 2.4 2.27 2.13 2.06 2.03

p =1 の場合の bc(G)

Sugiura (1978),⼩⻄・北川(2004) p63,Konishi-Kitagawa(2008) p181

Page 44: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

44

AICc 有限修正

GIC 統計的汎函数で定義される任意の推定量

EIC Bootstrap法によるバイアス推定

ABIC ベイズ型情報量規準

NIC, BIC, WAIC, PIC, RIC

** * * *1 ˆ ˆ( ) log ( | ( )) log ( | ( ))

Xb G E f X X f X X

n

(1) log ( | )( ) ( ; ) ( )f xb G T x G dG x tr

2)1()(

pn

pnGb

2 max log ( | ) ( | ) 2f x d q

ABIC

その他の情報量規準

Page 45: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

45

⼀般情報量規準: GIC

特⻑• 統計的汎関数として定義できる任意の推定量に適⽤可能• EIC等の理論解析にも有⽤• ⾼次補正も可能

弱点• 汎関数微分の計算が⾯倒

GICˆ ˆGIC 2 log ( | ( )) 2 ( )f X X b G

Page 46: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

46

⼀般情報量規準: GIC

(1)

(1) log ( | )

( ) = ( )

tr ( ; ) ( )

p p

f x

b G T f dG x

T x G dG x

pqpqppppX FSFSdGfT

nDE )11()2()1(

1 21

21 1= )(

pqpqppX FSFSn

DE )11()2(3

21= )(

Page 47: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

47

Bootstrap情報量規準: EIC

バイアス補正量を解析的にではなく,ブートストラップによって数値的に求める.特⻑

• 解析的近似が不要• 計算実装も⽐較的容易• 最尤推定量以外の広範な推定量やモデルに適⽤可能

弱点• データ⽣成・推定を繰り返すため計算量が多い

)(2))(ˆ|(log2EIC *GbXXf

Page 48: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

48

Bootstrap 情報量規準: EIC

• データ• 経験分布関数• Bootstrap標本

))(ˆ|(log))(ˆ|(log 1)( XYfEXXf

nEGb YX

)( ~ ,,1 xGXXX n

),(1)(1

n

jjn XxI

nxG

))(ˆ|(log))(ˆ|(log 1

))(ˆ|(log))(ˆ|(log1 )(

***

*****

*

**

XXfXXfEn

XYfEXXfn

EGb

X

YX

)(ˆ ~ ,, **1

* xGXXX nn

Page 49: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

Bootstrap法によるバイアス補正

平均対数尤度

対数尤度

)|(log Xf

)|(log YfEG

Bootstrap対数尤度)|(log * Xf

*D*3D

*1D

)(ˆ X)(ˆ *X

D

1D

2D

3D

*2D

49

E[D2]=00

Page 50: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

平均対数尤度

エントロピー K-L 情報量

対数尤度

AIC TIC GIC EIC

Bootstrap統計的汎関数

計算による補正解析的バイアス補正

情報量規準の系譜

50

最尤推定

AICc

有限修正

Page 51: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

複雑な現実 ・・・ 有限のデータ

• パラメータ数を少なくする ・・・ MAICE• パラメータに制約を課す ・・・ Bayesモデル

モデル選択だけではない.

51

よいモデルを求める⽅法

Page 52: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

52

ABIC(ベイズ型情報量規準)

)|(

);|( xf

dxfxp )|()|()|(

小北川(2004), Konishi-Kitagawa(2007))

ベイズモデルパラメトリックモデル事前分布

超(ハイパー)パラメータ(q 次元)

周辺分布

これをパラメータを とするモデルとみなす

ABIC 2log max ( | ) 2

2 max log ( | ) ( | ) 2

p x q

f x d q

Page 53: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

53

BIC

( | ); ( )

mm m

m

f x R

( ) ( | ) ( )m m mp x f x d

⼩⻄・北川(2004)

ベイズモデルパラメトリックモデル事前分布

周辺尤度

2 log ( ) 2 log ( | ) ( )ˆ2 log ( | ) log

p x f x d

f x m N

BICm

Page 54: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

交差検証法(Cross Validation)

54

1 1 1{ , , } { , , } { , , }N my y x x z z m N

1. 全データを推定⽤データと評価⽤データに分ける2. 推定⽤データでモデルを推定3. 評価⽤データでモデルを評価(予測2乗誤差など)4. 1の分割の仕⽅を変えて,すべての場合について 2, 3を繰り返

し,評価量の平均を求める

分割の仕⽅:Leave-one-out: 1個のデータだけ評価に⽤いるk 分割法: 全体のデータをk 分割し,そのうちの1つを

評価に⽤いる

推定⽤データ 評価⽤データ

Page 55: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

55

AICに関する批判について

次数の⼀致性が最も重要な問題ではない.

1. モデリングの⽬的は,「よい」モデルを求めることで,「真の」モデルを求めることではない.

2. 次数の⼀致性は良いモデルを求めるための必要条件でも⼗分条件でもない.

3. 「真」の次数は⼀般に存在しない.存在する場合でも真の次数の推定されたモデルが予測によいとは限らない.

4. 「真」の次数より⾼くてもパラメータが⼀致性を持てばモデルは⼀致する.

シミュレーションの設定⾃体が不適切なことが多い

Page 56: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

56

参考書

• 坂元慶⾏, ⽯⿊真⽊夫, 北川源四郎(1983). 「情報量統計学」, 共⽴出版,情報科学講座 A.5.4

• Y.Sakamoto, M.Ishiguro and G.Kitagawa (1986) Akaike Information Criterion Statistics,D.Reidel, Dordrecht.

• Burnham, K. P., & Anderson, D. R. (2003). Model selection and multimodelinference: a practical information-theoretic approach. Springer.

• ⼩⻄貞則,北川源四郎(2004)「情報量規準」,朝倉書店,予測と発⾒の科学2• ⽵内・下平・伊藤・久保川(2004):モデル選択,統計科学のフロンティア,岩波

書店• ⾚池弘次・⽢利俊⼀・北川源四郎・樺島祥介・下平英寿,編者 室⽥⼀雄・⼟⾕

隆(2007)「⾚池情報量規準AIC−モデリング・予測・知識発⾒」共⽴出版• S. Konishi and G. Kitagawa (2008). Information Criteria and Statistical

Modeling,Springer Verlag

Page 57: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する

57

関連論⽂リスト

• Akaike, H. (1973), “Information theory and an extension of the maximum likelihood principle.” Proc. 2nd International Symposium on Information Theory , B. N. Petrov and F. Csaki eds., Akademiai Kiado, Budapest, 267-281.

• Akaike, H. (1974), “A new look at the statistical model identification.” IEEE Trans. Automat. Contrl., AC-19, No. 6, 716-723.

• ⽵内啓, (1976). 情報統計量の分布とモデルの適切さの規準,< 特集>情報量規準. 数理科学, 14(3), 12-18.

• Konishi and Kitagawa (1996), “Generalized Information Criteria in Model Selection”, Biometrika, Vol. 83, No.4, 875-890.

• Ishiguro, Sakamoto and Kitagawa (1997), “Bootstrapping Log Likelihood and EIC, an Extension of AIC”, Annals of the Institute of Statistical Mathematics, Vol. 49, No. 3, 411-434.