Upload
shuhei-ichikawa
View
10.713
Download
5
Embed Size (px)
DESCRIPTION
2013/07/27 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会 第11回 重回帰分析 にて発表した内容です。
Citation preview
目次
重回帰分析とは
二値データを用いた重回帰
二値データとの交互作用項を持つ重回帰
引用文献・推奨文献
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会2
目次
重回帰分析とは
二値データを用いた重回帰
二値データとの交互作用項を持つ重回帰
引用文献・推奨文献
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会3
重回帰分析 (Multiple Regression) とは
複数の変数と1つのアウトカムの関係性を評価する統計手法
※用語の統一
複数の変数
説明変数 (explanatory variable)
独立変数 (independent variable)
Regressor
1つのアウトカム
基準変数 (criterion variable)
従属変数 (dependent variable)
アウトカム (outcome)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会4
関係性の評価
相関係数
2変数間の類似性の度合いを表す
因果関係は表現できない
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会5
r = 0.190
関係性の評価
単回帰分析 独立変数が従属変数をどの程度説明できるか、定量的に評価
因果関係の存在を仮定し、その妥当性を検証
重回帰分析 単回帰分析の独立変数側が複数になったもの
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会6
残差 (residual)
最小二乗法残差の二乗和が最小になるように回帰曲線を設定
回帰直線(regression line)
(重) 回帰分析を何のために使う?
質問
太郎さんは、結婚資金500万円を貯めるため、毎月、一定の金額を貯金しています。
2012年1月の貯金残高は100万円でした。
2013年1月の貯金残高は220万円でした。
Q1. 太郎さんは毎月いくら貯金していますか?
⇒法則性の検証、現象の説明 (explanation)
Q2. 太郎さんが結婚資金を準備できるのはいつだと予測されますか?
⇒予測 (prediction)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会7
数学的なお話
単回帰分析
Y = β0 + β1X1 + ε
重回帰分析
Y = β0 + β1X1 + β2X2 + … + βnXn + ε
cf. 2way ANOVAの概念モデル
Y = f1(X1) + f2(X2) + f1*2(X1*X2) + E
!! ANOVA familyと線形回帰は、General Linear Modelで統合された
※Generalized Linear Modelは別物なので注意
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会8
Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数ε : 残差
Y : 従属変数Xk : 独立変数fk : 要因関数(効果)E : 誤差
結果の読み方
独立変数の影響力
モデルの説明力
例)独立変数を10個投入し、うち1つがぎりぎり有意でした。
このモデルは妥当でしょうか?
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会9
結果の読み方
独立変数の影響力
偏回帰係数 (b)
ӧ 独立変数にかけられる重み
ӧ 独立変数が、従属変数に対してどの程度影響を与えているかを表す
標準偏回帰係数 (β)
ӧ SD=1にそろえて標準化した偏回帰係数
ӧ 偏回帰係数は独立変数の平均値に依存する=単位変換の影響を受ける
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会10
結果の読み方
モデルの説明力
重決定係数 (R2)
ӧ 回帰分析の精度、あるいは回帰式の当てはまりの具合を表す
自由度調整済み重決定係数 (adjusted R2)
ӧ モデル分析の精度は、N数が大きければ大きいほど高くなる
Q. N=10のデータのR2とN=100のデータのR2を同じに扱えるか?
⇒ N数を調整した決定係数を用いる
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会11
Rで実践!
参考 : Fox (1997)
dataset : Davis
carライブラリに収載
習慣的に運動をしている男女の身体測定及びその自己申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会12
Rで実践!
参考 : Fox (1997)
dataset : Davis
carライブラリに収載
習慣的に運動をしている男女の身体測定及びその自己申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会13
独立変数
従属変数
Rで実践!
手順
1. carパッケージをインストールする
> install.packages(“car”)
2. carライブラリを使えるようにする
> library(car)
3. Davisデータセットを使えるようにする
> data(Davis)
4. 回帰を行う
> MR <- lm(repwt ~ weight + height, data = Davis)
5. 結果を出力する
> summary(MR)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会14
glm関数でも似たようなことができる
手順
1. GLM <- lm(repwt ~ weight + height, data = Davis)
2. summary(GLM)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会16
決定係数等が算出されない
係数はlmと同じ
重回帰分析の前提
正規性 独立変数がどのような値をとっても、従属変数は正規分布する
等分散性 独立変数がどのような値をとっても、従属変数の分散は異ならない
独立性 独立変数と従属変数は独立している
直線性 独立変数の変化に対し、従属変数は直線的に増加する
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会17
多重共線性
多重共線性
独立変数間の強い相関のこと
βの値が歪む
ӧ βが過小評価 / 過大評価される
多重共線性の指標 : VIF (Variance Inflation
Factors)
VIF > 10 なら多重共線性が起きている
DAAGパッケージのvif関数を用いる
ӧ > MR <- lm(repwt ~ weight + height, data = Davis)
ӧ > summary(MR)
ӧ > vif(MR)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会18
目次
重回帰分析とは
二値データを用いた重回帰
二値データとの交互作用項を持つ重回帰
引用文献・推奨文献
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会20
二値データとは
カテゴリカルデータの一種
2種類の値のうち、いずれか一方のみをとる
性別 : 男性, 女性
コイントスの結果 : 表, 裏
二肢法への回答 : はい, いいえ
患者と診断されたか : 患者, 健常者
介入を受けたか : 介入群, コントロール
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会21
どうして二値データを使うの?
従属変数をよりよく説明するため=モデルの説明力を上げるため
交絡要因を炙り出し、結果にかかるバイアスを解消するため⇐ Simpson's Paradox
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会22
Simpson’s Paradox
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会23
Fox J (2008)
男女それぞれの回帰直線は右上がり
男女を合わせた回帰直線は右下がり
二値データを用いた重回帰分析?
直観的には……
独立変数側が離散データになるのであれば、ANOVAを適応するべきでは?
!! ANOVA familyと線形回帰は、General Linear
Modelで統合された
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会24
重回帰分析でも、二値データや離散データを独立変数とすることができる
(重) 回帰分析で二値データを扱うために
1. カテゴリカルデータをダミー変数にコードする
男性: 1, 女性: 0
患者: 1, 健常者: 0
介入群: 1, コントロール: 0
2. ダミー変数を独立変数に投入し、(重) 回帰分析を実施する
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会25
Rで実践!
参考 : Fox (1997)
dataset : Davis
carライブラリに収載
習慣的に運動をしている男女の身体測定及びその自己申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会26
独立変数
従属変数
Rで実践!
手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. sexをダミーデータに変換する
> male <- ifelse(Davis$sex == “M”, 1, 0)
3. 回帰を行う
> MR2 <- lm(repwt ~ male + weight, data = Davis)
4. 結果を出力する
> summary(MR2)
5. プロットする> plot(effect(“weight:male”, MR2, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会27
この方法だと、プロットに失敗する
ダミー変数を作らなくても……
統計パッケージの場合、カテゴリーデータを作成しなくても、解析してくれることが多い
⇒ ソフトのクセに合わせて選択すれば良い
plot(effect())は、ダミー変数を自作すると上手く動かない、ような気がする
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会29
ダミー変数を作らずにやってみよう
手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR3 <- lm(repwt ~ sex + weight, data = Davis)
3. 結果を出力する
> summary(MR3)
4. プロットする> plot(effect(“weight:sex”, MR3, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会30
結果を比較してみる
ダミー不使用 (sex) とダミー使用 (male) の結果は等しい
単回帰と比較すると、R2が0.08ほど上昇
単回帰と比較すると、Weightの係数が低下
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会33
male sex 単回帰
β_Intercept 23.520 23.520 15.759
β_weight 0.570 0.570 0.753
β_sex 9.751 9.751
R2 0.782 0.782 0.698
数学的なお話
重回帰分析
Y = β0 + β1X1 + γDi + εi
D=0のとき
Y = β0 + β1X1 + εi
D=1のとき
Y = (β0 + γ) + β1X1 + εi
注意
二値変数は分散に意味がないため、標準化偏回帰係数が解釈不能
→偏回帰係数を用いましょう
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会34
Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数Di : ダミー変数γ : ダミー変数の係数ε : 残差
rep
wt
(kg
)
weight
D=1 D=0
数学的なお話
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会35
1
β1
γ
1
β1
β0 + γ
β0
目次
重回帰分析とは
二値データを用いた重回帰
二値データとの交互作用項を持つ重回帰
引用文献・推奨文献
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会36
交互作用とは
交互作用なし (Additive)
交互作用あり (Multiplicative)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会37
30
40
50
60
70
80
90
100
rep
wt
(kg
)
weight
D=1 D=0
30
40
50
60
70
80
90
100
rep
wt
(kg
)
weight
D=1 D=0
30
40
50
60
70
80
90
100
rep
wt
(kg
)
weight
D=1 D=0
2本のグラフが平行
2本のグラフが平行ではない
Rでの表現形
主効果 (Additive)
A + B + ... + N
交互作用 (Multiplicative)
A + B + A*B + ...
A:B (結果での表記など)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会38
Rで実践!
参考 : Fox (1997)
dataset : Davis
carライブラリに収載
習慣的に運動をしている男女の身体測定及びその自己申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会39
独立変数
従属変数
Rで実践!
手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR4 <- lm(repwt ~ sex + weight + sex*weight,
data = Davis)
3. 結果を出力する
> summary(MR4)
4. プロットする> plot(effect(“weight:sex”, MR4, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会40
結果を比較してみる
ダミーなしとダミーありの結果は等しい
単回帰と比較すると、R2が0.08ほど上昇
単回帰と比較すると、Weightの係数が低下
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会43
Interaction Additive 単回帰
β_Intercept 41.323 23.520 15.759
β_weight 0.264 0.570 0.753
β_sex -39.964 9.751
β_sex*weight 0.725
R2 0.887 0.782 0.698
数学的なお話
重回帰分析
Y = β0 + βiXi + γDi + δ(XiDi) + εi
D=0のとき
Y = β0 + β1X1 + εi
D=1のとき
Y = (β0 + γ) + (β1 + δ)X1 + εi
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会44
Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数Di : ダミー変数γ : ダミー変数の係数δ : 交互作用項の係数ε : 残差
rep
wt
(kg
)
weight
D=1 D=0
数学的なお話
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会45
1
β1+δ
1
β1
β0 + γ
β0
3水準以上のカテゴリーデータについて
(水準数-1) 個のダミーデータを作成
何故、(水準数) 個のダミーデータを作らない?
Baseline : Y = β0 + β1X1 + εi
Additive : Y = (β0 + γ) + β1X1 + εi
Multiplicative : Y = (β0 + γ) + (β1 + δ)X1 + εi
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会46
カテゴリー D1 D2
Intervention 1 0
Positive Control 0 1
Negative Control 0 0
連続データ同士の交互作用
独立変数X1と、その交互作用X1*X2とは、相関が高くなりやすい
⇒多重共線性が生じやすい
dataset : Davis
sex 性別 (F: female, M: male)
weight計測された体重 (kg)
height 計測された身長 (cm)
repwt 自己申告された体重 (kg)
repht 自己申告された身長 (cm)
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会47
独立変数
従属変数
連続データ同士の交互作用
高い確率で多重共線性が生じるため、注意が必要
多重共線性回避のための手段
中心化 ←最近では否定されつつある
変数を絞る ←モデルやプロトコルとの相談
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会50
目次
重回帰分析とは
二値データを用いた重回帰
二値データとの交互作用項を持つ重回帰
引用文献・推奨文献
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会51
今回使ったパッケージ
car
データセットDavis
DAAG
多重共線性の検証
関数 : vif
effects
交互作用データのプロット
plot(effect(...))
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会52
引用文献・参考文献
Dalal DK and Zickar MJ : Some common myths about
centering predictor variables in moderated multiple
regression and polynomial regression. Organiz Res
Methods 2012 ; 15 : 339-362.
Fox J : Effect Displays in R for Generalised Linear
Models. J Stat Soft 2003 ; 8 : 1-18.
Gromping U : Relative importance fro linear regression
in R : The package relaimpo. J Stat Soft 2006 ; 17 : 1-
27
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会54
参考図書
Fox J : Dummy-variable Regression. in Fox J : Applied
regression analysis and generalized models. Willey,
2008.
Kelley K and Maxwell S E. Multiple regression. in G. R.
Hancock & R. O. Mueller (Eds.), The reviewer's guide to
quantitative methods in the social sciences (pp. 281-
298). New York: Routledge.
Concato J, Feinstein AR, Holford TR : Predicting values
from one or more variable. in Lang TA, Secic M (Eds.),
How to Report Statistics in Medicine. 85-101, ACP
Press 2006.
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会55
参考図書
大橋靖雄 2013 : わかりやすい医学統計の報告-医学論文作成のためのガイドライン (第2版)
安藤正人 2011 : マルチレベル分析入門
General LM (ANOVA, MR, et al)
⇒ Generalized LM
⇒ Generalized LMM
より高次の解析法への橋渡しとして
舟尾暢男 2009 : The R Tips
2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会56