Upload
holmes-adkins
View
154
Download
0
Embed Size (px)
DESCRIPTION
パソコンを用いた統計解析テクニック. 弘前大学大学院保健学研究科 対馬 栄輝 鳴海研究所清明会鳴海病院 石田 水里 新潟県立リウマチセンター 水澤 一樹 テクニカル(実技)セミナー 6 10 月 2 日(金) 15:50 ~ 17:50 会場 3. セミナーの流れ. 差の検定と効果量の計算 分散分析 相関・回帰. R 起動後. 2 つの画面が起動する. コマンドプロンプト. R Console 画面. R コマンダー画面. 例題:立位体前屈データ .xls. N=36 で,立位体前屈と,それに影響すると思われる変数を評価したデータ - PowerPoint PPT Presentation
Citation preview
1
パソコンを用いた統計解析テクニック
弘前大学大学院保健学研究科 対馬 栄輝鳴海研究所清明会鳴海病院 石田 水里
新潟県立リウマチセンター 水澤 一樹
テクニカル(実技)セミナー 6 10 月 2 日(金) 15:50 ~ 17:50 会場 3
2
セミナーの流れ
• 差の検定と効果量の計算
• 分散分析
• 相関・回帰
3
R 起動後
R Console 画面 R コマンダー画面
• 2 つの画面が起動する
コマンドプロンプト
4
例題:立位体前屈データ .xls
• N=36 で,立位体前屈と,それに影響すると思われる変数を評価したデータ
• 立位体前屈が正規分布に従うか確認する
5
エクセルから R へデータを読み込む
6
エクセルデータの準備
余分な情報
削除する
最上行 1 行目に変数名を入れるデータは数字以外は入れないデータ以外の余計な値は削除しておく
7
エクセルから R コマンダーへ
④R 上でのデータ名を決めるここでは,エクセルと同じ名前
①
②
③
⑤OK をクリック
8
エクセルデータを指定
• 指定後は [ 開く ] をクリック
9
R へのデータ読み込み
データセットの編集ボタンで取り込んだデータを表示出来る
10
カテゴリーデータへの変更
カテゴリーデータは因子変数へ変更しておく必要がある
11
カテゴリーデータを因子変数へ変換
①
②
③
12
因子変数への変更• 性別は 0-1 型の群分けデータ• 性別(①)を選び, [ 因子水準 ] は [ 数値で ]
(②)にチェック,最後に [OK] ボタン(③)
① ②
③
13
警告
• この警告は無視して, YES をクリック
14
統計的検定のための重要事項① データ尺度
名義尺度,順序尺度,間隔尺度,比率尺度② 分布の判断
正規分布か,それ以外か
• 有効な特性値を決める代表値(平均,中央値)散布度(標準偏差 [ 分散 ] )
15
特性値の使い分け
正規分布する しない
名義尺度 分布不明:最頻値順序尺度 分布不明なので,
比・間隔尺度平均SD
中央値四分位範囲
16
正規分布の判定
• 以前はヒストグラムを見て判断していた
• シャピロ・ウイルク検定 データが正規分布するか否かを検定 p 0.05≧ で「正規分布に従わないとはいえな
い」=「正規分布する」と判断
正規分布? 正規分布ではない
17
正規分布の確認• 立位体前屈のヒス
トグラムを描く①
②
③
④
18
シャピロウイルク検定①
①
②
③
• 立位体前屈データ .xls (あらかじめ R に読み込む)• 立位体前屈の変数が正規分布するかを検定
19
シャピロウイルク検定②
• 立位体前屈をクリックし(①), OK をクリック(②)
①
②
20
シャピロウイルク検定③
• ここが p≧0.05 であれば,正規分布に従う,と判断• この例は p=0.6755 なので,正規分布に従うと判断
21
群別のシャピロウイルク検定①• 例えば, SLR のカ
テゴリー( SLRcat )別に立位体前屈のシャピロ・ウイルク検定をしたい
22
群別のシャピロウイルク検定②
①
②③
23
群別のシャピロウイルク検定③
①②
③
24
群別のシャピロウイルク検定④
シャピロウイルク検定の結果
25
対応のある標本の差の検定
対応のある t 検定 Wilcoxon の順位和検定 (パラメトリック法) (ノンパラメトリック法) 対応のある t 検定 Wilcoxon の順位和検定 (パラメトリック法) (ノンパラメトリック法)
平均の差を比較 中央値の差を比較平均の差を比較 中央値の差を比較
26
対応のある標本の差の検定の選択
平均に意味があり,かつ正規分布に従うか?( Shapiro-Wilk 検定)
Yes No
対応のある t 検定 Wilcoxon の順位和検定
27
自動で差の検定を選択するメニュー
• 付加メニューを使用すれば,簡単にできる
28
対応のある差の検定①
29
対応のある差の検定②
• 比較したい変数 2 つを選んで(①②), [OK] (③)
①②
③
30
対応のある差の検定③
• シャピロウイルク検定を行って,有意でなければ
• 対応のある t 検定,有意なときはウィルコクソンの検定を出力する
• 効果量(エフェクトサイズ)も算出する
31
対応のある差の検定の注意点
• パラメトリック・ノンパラメトリックの区別をきちんと行う
32
2 標本の差の検定
2 標本 t 検定 Mann-Whitney の検定
(パラメトリック法) (ノンパラメトリック法)
2 標本 t 検定 Mann-Whitney の検定
(パラメトリック法) (ノンパラメトリック法)
平均の差を比較 中央値の差を比較平均の差を比較 中央値の差を比較
33
2 標本の差の検定の選択平均に意味があり,かつ正規分布に従うか?
( Shapiro-Wilk 検定)
Yes No
2 標本 t 検定
Mann-Whitney の検定
Welch の方法による2 標本 t 検定
2 標本は等分散か?(ルビーンの検定)
p 0.05≧ p<0.05
34
2 標本の差の検定①
35
2 標本の差の検定②
• 群分けのデータ(①)と,差を見たい変数(②)を選んで [OK] (③)
① ②
③
36
2 標本の差の検定③
• 群ごとにシャピロウイルク検定を行う データの数値( 0 , 1 )
のラベルが付く• ルビーンの検定結果• 2 標本 t 検定,ウェルチ
の検定とマンホイットニー検定が自動で選択される
• 効果量も出力
37
2 標本の差の検定の注意点
•パラメトリック・ノンパラメトリックの区別
2 標本の分散が異なるときは Welch 検定を使うLevene 検定(または F 検定)で確認(次のスライド)
2 群の対象数 n が,大きく違わないようにするできれば 1:2 以内に
38
注意①分散は等しくなければならない
• 合併分散推定値が狂う• 事前に等分散検定: Levene 検定, F 検定
有意差なし( p 0.05≧ )→ 2 標本 t 検定有意差あり( p<0.05 )→ Welch の検定
39
注意②例数の大きさの違いも影響
• 2 標本の大きさが大きく異なってはならない 1 : 2 ~ 1 : 3 以下が望ましいといわれるが… やや差が出難くなる程度( 5%の検定で ±1%程度)
n=5 n=100
×比較
40
インフルエンザの効果(里見ら, 1989 )
2 回接種 非接種対象者数 5,115 9,038
平均欠席日数 0.704 0.883
標準誤差 0.024 0.019
95%信頼区間0.656 0.846
0.751 0.920
t 検定: t 値= 5.73 ; p < 0.00000001Wilcoxon 検定: z 値= 5.76 ; p < 0.00000001t 検定: t 値= 5.73 ; p < 0.00000001Wilcoxon 検定: z 値= 5.76 ; p < 0.00000001
この差は意味があるか?この差は意味があるか?
41
P 値の意味• 統計的有意の判定基準として使われる
歩行不可N=19
歩行可N=35
60
70
80
90[歳 ]
** p<0.01
82.7±5.4歳
75.5±8.6歳 p<0.01 で有意差があるp<0.01 で有意差がある
有意とは何か?0.01 とは何か?
42
P 値の意味:差の検定の場合
• 「平均に差がない」と仮定して,「差がある」と間違って判断する確率
• 差がない可能性が 1%や 5%のように小さい=差があると考えた方が妥当,という意味
• 「差がある・ない」の何れかを推定する指標差の程度を表すものではない
43
有意な差とは?差= 0 が否定されただけ
• 差とは差が 0 でなければいくら小さくても良い
• バラツキが小さいほど,小さな差でも検出可能
• 差とは差が 0 でなければいくら小さくても良い
• バラツキが小さいほど,小さな差でも検出可能
差が小さくても有意差が小さくても有意 差が大きくても有意差が大きくても有意
44
わずかな差でも有意差が出る
• nが大きくなると,ほとんどは有意差がでる• 有意差がある時は,差の程度を考える
歩行不可 歩行可20
40
60
80
歩行不可 歩行可20
40
60
80p=0.732 p=0.048[ 日数 ]
n=19 n=34 n=608 n=1,088
52.9 54.7 52.9 54.7
45
差の程度を求める:効果量
• 先ほどの 2 標本 t 検定の結果を使う• ファイルは effectsize.xls を使用
46
シート t 検定( r ,d , Δ ) を選択
47
effectsize.xls による効果量の計算
この部分に各群の人数,平均, SDを入力する
判定結果が出る
48
効果量 effect size の目安• t 検定(対応のある場合も 2 標本も同じ): Cohen の
d なし< 0.2<小< 0.5<中< 0.8<大
• ノンパラの差の検定(対応のある場合も 2 標本も同じ) : r なし< 0.1<小< 0.3<中< 0.5<大
• 相関:相関係数 r が効果量 なし< 0.1<小< 0.3<中< 0.5<大
• χ2 検定: φ係数,クラメールの V なし< 0.1<小< 0.3<中< 0.5<大
• (重)回帰分析:重相関係数 R2
なし< 0.2<小< 0.13<中< 0.26<大• 分散分析: η2
なし< 0.01<小< 0.06<中< 0.14<大(参考:水本 篤ほか, 2008 )
49
1元配置分散分析( ANOVA )• 1 つの要因( 3 群 [ 水準 ] 以上)で,差があ
るか
事務職 医療職 教育職事務職 医療職 教育職要因全体として,差があるかを検定ノンパラメトリック法: Kraskal-Wallis 検定
要因全体として,差があるかを検定ノンパラメトリック法: Kraskal-Wallis 検定
50
1元配置分散分析の手順平均が使えて,かつ正規分布に従うデータか?
ANOVA Kraskal-Wallis 検定
多重比較法Tukey 法
差なし
P<0.05
Yes No
P<0.05
多重比較法Steel-Dwass 法
P 0.05≧
51
3 つ以上の変数の差の検定①• SLRcat による体前屈の差
スライド 40 の手順を自動で選択してくれる
52
3 つ以上の変数の差の検定②
• 群分けのデータ(①)と,差を見たい変数(②)を選んで [OK] (③)
①②
③
53
3 つ以上の変数の差の検定③
• 群ごとにシャピロウイルク検定を行う データ数値ラベルが付く
• 分散分析またはクラスカルワリス検定が自動選択される
• Tukey 法または SteelDwass法が自動出力される
54
2元配置分散分析• 2 つの要因( 3 群と地域)につき, 3 標本以
上の差
若年群 壮年群 高齢群若年群 壮年群 高齢群
A村B町 C市
ノンパラメトリック法:無いノンパラメトリック法:無い
55
2元配置分散分析の手順平均が使えて,かつ正規分布に従うデータか?
ANOVA
多重比較法Tukey 法
差なし
P<0.05
Yes
No
多重比較法Steel-Dwass 法
P 0.05≧
56
2元配置分散分析①• 立位体前屈データ .xls (あらかじめ R に読み込む)• SLRcat ,性別による体前屈の差を検定する
SLRcat と性別を因子変数へ変換しておく
①
②
③
57
2元配置分散分析②
①shift を押しながら複数選択
②
③
58
2元配置分散分析③
• SLR ( p<0.01 )と性別( p<0.05 )に有意な差がある• 交互作用は有意ではない
SLR の確率性別の確率交互作用の確率
59
反復測定による分散分析• 1 標本に対して, 3 変数以上の差を
見る
1週間後 2週間後 3週間後1週間後 2週間後 3週間後
ノンパラメトリック法: Friedman 検定ノンパラメトリック法: Friedman 検定
60
反復測定による分散分析の手順平均が使えて,かつ正規分布に従うデータか?
反復測定による分散分析 ノンパラメトリック検定Friedman 検定
多重比較法対応のある t 検定※(ボンフェローニの修
正)
差なし
P<0.05 P 0.05≧
従う 従わない
P<0.05
多重比較法Wilcoxon 検定※
(ボンフェローニの修正)
※ 検定で出力された p 値に a× ( a-1 ) ÷2 を乗じて判断 a= 水準数
61
反復測定による分散分析①• 体前屈 1 回目, 2 回目, 3 回目の差を知りたい
①
②
③
62
反復測定による分散分析②
• 比較したい変数を, Ctrlキーを押しながらクリックで,複数指定する
63
反復測定による分散分析③
① シャピロウイルクの結果(上に出力されるスクリプトウインドウ内の記載順)
② 分散分析の結果.シャピロウイルクの結果によってはフリードマン検定を出力
③ 分散分析の時は,対応のある t 検定(ボンフェローニ修正). フリードマン検定の時は,ウィルコクソンの検定(ボンフェローニ修正)の結果が出力される.有意差がないときは出力されない.
64
多重比較法
• 反復測定の場合は, Tukey , Steel-Dwass の関数は使えない R の問題
• 対応のある t 検定,ウィルコクソン検定を行って,ボンフェローニの修正を行う 検定で出力された p 値に a× ( a-1 ) ÷2 を乗
じて判断する( a= 水準数) R では自動で出力される