64
1 パパパパパパパパパパパパパパパパパ パパパパパパパパパパパパパ パパ パパ パパパパパパパパパパパパ パパ パパ パパパパパパパパパパパパ パパ パパパパパ パパパ パパパパ () 6 10 パ 2 パ パパ () 15:50 17:50 パパ 3

パソコンを用いた統計解析テクニック

Embed Size (px)

DESCRIPTION

パソコンを用いた統計解析テクニック. 弘前大学大学院保健学研究科 対馬 栄輝 鳴海研究所清明会鳴海病院   石田 水里 新潟県立リウマチセンター    水澤 一樹 テクニカル(実技)セミナー 6 10 月 2 日(金) 15:50 ~ 17:50  会場 3. セミナーの流れ. 差の検定と効果量の計算 分散分析 相関・回帰. R 起動後. 2 つの画面が起動する. コマンドプロンプト. R Console 画面. R コマンダー画面. 例題:立位体前屈データ .xls. N=36 で,立位体前屈と,それに影響すると思われる変数を評価したデータ - PowerPoint PPT Presentation

Citation preview

Page 1: パソコンを用いた統計解析テクニック

1

パソコンを用いた統計解析テクニック

弘前大学大学院保健学研究科 対馬 栄輝鳴海研究所清明会鳴海病院   石田 水里

新潟県立リウマチセンター    水澤 一樹

テクニカル(実技)セミナー 6  10 月 2 日(金) 15:50 ~ 17:50  会場 3

Page 2: パソコンを用いた統計解析テクニック

2

セミナーの流れ

• 差の検定と効果量の計算

• 分散分析

• 相関・回帰

Page 3: パソコンを用いた統計解析テクニック

3

R 起動後

R Console 画面 R コマンダー画面

• 2 つの画面が起動する

コマンドプロンプト

Page 4: パソコンを用いた統計解析テクニック

4

例題:立位体前屈データ .xls

• N=36 で,立位体前屈と,それに影響すると思われる変数を評価したデータ

• 立位体前屈が正規分布に従うか確認する

Page 5: パソコンを用いた統計解析テクニック

5

エクセルから R へデータを読み込む

Page 6: パソコンを用いた統計解析テクニック

6

エクセルデータの準備

余分な情報

削除する

最上行 1 行目に変数名を入れるデータは数字以外は入れないデータ以外の余計な値は削除しておく

Page 7: パソコンを用いた統計解析テクニック

7

エクセルから R コマンダーへ

④R 上でのデータ名を決めるここでは,エクセルと同じ名前

⑤OK をクリック

Page 8: パソコンを用いた統計解析テクニック

8

エクセルデータを指定

• 指定後は  [ 開く ]  をクリック

Page 9: パソコンを用いた統計解析テクニック

9

R へのデータ読み込み

データセットの編集ボタンで取り込んだデータを表示出来る

Page 10: パソコンを用いた統計解析テクニック

10

カテゴリーデータへの変更

カテゴリーデータは因子変数へ変更しておく必要がある

Page 11: パソコンを用いた統計解析テクニック

11

カテゴリーデータを因子変数へ変換

Page 12: パソコンを用いた統計解析テクニック

12

因子変数への変更• 性別は 0-1 型の群分けデータ• 性別(①)を選び, [ 因子水準 ] は [ 数値で ]

(②)にチェック,最後に [OK] ボタン(③)

① ②

Page 13: パソコンを用いた統計解析テクニック

13

警告

• この警告は無視して, YES をクリック

Page 14: パソコンを用いた統計解析テクニック

14

統計的検定のための重要事項① データ尺度

名義尺度,順序尺度,間隔尺度,比率尺度② 分布の判断

正規分布か,それ以外か

• 有効な特性値を決める代表値(平均,中央値)散布度(標準偏差 [ 分散 ] )

Page 15: パソコンを用いた統計解析テクニック

15

特性値の使い分け

正規分布する しない

名義尺度 分布不明:最頻値順序尺度 分布不明なので,

比・間隔尺度平均SD

中央値四分位範囲

Page 16: パソコンを用いた統計解析テクニック

16

正規分布の判定

• 以前はヒストグラムを見て判断していた

• シャピロ・ウイルク検定 データが正規分布するか否かを検定 p 0.05≧ で「正規分布に従わないとはいえな

い」=「正規分布する」と判断

正規分布? 正規分布ではない

Page 17: パソコンを用いた統計解析テクニック

17

正規分布の確認• 立位体前屈のヒス

トグラムを描く①

Page 18: パソコンを用いた統計解析テクニック

18

シャピロウイルク検定①

• 立位体前屈データ .xls (あらかじめ R に読み込む)• 立位体前屈の変数が正規分布するかを検定

Page 19: パソコンを用いた統計解析テクニック

19

シャピロウイルク検定②

• 立位体前屈をクリックし(①), OK をクリック(②)

Page 20: パソコンを用いた統計解析テクニック

20

シャピロウイルク検定③

• ここが p≧0.05 であれば,正規分布に従う,と判断• この例は p=0.6755 なので,正規分布に従うと判断

Page 21: パソコンを用いた統計解析テクニック

21

群別のシャピロウイルク検定①• 例えば, SLR のカ

テゴリー( SLRcat )別に立位体前屈のシャピロ・ウイルク検定をしたい

Page 22: パソコンを用いた統計解析テクニック

22

群別のシャピロウイルク検定②

②③

Page 23: パソコンを用いた統計解析テクニック

23

群別のシャピロウイルク検定③

①②

Page 24: パソコンを用いた統計解析テクニック

24

群別のシャピロウイルク検定④

シャピロウイルク検定の結果

Page 25: パソコンを用いた統計解析テクニック

25

対応のある標本の差の検定

  対応のある t 検定      Wilcoxon の順位和検定  (パラメトリック法)     (ノンパラメトリック法)  対応のある t 検定      Wilcoxon の順位和検定  (パラメトリック法)     (ノンパラメトリック法)

平均の差を比較    中央値の差を比較平均の差を比較    中央値の差を比較

Page 26: パソコンを用いた統計解析テクニック

26

対応のある標本の差の検定の選択

平均に意味があり,かつ正規分布に従うか?( Shapiro-Wilk 検定)

Yes No

対応のある t 検定 Wilcoxon の順位和検定

Page 27: パソコンを用いた統計解析テクニック

27

自動で差の検定を選択するメニュー

• 付加メニューを使用すれば,簡単にできる

Page 28: パソコンを用いた統計解析テクニック

28

対応のある差の検定①

Page 29: パソコンを用いた統計解析テクニック

29

対応のある差の検定②

• 比較したい変数 2 つを選んで(①②), [OK] (③)

①②

Page 30: パソコンを用いた統計解析テクニック

30

対応のある差の検定③

• シャピロウイルク検定を行って,有意でなければ

• 対応のある t 検定,有意なときはウィルコクソンの検定を出力する

• 効果量(エフェクトサイズ)も算出する

Page 31: パソコンを用いた統計解析テクニック

31

対応のある差の検定の注意点

• パラメトリック・ノンパラメトリックの区別をきちんと行う

Page 32: パソコンを用いた統計解析テクニック

32

2 標本の差の検定

     2 標本 t 検定       Mann-Whitney の検定

  (パラメトリック法)     (ノンパラメトリック法)

     2 標本 t 検定       Mann-Whitney の検定

  (パラメトリック法)     (ノンパラメトリック法)

平均の差を比較    中央値の差を比較平均の差を比較    中央値の差を比較

Page 33: パソコンを用いた統計解析テクニック

33

2 標本の差の検定の選択平均に意味があり,かつ正規分布に従うか?

( Shapiro-Wilk 検定)

Yes No

2 標本 t 検定

Mann-Whitney の検定

Welch の方法による2 標本 t 検定

2 標本は等分散か?(ルビーンの検定)

p 0.05≧ p<0.05

Page 34: パソコンを用いた統計解析テクニック

34

2 標本の差の検定①

Page 35: パソコンを用いた統計解析テクニック

35

2 標本の差の検定②

• 群分けのデータ(①)と,差を見たい変数(②)を選んで [OK] (③)

① ②

Page 36: パソコンを用いた統計解析テクニック

36

2 標本の差の検定③

• 群ごとにシャピロウイルク検定を行う データの数値( 0 , 1 )

のラベルが付く• ルビーンの検定結果• 2 標本 t 検定,ウェルチ

の検定とマンホイットニー検定が自動で選択される

• 効果量も出力

Page 37: パソコンを用いた統計解析テクニック

37

2 標本の差の検定の注意点

•パラメトリック・ノンパラメトリックの区別

2 標本の分散が異なるときは Welch 検定を使うLevene 検定(または F 検定)で確認(次のスライド)

2 群の対象数 n が,大きく違わないようにするできれば 1:2 以内に

Page 38: パソコンを用いた統計解析テクニック

38

注意①分散は等しくなければならない

• 合併分散推定値が狂う• 事前に等分散検定: Levene 検定, F 検定

有意差なし( p 0.05≧ )→ 2 標本 t 検定有意差あり( p<0.05 )→ Welch の検定

Page 39: パソコンを用いた統計解析テクニック

39

注意②例数の大きさの違いも影響

• 2 標本の大きさが大きく異なってはならない 1 : 2 ~ 1 : 3 以下が望ましいといわれるが… やや差が出難くなる程度( 5%の検定で ±1%程度)

n=5 n=100

×比較

Page 40: パソコンを用いた統計解析テクニック

40

インフルエンザの効果(里見ら, 1989 )

2 回接種 非接種対象者数 5,115 9,038

平均欠席日数 0.704 0.883

標準誤差 0.024 0.019

95%信頼区間0.656 0.846

0.751 0.920

t 検定: t 値= 5.73 ; p < 0.00000001Wilcoxon 検定: z 値= 5.76 ; p < 0.00000001t 検定: t 値= 5.73 ; p < 0.00000001Wilcoxon 検定: z 値= 5.76 ; p < 0.00000001

この差は意味があるか?この差は意味があるか?

Page 41: パソコンを用いた統計解析テクニック

41

P 値の意味• 統計的有意の判定基準として使われる

歩行不可N=19

歩行可N=35

60

70

80

90[歳 ]

** p<0.01

82.7±5.4歳

75.5±8.6歳 p<0.01 で有意差があるp<0.01 で有意差がある

有意とは何か?0.01 とは何か?

Page 42: パソコンを用いた統計解析テクニック

42

P 値の意味:差の検定の場合

• 「平均に差がない」と仮定して,「差がある」と間違って判断する確率

• 差がない可能性が 1%や 5%のように小さい=差があると考えた方が妥当,という意味

• 「差がある・ない」の何れかを推定する指標差の程度を表すものではない

Page 43: パソコンを用いた統計解析テクニック

43

有意な差とは?差= 0 が否定されただけ

• 差とは差が 0 でなければいくら小さくても良い

• バラツキが小さいほど,小さな差でも検出可能

• 差とは差が 0 でなければいくら小さくても良い

• バラツキが小さいほど,小さな差でも検出可能

差が小さくても有意差が小さくても有意 差が大きくても有意差が大きくても有意

Page 44: パソコンを用いた統計解析テクニック

44

わずかな差でも有意差が出る

• nが大きくなると,ほとんどは有意差がでる• 有意差がある時は,差の程度を考える

歩行不可 歩行可20

40

60

80

歩行不可 歩行可20

40

60

80p=0.732 p=0.048[ 日数 ]

n=19    n=34       n=608 n=1,088

52.9     54.7 52.9     54.7

Page 45: パソコンを用いた統計解析テクニック

45

差の程度を求める:効果量

• 先ほどの 2 標本 t 検定の結果を使う• ファイルは effectsize.xls を使用

Page 46: パソコンを用いた統計解析テクニック

46

シート  t 検定( r ,d , Δ ) を選択

Page 47: パソコンを用いた統計解析テクニック

47

effectsize.xls による効果量の計算

この部分に各群の人数,平均, SDを入力する

判定結果が出る

Page 48: パソコンを用いた統計解析テクニック

48

効果量 effect size の目安• t 検定(対応のある場合も 2 標本も同じ): Cohen の

d なし< 0.2<小< 0.5<中< 0.8<大

• ノンパラの差の検定(対応のある場合も 2 標本も同じ) : r なし< 0.1<小< 0.3<中< 0.5<大

• 相関:相関係数 r が効果量 なし< 0.1<小< 0.3<中< 0.5<大

• χ2 検定: φ係数,クラメールの V なし< 0.1<小< 0.3<中< 0.5<大

• (重)回帰分析:重相関係数 R2

なし< 0.2<小< 0.13<中< 0.26<大• 分散分析: η2

なし< 0.01<小< 0.06<中< 0.14<大(参考:水本 篤ほか, 2008 )

Page 49: パソコンを用いた統計解析テクニック

49

1元配置分散分析( ANOVA )• 1 つの要因( 3 群 [ 水準 ] 以上)で,差があ

るか

事務職  医療職  教育職事務職  医療職  教育職要因全体として,差があるかを検定ノンパラメトリック法: Kraskal-Wallis 検定

要因全体として,差があるかを検定ノンパラメトリック法: Kraskal-Wallis 検定

Page 50: パソコンを用いた統計解析テクニック

50

1元配置分散分析の手順平均が使えて,かつ正規分布に従うデータか?

ANOVA Kraskal-Wallis 検定

多重比較法Tukey 法

差なし

P<0.05

Yes No

P<0.05

多重比較法Steel-Dwass 法

P 0.05≧

Page 51: パソコンを用いた統計解析テクニック

51

3 つ以上の変数の差の検定①• SLRcat による体前屈の差

スライド 40 の手順を自動で選択してくれる

Page 52: パソコンを用いた統計解析テクニック

52

3 つ以上の変数の差の検定②

• 群分けのデータ(①)と,差を見たい変数(②)を選んで [OK] (③)

①②

Page 53: パソコンを用いた統計解析テクニック

53

3 つ以上の変数の差の検定③

• 群ごとにシャピロウイルク検定を行う データ数値ラベルが付く

• 分散分析またはクラスカルワリス検定が自動選択される

• Tukey 法または SteelDwass法が自動出力される

Page 54: パソコンを用いた統計解析テクニック

54

2元配置分散分析• 2 つの要因( 3 群と地域)につき, 3 標本以

上の差

若年群      壮年群      高齢群若年群      壮年群      高齢群

A村B町 C市

ノンパラメトリック法:無いノンパラメトリック法:無い

Page 55: パソコンを用いた統計解析テクニック

55

2元配置分散分析の手順平均が使えて,かつ正規分布に従うデータか?

ANOVA

多重比較法Tukey 法

差なし

P<0.05

Yes

No

多重比較法Steel-Dwass 法

P 0.05≧

Page 56: パソコンを用いた統計解析テクニック

56

2元配置分散分析①• 立位体前屈データ .xls (あらかじめ R に読み込む)• SLRcat ,性別による体前屈の差を検定する

SLRcat と性別を因子変数へ変換しておく

Page 57: パソコンを用いた統計解析テクニック

57

2元配置分散分析②

①shift を押しながら複数選択

Page 58: パソコンを用いた統計解析テクニック

58

2元配置分散分析③

• SLR ( p<0.01 )と性別( p<0.05 )に有意な差がある• 交互作用は有意ではない

SLR の確率性別の確率交互作用の確率

Page 59: パソコンを用いた統計解析テクニック

59

反復測定による分散分析• 1 標本に対して, 3 変数以上の差を

見る

1週間後  2週間後  3週間後1週間後  2週間後  3週間後

ノンパラメトリック法: Friedman 検定ノンパラメトリック法: Friedman 検定

Page 60: パソコンを用いた統計解析テクニック

60

反復測定による分散分析の手順平均が使えて,かつ正規分布に従うデータか?

反復測定による分散分析 ノンパラメトリック検定Friedman 検定

多重比較法対応のある t 検定※(ボンフェローニの修

正)

差なし

P<0.05 P 0.05≧

従う 従わない

P<0.05

多重比較法Wilcoxon 検定※

(ボンフェローニの修正)

※ 検定で出力された p 値に a× ( a-1 ) ÷2 を乗じて判断   a= 水準数

Page 61: パソコンを用いた統計解析テクニック

61

反復測定による分散分析①• 体前屈 1 回目, 2 回目, 3 回目の差を知りたい

Page 62: パソコンを用いた統計解析テクニック

62

反復測定による分散分析②

• 比較したい変数を, Ctrlキーを押しながらクリックで,複数指定する

Page 63: パソコンを用いた統計解析テクニック

63

反復測定による分散分析③

① シャピロウイルクの結果(上に出力されるスクリプトウインドウ内の記載順)

② 分散分析の結果.シャピロウイルクの結果によってはフリードマン検定を出力

③ 分散分析の時は,対応のある t 検定(ボンフェローニ修正). フリードマン検定の時は,ウィルコクソンの検定(ボンフェローニ修正)の結果が出力される.有意差がないときは出力されない.

Page 64: パソコンを用いた統計解析テクニック

64

多重比較法

• 反復測定の場合は, Tukey , Steel-Dwass の関数は使えない R の問題

• 対応のある t 検定,ウィルコクソン検定を行って,ボンフェローニの修正を行う 検定で出力された p 値に a× ( a-1 ) ÷2 を乗

じて判断する( a= 水準数) R では自動で出力される