36
統計処理の基本 1. データとブラウジング 2. 平均の差の検定 3. 相関と回帰 4. その他の重要な知識

2. 平均の差の検定 - naramed-u.ac.jpiryojoh2/tokei1.pdf · Box-Cox変換 ′=( −1) ... データ全体を複数の群に分けた時に、群分けによる変動が、それ以外の誤差による

Embed Size (px)

Citation preview

統計処理の基本

1. データとブラウジング

2. 平均の差の検定

3. 相関と回帰

4. その他の重要な知識

1. データとブラウジング

有効数字について

表現方法例えば,1200mg/Lで,00が有効数字でないのなら、1.2g/Lと表現する。

(一般に,有効数字×103n の指数形式が適切)

計算加減 結果を絶対値の大きい方の有効桁数に合わせる

例)最大有効桁位が小数点下第1位の場合

5.2 + 0.3471 = 5.2 + 0.35 (小数点第2位まで丸めて計算)

5.55 → 5.6 (結果を小数点第1位に丸める)

乗除 結果を有効桁の少ない方に合わせる例)最小有効桁数が2桁の場合

5.2 × 0.3471 = 5.2 × 0.347 (有効桁数s3まで丸めて計算)

1.8044 → 1.8 (結果を有効桁数2に丸める)

数値と誤差

自然現象を測定した数値にはすべて誤差がある。したがって、すべて統計的に評価する必要がある。

正規分布(平均と分散で形が決まる)モデルを使用 𝑓 𝑥 =1

2𝜋𝜎2𝑒−

𝑥−𝜇 2

2𝜎2

* 平均値 𝜇はデータを全部足して例数で割ったもの

* 分散 𝜎2は偏差平方和(データと平均値の差の二乗の総計,Σ(𝑥𝑖 − 𝑥)2 =

𝑆𝑥𝑥)を例数で割ったもの(𝑆𝑥𝑥

𝑛)

* 分散の平方根をとると単位がデータと同じになり、データの分布を平均値からの距離(標準偏差,σ)で表現できる(平均± 標準偏差)

<標準偏差はその範囲に分布データの何%が含まれるかを示す±1σは約68%、 ±2σは約95%>

* 平均値の分散 はデータの分散を例数で割ったもの(𝜎2

𝑛)

* 平均値の分散の平方根をとると単位が同じになり、平均値の分布を平均値からの距離(標準誤差,𝑆𝐸)で表現できる

正規分布では、分布の95%を含む区間は、 σの±1.96倍

しかし、実際の測定は標本に対して行われるので、誤差(偏り)のある標本平均値 𝑥を用いて分散を計算することになる

したがって、分散の推定値には、平均値の誤差分を加えなければならない 。

𝜎2 =𝑆𝑥𝑥

𝑛+

𝜎2

𝑛=

𝑆𝑥𝑥

𝑛−1(不偏分散)

分散の式が異なるので、正規分布ではなく、自由度(𝑛 − 𝑝、 𝑝 は誤差をもつパラメーターの数になる)によって変化する t 分布となる( 95%を含む区間が異なる)。

例えば、自由度60の時、約±2.00倍となる(t値)

信頼区間

誤差を含めた数値の評価 → 数値の信頼区間を求める

測定法の性能指標 CV(変動係数:coefficient of variance)を使う

CV =𝑆𝐷

data

測定値100のCVが5%(0.05)の場合、𝑆𝐷 = CV × data = 0.05 × 100 = 52𝑆𝐷が10となるので約95%の信頼区間(data ± 2𝑆𝐷)は、90~110となる

例えば、臨床検査でよく使う項目のCVは、最近では1%以下であるが、免疫学的測定法の低値域ではCV 10%まで上がることがあるの要注意

測定値100が4重測定の平均値であれば、信頼区間は、 data ± 2𝑆𝐸 となる

ので、95~105となる( 𝑆𝐸 =𝑆𝐷

𝑛= 2.5)

データの集計

データの分類* 一意コード (ID・連番など、重複がない)* 一次データ (未編集の生データ)* 二次データ (変換や計算後の値)* 補足データ (単位やコメントなど)

変数のタイプ* 質的変数 (名義尺度,分類)* 量的変数 (連続量,離散量,順位数)

一次データでは,元の精度を保持すること(四捨五入、測定感度以下を0にする、などをしない)

欠損値の情報では理由を区別する(測定せず、検出されず、測定範囲外、無効値など)

統計処理前にはデータ浄化(エラーチェック,表現・単位の統一,データの圧縮,など)

一意コード 質的変数 量的変数 一次データ:TP, ALB, ZTT, CRP, WBC, St, Seg, Lym

二次データ:GLB, T.Neu, T.Lym

離散量:年齢

データのブラウジング:分布を見る

対数正規分布

正規分布

べき変換分布

正規分布を前提とした統計処理の場合、正規分布に適合可能な分布は前処理としてデータ変換を行う

Box-Cox変換

𝑥′ =(𝑥𝜆−1)

𝜆𝜆 ≠ 0

𝑥′ = 𝑙𝑜𝑔 𝑥 𝜆 = 0

データのブラウジング:箱ヒゲ図で見る

4分位偏差による表現

0

50

100

AST(U/L)

75%点

中央値

95%点など

5%点など

25%点

正規分布化(対数変換)

データの関連性のブラウジング:相関散布図

2. 平均の差の検定

プロローグ

そもそも2群の平均の差は明白(ある男女対抗の競技大会で,平均点の高いチームの勝ちにする,というような場合)

知りたいのは,普遍的な事実 - 母集団での差

(この競技における平均点は男女どちらが高いのか,という一般的な問題を解く場合)

「部分的な事実」を用いて、「普遍的な事実」を知るためには,確率論に基づく統計学を利用する。この場合、 「部分的な事実」は、母集団から無作為に取り出した標本であるとの前提(標本理論)が必要

さらに、標本は,比較したいもの以外の因子がすべてランダム化されているかマッチングされていることが前提

(例えば、若い男性と高齢の女性との間で性差は論じられない)

ランダム化<保証がない>よりはマッチングのほうが現実的?

平均の差の検定 – 方法の原理

標本の平均値間には差があるが,母集団でも差があるとは限らない(大小が逆かもしれない。そもそも分からない)

ので、確率的に「差がない」という可能性を否定することによって、逆に、観察されている差は一般化できると主張する

差がない可能性を完全に否定することはできないが、一定の基準(危険率)を設定して、それより小さい場合には,差があるということを受け入れ、それ以上では,差がないという可能性は捨てないでおこう(有意差なし)とします

危険率をどう決めるかは自由で、研究方法で明記すればいいが、多くの場合、5%以下とすれば受け入れられるでしょう(内容次第ですが)

注意すべきは、

「有意差なし」が、「差がない」ということではない!ということ

平均の差の検定 – 具体的な方法

平均値の差がその誤差の95%を含む区間よりも大きければ,5%未満の危険率で差があると判定

差の誤差は、それぞれの平均値の分散を加算し(𝑆𝐸𝐴2 + 𝑆𝐸𝐵

2)、その平方根をとって求める。

有意差=平均値の差が誤差の95%を含む区間(誤差の1.96倍)よりも大

有意差が成立する不等式 𝜇𝐴 − 𝜇𝐵 > 𝑆𝐸𝐴2 + 𝑆𝐸𝐵

2 × 1.96

標本を用いる場合は、誤差のある標本平均値 𝑥を2つ用いているので、自由度𝑛 − 2の t 分布となる。

有意差が成立する不等式 | 𝑥𝐴 − 𝑥𝐵| > 𝑆𝐸𝐴2 + 𝑆𝐸𝐵

2 × 𝑡

平均の差の検定 – 具体的な方法(つづき)

実際のt検定

対応なしで、母分散が等しい(分散比で判定 → これは怪しい)とき

不偏分散は𝑆𝑥𝑥𝐴

+𝑆𝑥𝑥𝐵

𝑛𝐴+𝑛𝐵−2

有意差の式は | 𝑥𝐴 − 𝑥𝐵| >

𝑆𝑥𝑥𝐴+𝑆𝑥𝑥𝐵

𝑛𝐴+𝑛𝐵−2

𝑛𝐴+

𝑆𝑥𝑥𝐴+𝑆𝑥𝑥𝐵

𝑛𝐴+𝑛𝐵−2

𝑛𝐵× 𝑡

自由度は 𝑛𝐴 + 𝑛𝐵 − 2

対応なしで、母分散が等しくない(不明の)とき(Welch法)

式は | 𝑥𝐴 − 𝑥𝐵| > 𝑆𝐸𝐴2 + 𝑆𝐸𝐵

2 × 𝑡

自由度を近似(𝑆𝐸𝐴

2+𝑆𝐸𝐵2)2

(𝑆𝐸𝐴2)2

𝑛𝐴−1+

(𝑆𝐸𝐵2)2

𝑛𝐵−1

(有効自由度)

対応のある場合、

式は | 𝑥(𝐴−𝐵)| > 𝑆𝐸(𝐴−𝐵)2 × 𝑡

自由度は 𝑛 − 1

平均の差の検定 - 解釈

分散𝑆𝑥𝑥

𝑛は例数が増えてもあまり変わらないが,平均値の分散

𝑆𝑥𝑥𝑛

𝑛は分散を

さらにnで割っているため、例数を増やしていけばどんどん減っていく

つまり、

例数を増やせば p値もどんどん小さくなっていく。

差がないという可能性もどんどん減っていく。

逆に例数が少なすぎても(偶然に)有意差は出やすくなる。

有意差が得られただけでは、単に「差がある」とは言えても、「意味のある差がある」とまでは言えていない。

したがって、「意味のある差がある」ことを言いたいのであれば、

* どの程度の差を「意味あるもの」と考えるのか

* そのためにはどれだけのサンプル数が適当なのか

ということを予め考えておくことが必要

平均の差の検定 – 有意かつ意味のある差

どの程度の差を意味あるもの(医学的な有意性)とするのかを決める

効果量 d = 意味ある平均の差 / 標準偏差の平均 を設定し、𝛼 = 0.05 (第一種過誤確率) 、𝛽 = 0.2(第二種過誤確率)<検出力 1 − 𝛽 = 0.8 >の時、適当なサンプル数は,

𝑛1 = (1 +𝑛1

𝑛2) ×

(𝛼2のときの𝑧値+ 𝛽のときの𝑧値)2

𝑑2

(𝑛2 ≥ 𝑛1,片側検定では𝛼

2→ 𝛼にする)

たとえばコレステロ−ル20mg/dLの差を意味あるものとし,標準偏差が30mg/dLと

50mg/dLの集団を同数用いる場合,𝑑 =20

40= 0.5,

𝑛1

𝑛2= 1

ここで,α = 0.05 の場合の例数は,n = (1 + 1) (1.96 + 0.84)2 / 0.52 = 2 7.84 / 0.25 = 62.7

したがって63人ずつがよいということになる→ この場合、有意差がなければ差がない(同等)と判断してよい

検出力の設定は研究の目的によって変わるが、0.8(効果重視=通常はこれ), 0.5(中), 0.2(低=僅かな差でも重視)

補足:分散分析

データ全体を複数の群に分けた時に、群分けによる変動が、それ以外の誤差による変動よりも大きいかどうかを検定する方法

方法:分散比の検定(F検定)

分母は、誤差の分散(群ごとに平均偏差平方和を求めてすべて加え、全データ数-群の数=自由度で割ったもの)分子は、群分けの分散(各群の平均値を用いて偏差平方和を求め、群の数-1=自由度で割ったもの)

平均値に差がなければ分散は等しくなる

群分けによる変動

3. 相関と回帰

複数の数値をセットでもつものをベクトルというベクトルは固有の方向を持つ

ベクトル間の方向の関係を相関性という

正相関(同方向) 逆相関(逆方向) 無相関(直交)

通常は相関する成分と無相関の成分に分けられる相関する成分が多いほどベクトルどうしの関連性は強い

相関

まずひとつの数値だけを含む数(ふつうの数)どうしで考えると、かけ合わせたものが+になれば同方向、-になれば逆方向、0になれば直交

それぞれ、正相関、負相関、無相関、に対応する

複数の数値の集まりではベクトルどうしのかけ合せで、結果の意味は同じなので

ベクトル間の掛け算(内積)で相関性を評価できる𝒙 = [𝒙𝟏, 𝒙𝟐, 𝒙𝟑,∙∙∙, 𝒙𝒏] 𝒚 = [𝒚𝟏, 𝒚𝟐, 𝒚𝟑,∙∙∙,𝒚𝒏]

𝒙 ∙ 𝒚 = 𝒙𝟏 ∙ 𝒚𝟏 + 𝒙𝟐 ∙ 𝒚𝟐 + 𝒙𝟑 ∙ 𝒚𝟑 +∙∙∙ +𝒙𝒏 ∙ 𝒚𝒏 = |𝒙||𝒚| cos 𝜽

ベクトルの方向が同じとき内積は+となる 正相関(全く同じときは cos𝜽 = 1)ベクトルの方向が逆のとき内積は-となる 負相関(完全に逆向きは cos𝜽 = −1 )ベクトルが直交していると内積は0となる 無相関(cos𝜽 = 0)

内積を絶対値の積で標準化したもの(ベクトル間の余弦)𝒙∙𝒚

𝑥 |𝑦|= cos 𝜃 は要素が偏差値の場合に相関係数を表す

𝒙 = [(𝒙𝟏− 𝒙), (𝒙𝟐 − 𝒙), (𝒙𝟑− 𝒙),⋯ , (𝒙𝒏− 𝒙)]𝒚 = [(𝒚𝟏− 𝒚), (𝒚𝟐 − 𝒚), (𝒚𝟑− 𝒚),⋯ , (𝒚𝒏− 𝒚)]

相関分析について - 方法と検定

母集団のモデルを正規分布とする − 標本の分布も正規性が必要

標本相関係数は r =𝑆𝑥𝑦

𝑆𝑥𝑥× 𝑆𝑦𝑦=

Σ(𝑥𝑖− 𝑥)(𝑦𝑖− 𝑦)

Σ(𝑥𝑖− 𝑥)2× Σ(𝑦𝑖− 𝑦)2

<r =𝑥と𝑦の共分散

𝑥の標準偏差 × 𝑦の標準偏差>

分母と分子でnが消えています

相関係数検定方法の例:無相関 0 の信頼限界より外に r があるかどうかを調べる

有意差となる不等式 𝑟 >(1−𝑟2)

𝑛−2× 𝑡

標本平均値がxとyに計2つあるので、自由度は𝑛 − 2となる

相関分析について - 回帰式

𝑦 = 𝑎𝑥 + 𝑏 (𝑎 =𝑆𝑥𝑦

𝑆𝑥𝑥, 𝑏 = 𝑦 − 𝑎 𝑥)

一次線形回帰式とは,xに対応するyが,xの変化に対して直線的に変化するというモデルで,説明変数 x と応答変数 y (因果関係)が区別されていなければならない

年齢と体重の回帰式をつくる場合,年齢を応答変数にすることはできないのは自明。

一方,学力試験で国語と数学の成績の関係をみるような場合は,相関関係はあっても、どちらが説明変数でどちらが応答変数ということは言えない

応答変数を変動させる成分の中で説明変数が寄与する割合は,決定係数 = r2 で表現される(r=0.5 なら0.25が寄与率で、xはyの変動の25%に寄与していることとなる)

回帰式 ― 注意点1

回帰式を一般化する場合の注意* 回帰式に代入されて得た値 𝑦の信頼区間は平均値前後で最小となり,平均値をはずれるほど広がっていく。

𝑦 ± 𝑡 × (1 +1

𝑛+

(𝑥𝑖− 𝑥)2

𝑆𝑥𝑥) × 𝑉𝑒

(信頼区間95%ではtは自由度n-1,α=0.05の時の値,Ve:残差の不偏分散)* 回帰式の作成に用いたデータ域をはずれた部分にまで回帰式が有効であるとは限らない(定義域内でのみ使用すべき)* 回帰式の作成に用いたデータに対する過剰適合が生じている

回帰式で逆推定する場合の注意例えば,濃度別の吸光度を測定した回帰式(検量線)では,吸光度yから濃度xを求める(逆推定)作業が予定される

* 𝑥 =𝑦𝑖−𝑏

𝑎として求めるのは,𝑟 = 1.0の時以外は正しくない

* 正確にはy の信頼区間についての下式をxについて解いてxの区間推定を行う

|𝑦𝑖 − 𝑎𝑥 − 𝑏 | ≤ 𝑡 × (1 +1

𝑛+

(𝑥𝑖− 𝑥)2

𝑆𝑥𝑥) × 𝑉𝑒

50

60

70

80

90

100体

重(

kg)

150 160 170 180 190身長( cm)

散布図 と回帰直線 95% 信頼区間

信頼区間は周辺で広がる

誤差はy軸方向のみ(xとyに互換性はない)

切片は最大化される(過剰適合)

回帰式 ― 多変量解析への発展

2つ以上の説明変数がある場合、応答変数のベクトルは,互いに独立な(軸上にある)ベクトルの一次結合で表現できる → 重回帰式

𝑦 = 𝑎1 × 𝑥1 + 𝑎2 × 𝑥2 + 𝑎3 × 𝑥3 + 𝑎4

ただし、 𝑥1 ∙ 𝑥2 = 0 𝑥2 ∙ 𝑥3 = 0 𝑥1 ∙ 𝑥3 = 0

例えば、赤血球数,フィブリノゲン,γ-globulinの変動が互いに独立とすると

血沈 = -0.2×赤血球数 + 0.17×フィブリノゲン + 20×γ-globulin+ 40

赤血球

γ-globulin

フィブリノゲン 血沈

多変量解析のいろいろ

supervised ― 学習系重回帰分析

複数の説明変数の組み合わせによって応答変数を説明<応答変数は量的変数>

判別分析複数の説明変数を組み合わせて判別・分類のための式を作成する<応答変数はカテゴリーなどの質的変数>

unsupervised ― 探索系主成分分析

既知の変数を用いて(隠された)未知の応答変数を求める

因子分析既知の変数に対して未知の説明変数(因子)による回帰を求める

クラスター分析複数の変数を関連性の強さ(距離など)によってカテゴリーに分類する<データセットに分類結果は未知で与えられていない>

因子分析(斜交解パターン行列)因子1 因子2 因子3

Albumin -0.295 -0.278 0.476Globulin 0.896 0.092 0.063ZTT 0.921 -0.178 0.000CRP 0.019 0.777 -0.175Neutrophil -0.092 0.774 0.192Lymphocyte 0.166 0.132 0.884

回帰式 ― 関数線形回帰

変数 → 関数

線形基底関数モデル

𝑦𝑖 =

𝑖=0

𝜔𝑖φ𝑖(𝑥)

φ𝑖(𝑥):基底関数(多項式、ガウシアン、三角関数、Wavelet、など)

多項基底の場合 φ𝑖 𝑥 = 𝑥𝑖

𝑦𝑖 = 𝜔0 + 𝜔1𝑥 + 𝜔2𝑥2 + ⋯

係数の設定法:最小二乗法、最尤推定法

過剰適合の防止:正則化項(ペナルティ項)の追加Lasso回帰、など

一般化線形モデル(GLM)

正規分布以外の分布も扱える線形回帰モデル(ロジスティック回帰、ポアソン回帰など)

多重ロジスティック回帰線形回帰を確率(0~1の値域)で表現する

𝑝 =1

1 + 𝑒− 𝛽0+𝛽1𝑥1+𝛽2𝑥2+∙∙∙+𝛽𝑛𝑥𝑛

量的変数・質的変数・交差変数(𝑥1 × 𝑥2など)が混在できる!

多項ロジスティック回帰応答変数が多群(3値以上)の場合

一般化線形混合モデルサンプルごとに異なる値をとるランダム効果の関数𝛾を加えたモデル

𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 +∙∙∙ +𝛽𝑛𝑥𝑛 + 𝛾1 + 𝛾2 +∙∙∙

4. その他の知識

①正規分布モデルが利用できない時

データが少なくて分布が不明データが離散的で分布を当てはめ難い、などの場合

→ ノンパラメトリック法を用いる

データの数値をそのまま使用せず、順位をつけて、順位数を用いた擬似的な正規分布により検定する方法

比率の差のχ2検定t検定 の代わりに Wilcoxsonの順位和検定・U検定

分散分析(ANOVA) の代わりに Kruskal-Wallis順位和検定Pearson相関係数 の代わりに SpearmanまたはKendallの順位相関係数

パラメーター(平均、分散)で処理できるものをパラメトリック法として区別する

ブートストラップ法とジャックナイフ法について

標本から再サンプリングし、分布のパラメーターを推定する方法ブートストラップ法は重複を許した同じケース数の復元サンプリングを繰り返すジャックナイフ法はケースを除きながらサンプリングを繰り返す

②モデルの最適化(最尤推定法と情報量基準)

尤度:観測されたデータの確率モデルへの適合度各観測データの確率モデルにおける確率の積で計算

最尤推定:尤度を最大にするようなモデル(確率分布)とそのパラメーターを求めること尤度関数 𝐿 𝜃 = 𝑓 𝑥𝑖 𝜃 を最大にする𝜃を求めること(データ𝑥𝑖は定数扱い)実際の計算では、両辺の自然対数をとって𝑙𝑛 𝐿 𝜃 = 𝑙𝑛 𝑓(𝑥𝑖|𝜃)最尤推定は、対数尤度関数を最大(≦0)にする𝜃を求めることと等価解析的には対数尤度関数を偏微分した式を0とおいて𝜃を求める

モデルが正規分布の場合(𝜃は2つ)、最尤推定値は観測データの平均と分散になる

数値計算的には、Newton-Raphson法、EMアルゴリズム、MCMC法など参考)ベイズ推定は事前確率を尤度で補正して事後確率を求める

最適モデルの選択:赤池の情報量基準𝐴𝐼𝐶 = −2 × (𝑙𝑛 𝐿 − 𝑝)、𝑙𝑛 𝐿は最大対数尤度、𝑝は自由パラメーターの数(平均対数尤度の近似値、尤度とパラメーター数のトレードオフで最適なモデルを評価)

𝐴𝐼𝐶が小さい値を示すほうのモデルを選ぶ応用例重回帰式の変数選択、統計モデルの比較、など

③ベイズ推論による臨床診断

Bayesの公式の確率𝑝をオッズ 𝑜 = 𝑝

1−𝑝 にして式を書きかえると

例1:胸痛患者が心筋梗塞である確率事前確率 0.1(胸痛患者における心筋梗塞の確率)の時、Odds ≒ 0.11

<事前確率の情報がなければ主観的確率でもよい>所見 LR+ LR-

男性 あり 1.360才以上 50才 0.8刺すような痛み なし 1.3胸壁の圧痛 なし 1.3ニトログリセン効果 なし 1.1発汗 なし 0.7頸動脈の怒張 なし 0.9第III音聴取 なし 0.9ECG:ST上昇 なし 0.6ECG:ST低下 あり 4.5ECG:非特異的ST変化 なし 1.5ECG:T波の逆転 あり 2.2

<各LR値はMcGee, Evidence-Based Physical Diagnosisによる>

事前Odds(=0.11)× ∏LR(=9.77) = 1.0747(事後オッズ)事後確率は、Odds/(1+Odds) = 0.518となる

例2:意識障害が脳病変によるものかそれ以外(代謝性など)か事前確率0.5とし、血圧が120以下の場合LR-は0.2なので、事後確率は0.17で脳病変は否定的

④傾向スコア

ランダムな割り当てができない状況で、関心ある変数の差を検討する場合(観察研究)に複数の共変量(交絡因子)を1変数に集約し、この変数を用いて、マッチング・層化・重みづけを行う

Ex. ある薬の投与群と非投与群において、差を検討する場合、割り当て変数z(投与群=1と非投与群=0)年齢・性別・体重・・・・・などの複数の共変量xiでzを説明するモデルを作成し、例ごとの傾向スコアを得る

→ ロジスティック回帰がよく用いられる

マッチング2つの群で傾向スコアの等しいまたは近いペアで差を求め、その平均を検定する(傾向スコアの差の合計を最小化するように設定する、例数の少ない方は重複使用する)

層化傾向スコアを複数の層(5など)に分類し、そのクラス間で平均の差を検定する

重みづけ傾向スコアの逆数で補正する