12
FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価- 飯塚 政人 1 魚住 龍史 2 浜田 知久馬 1 1 東京理科大学大学院 工学研究科 経営工学専攻 2 京都大学大学院 医学研究科 医学統計生物情報学 Confidence intervals for the difference between proportions by FREQ procedure: Enhancements in SAS 9.4 and performance evaluations Masato Iizuka 1 , Ryuji Uozumi 2 , and Chikuma hamada 1 1 Department of Management Science, Graduate School of Engineering, Tokyo University of Science 2 Department of Biomedical Statistics and Bioinformatics, Kyoto University Graduate School of Medicine 要旨 V9.3 では FREQ プロシジャの RISKDIFF による割合の差の信頼区間として,8 種類の方法による信頼区 間が構成できた.そして今回新たにリリースされた V9.4 においても, FREQ プロシジャの機能が拡張さ れ,RISKDIFF による割合の差の信頼区間の構成方法として,3 種類の方法(1)Agresti-Caffo 信頼区間, 2)Miettinen-Nurminen 信頼区間,3)Mee 信頼区間)が追加された. 本稿では, V9.4 から新たに追加された 3 種類の構成方法を概説するとともに,被覆確率による性能評価 を行い,V9.3 までの信頼区間と比較する.さらに,ケース・スタディとして,優越性・同等性の臨床試 験を想定した下,信頼区間幅やシミュレーションによる検出力について性能評価を行い,それぞれの場 合において推奨すべき信頼区間の構成方法を報告する. キーワード:FREQRISKDIFF2 項割合の差,信頼区間,被覆確率 1. はじめに 医薬研究の統計的評価をする際は,信頼区間の使用が推奨されている.医薬統計の教科書で,2 群の割合 の差の信頼区間の推定は, Wald 型の両側 95% 信頼区間を示していることが少なくない [5, 15]2 群の割合 の差の信頼区間を考える上で,想定する 2 × 2 分割表を表 1 に示す.

FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

FREQプロシジャによる割合の差の信頼区間

-V9.4における機能拡張と性能評価-

飯塚 政人 1 魚住 龍史 2 浜田 知久馬 1

1東京理科大学大学院 工学研究科 経営工学専攻

2京都大学大学院 医学研究科 医学統計生物情報学

Confidence intervals for the difference between proportions by FREQ procedure:

Enhancements in SAS 9.4 and performance evaluations

Masato Iizuka1, Ryuji Uozumi

2, and Chikuma hamada

1

1Department of Management Science, Graduate School of Engineering, Tokyo University of Science

2Department of Biomedical Statistics and Bioinformatics, Kyoto University Graduate School of Medicine

要旨

V9.3 では FREQプロシジャの RISKDIFFによる割合の差の信頼区間として,8 種類の方法による信頼区

間が構成できた.そして今回新たにリリースされた V9.4においても,FREQ プロシジャの機能が拡張さ

れ,RISKDIFF による割合の差の信頼区間の構成方法として,3 種類の方法(1)Agresti-Caffo 信頼区間,

2)Miettinen-Nurminen信頼区間,3)Mee信頼区間)が追加された.

本稿では,V9.4から新たに追加された 3種類の構成方法を概説するとともに,被覆確率による性能評価

を行い,V9.3までの信頼区間と比較する.さらに,ケース・スタディとして,優越性・同等性の臨床試

験を想定した下,信頼区間幅やシミュレーションによる検出力について性能評価を行い,それぞれの場

合において推奨すべき信頼区間の構成方法を報告する.

キーワード:FREQ,RISKDIFF,2項割合の差,信頼区間,被覆確率

1. はじめに

医薬研究の統計的評価をする際は,信頼区間の使用が推奨されている.医薬統計の教科書で,2群の割合

の差の信頼区間の推定は,Wald 型の両側 95% 信頼区間を示していることが少なくない [5, 15].2 群の割合

の差の信頼区間を考える上で,想定する 2 × 2分割表を表 1に示す.

Page 2: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

表 1. 2×2 分割表

有効 無効 計 有効割合 母数

薬剤群

対照群

このとき,2 群の有効割合の差の真値を ,その推定値を と表す.

ここで,V9.4で割合の差の信頼区間を出力させるための FREQ プロシジャの構文をプログラムに示し,

FREQプロシジャの TABLEステートメントにおけるRISKDIFFオプションにより構成できる割合の差の信頼

区間を表 2に示す.なお,正確な検定に基づく信頼区間は EXACT ステートメントの記述も必要となる.

プログラム : FREQ プロシジャによる割合の差の信頼区間

proc freq data=data;

tables group*response / riskdiff(cl = type);

exact method;

run;

表 2. FREQ プロシジャにおける信頼区間の構成方法

信頼区間の構成方法 RISKDIFF (CL = type) EXACT method SAS Version

Wald 信頼区間 [2, 5] WALD ○

Wald(連続修正) [2, 5] WALD (CORRECT) ○

Hauck-Anderson 信頼区間 [7] HA ○

Farrington-Manning 信頼区間 [4] FM ○

Agresti-Caffo 信頼区間 [1] AC | AGRESTICAFFO ☆

Mee 信頼区間 [8] MN (CORRECT=MEE) ☆

Miettinen-Nurminen 信頼区間 [9] MN | MN ☆

Newcombe スコア信頼区間 [11] NEWCOMBE | SCORE

| WILSON

Newcombe スコア(連続修正)信頼区間 [11] NEWCOMBE | SCORE

| WILSON (CORRECT)

正確な検定に基づく信頼区間 [13] EXACT * RISKDIFF ○

正確な検定に基づく信頼区間(FMスコア)[3] EXACT * RISKDIFF

(FMSCORE)

○: V9.3から利用可能,☆: V9.4 から新たに追加

Page 3: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

V9.3 では 8 種類の方法による信頼区間が構成でき,飯塚,浜田 (2013) は,8 種類の信頼区間の性能評価を

行い,Newcombe スコア信頼区間が最も良いと報告した [17].そして今回新たにリリースされた V9.4 におい

ても,FREQ プロシジャの機能が拡張され,新たに 3種類の方法が追加された.

本稿では,V9.4から新たに追加された 3種類の構成方法を概説するとともに,被覆確率による性能評価を

行い,V9.3までの信頼区間と比較する.さらに,ケース・スタディとして,論文公表されている臨床試験(優

越性試験,同等性試験)[6, 16] から得られた割合の数値を想定した下,信頼区間幅,モンテカルロシミュレ

ーションによる検出力の性能評価を行い,それぞれの場合において推奨すべき信頼区間の構成方法を報告す

る.

第 2節では,本研究で扱う 11 種類の信頼区間の数理を示す.第 3 節では,被覆確率の算出法,評価方法に

ついて述べる.第 4 節では,得られた結果から各信頼区間の特徴を明らかにし,第 5 節では,ケース・ス

タディとして,実データの割合を想定した下で評価を行う.そして第 6 節でまとめを示す.

2. 信頼区間の構成法の数理

2.1. Wald 信頼区間

Wald 信頼区間の構成は, の漸近正規性より以下の信頼区間で表される構成法.

⁄ √ ( )

( )

(1)

Wald 信頼区間の特徴は, のとりえる範囲である[-1,1]を超えて上限もしくは下限が形成されることがある.

また, , のとき信頼区間が(0,0)となる.

2.2. Wald(連続修正)信頼区間

Wald 信頼区間に連続性の修正を加えた構成法.

(

⁄ √

( )

( )

) (2)

Wald 信頼区間の特徴と同様に, のとりえる範囲である[-1,1]を超えて上限もしくは下限が形成されることが

ある.

2.3. Hauck-Anderson信頼区間

Hauck-Anderson 信頼区間は,Wald信頼区間より分散を大きくし,連続性の修正を加えた構成法.

(

( ) ⁄ √

( )

( )

) (3)

Wald 信頼区間の特徴と同様に, のとりえる範囲である[-1,1]を超えて上限もしくは下限が形成されることが

ある.

Page 4: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

2.4. Farrington-Manning 信頼区間

Farrigton-Manning 信頼区間は,帰無仮説 の下で分散を考えている構成法.

⁄ √ ( )

( )

(4)

Wald 信頼区間の特徴と同様に, のとりえる範囲である[-1,1]を超えて上限もしくは下限が形成されることが

ある.また, , のとき信頼区間が(0,0)となる.

2.5. Agresti-Caffo 信頼区間

Agresti-Caffo 信頼区間の構成は, 分割表の各セルに 1度数足して,Wald 信頼区間を導いた構成法,

⁄ √ (

)

(

)

(5)

(6)

Agresti-Caffo 信頼区間の特徴は, のとりえる範囲である[-1,1]を超えて上限もしくは下限が形成されることが

ある.

2.6. Mee信頼区間

Mee 信頼区間の構成は,スコア型の信頼区間として以下のように考える.

| | ⁄√ ( )

( )

(7)

と は制限付き最尤推定値であり,3次方程式を解くことによって得られる.

(8)

ここで, と表せ, ( ) ( )

( )である.

2.7. Miettinen-Nurminen 信頼区間

Miettinen-Nurminen 信頼区間の構成は,Meeの信頼区間に例数を加味し分散を大きくした構成法.

⁄ √(

) ( ( )

( )

) (9)

2.8. Newcombeスコア信頼区間

Newcombe スコア信頼区間は,単群の割合の Wilsonスコア信頼区間 [13] に基づいた構成法.

(上限) √( ) ( )

(10)

(下限) √( ) ( )

(11)

Page 5: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

ここで と は,単群の割合の Wilsonスコア信頼区間の上限と下限を表し,以下のように求める.

| | √ ( )

(12)

同様に と は,もう片方の群の割合の Wilsonスコア信頼区間の上限と下限を表す.

| | √ ( )

(13)

2.9. Newcombeスコア(連続修正)信頼区間

Newcombe スコア(連続修正)信頼区間は,単群の割合の Wilsonスコア(連続修正)信頼区間 [13] に

基づいた構成法.Newcombe スコア信頼区間の上限(10) ,下限(11)の構成法は同様だが, と は,単群の割

合の Wilsonスコア(連続修正)信頼区間の上限と下限を表し,以下のように求める.

| |

( )

(14)

同様に と は,もう片方の群の割合の Wilsonスコア(連続修正)信頼区間の上限と下限を表す.

| |

( )

(15)

2.10. 正確な検定に基づく信頼区間

正確な検定に基づく信頼区間の構成は,以下のように考える.

(上限) ( ( )

) (16)

(下限) ( ( )

) (17)

と は,

( )

( ∑

( | )) (18)

( )

( ∑

( | )) (19)

で表せられ, 分割表( ) 分割表の任意の値の検定統計量 観測された値の検定統計量

を表している.ここで用いられている検定統計量は,

(20)

となる.また ( | )は, 分割表の同時確率を表しており,以下のように表される.

( | ) ( ) ( )

( ) (

)

( ) (21)

正確な検定に基づく信頼区間の特徴は,全ての について名義有意水準以下となる.

Page 6: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

2.11. 正確な検定(FM スコア)に基づく信頼区間

正確な検定(FM スコア)に基づく信頼区間は,(15)の検定統計量をスコア型(7)に変えた構成法.

√ ( )

( )

(22)

3. 評価基準

3.1. 被覆確率

信頼区間の性能を評価する際の主な評価指標として被覆確率を用いる.信頼区間の被覆確率(coverage

probability)とは,信頼区間が対象の真値を含む確率のことである.被覆確率 ( )は以下の式で表され

る.

( ) ∑ ∑ ( )

( )

( ) (

)

( )

∑ ∑ ( )

( | )

(23)

( )は,指示関数であり,割合の差の真値 が上限 と下限 の間に入っていれば 1となり,その他

は 0となる関数である.信頼区間の幅を広げれば被覆確率は 1 に近づき,逆に狭めることで 0 に近づくが,

被覆確率は信頼区間の名義水準に近くなることが望ましい.両側水準 の信頼区間を求めたときに,被覆確率

が( )よりも小さい場合には,真値を含まない確率が より大きく,英語でいうリベラルの対訳として革

新的と表現する.一方,被覆確率が( )より大きい場合には,信頼区間の幅が必要以上に広いため,保守

的と表現する.本稿では,被覆確率を用いて,2 種類の基準で信頼区間の構成方法の性能を評価した.1 つ

目は,被覆確率が( )に近いことである.2 つ目は,実際は有意でないのに有意であると判定してしまう

エラーを常に一定以下に保持するように,被覆確率が常に( )よりも大きいことである.

3.2. 信頼区間幅

被覆確率が各信頼区間の構成法でほぼ等しい場合,信頼区間の幅が小さい方が推定精度の点において,好

まれる.信頼区間幅は,第 5 節における評価に用いる.

3.3. 検出力(Power)

対立仮説が真の場合,帰無仮説を正しく棄却する確率を表す.第一種の過誤確率が名義水準に保たれてい

る場合,検出力は高いほど良い.そして通常の第Ⅲ相臨床試験において,検出力は 80%以上に設定される.

信頼区間幅同様,検出力も第 5節における評価に用いる.

有意になった回数

シミュレーション回数 (24)

Page 7: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

4. 割合の差の信頼区間の構成法の比較

図 1,図 2は,各群のサンプルサイズの総数 を 40とし, とした場合(図 1)と とし

た場合(図 2)で, , のように条件を変え,95%信頼区間を形成したときの

被覆確率を示した図である.また表 3は, , の下,サンプルサイ

ズが等しい場合の , そして異なる場合の の被覆確率の平均値と

最小値を示した図である.

FREQ プロシジャのデフォルトで表示される Wald信頼区間は,被覆確率が非常に小さくなっていることが

わかる.また連続修正を加味した Wald(連続修正)信頼区間も,真値 が 0 や 1に近くなると被覆確率が名

義水準から大きく外れてしまう場合がある.この傾向は,総数 が同じで各群のサンプルサイズが異なった場

合でも同様であり,より顕著となる.

表 3から,被覆確率が名義水準である 95%に近い信頼区間としては,スコア型の信頼区間である,Mee信

頼区間,Miettinen-Nurminen 信頼区間であることがわかる.また Newcombe スコア信頼区間も被覆確率が名義

水準である 95%に近い.Newcombe スコア信頼区間は,各群のサンプルサイズが異なった場合でも被覆確率

の値にあまり影響をうけることなく,各群のサンプルサイズが等しい場合とあまり変わらない.ただし, ,

の値が 0 や 1に近づくと名義水準を外れてしまうことがある.

保守的である信頼区間の構成法は,表 3 の被覆確率の最小値(Min)より,正確な検定に基づく信頼区間,

正確な検定(FMスコア)に基づく信頼区間,Newcombe スコア(連続修正)信頼区間の 3つである.各群の

サンプルサイズが等しい場合は,正確な検定(FM スコア)に基づく信頼区間が保守的かつ名義水準に近い

値となっている.各群のサンプルサイズがアンバランスな場合は,単群試験などで真値が 0.5 付近と予想さ

れる場合には,正確な検定に基づく信頼区間が名義水準に近い値となっており推奨される.しかし真値が 0

や 1に近い値となると,極端に名義水準を外れてしまう傾向があるので,群の真値に関する情報が乏しい場

合は正確な検定(FMスコア)に基づく信頼区間の使用が推奨される.

表 3.サンプルサイズ別被覆確率の平均値(Mean)と最小値(Min)

Page 8: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

図 1.各群のサンプルサイズを 20とした被覆確率

図 2.各群のサンプルサイズを 10,30 とした被覆確率

Page 9: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

5. ケース・スタディ

臨床試験から得られた 2値データに対して統計解析を行う場合,非劣性試験や同等性試験においては,信

頼区間に基づく意思決定を行う.そこで本節では,i) 前節で検討した例数と同程度の優越性試験から得られ

たデータ,ii) 同等性試験から得られたデータ,に基づき構成した 11種類の信頼区間に対する評価を行う.

5.1. 優越性試験

表 4は,関節リウマチ患者を対象とした第 II相試験から得られた,ある有効性評価項目の結果の一部を示

す [6].図 3は,表 4のデータから構成した 11 種類の 95%信頼区間を図示したもの及び,各信頼区間の上限,

下限,区間幅を具体的な数値として示したものである.示した図表より,構成法によって区間の広がり方が

異なっていることがわかる.特に連続修正を加味している構成法の区間幅が広く,最も区間幅が狭い

Farrington-Manning 信頼区間と比べると区間幅の違いが顕著である.また,正確な検定に基づく構成法も区間

幅が広い.Miettinen-Nurminen 信頼区間,Newcombe スコア信頼区間,Wald 信頼区間,Mee 信頼区間の幅は

狭いことがわかる.

表 4.優越性試験から得られた結果

有効 無効 計 有効割合 差

試験群 0.107 0.078

対照群 0.029

図 3.95%信頼区間及び区間幅

5.2. 同等性試験

表 5は,関節リウマチ患者を対象とした第 III 相試験から得られた,ある有効性評価項目の結果の一部を示

す [16].同等性マージンを [15%, 15%] として,有効割合の差の 95%信頼区間が同等性マージン内に含まれ

れば,同等と意思決定を行う.

Page 10: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

表 5.同等性試験から得られた結果

図 4.95%信頼区間及び区間幅

図 4は,表 5のデータから構成した 11 種類の 95%信頼区間を図示したもの及び,信頼区間の上限,下限,

区間幅を具体的な数値として示したものである.示した図表より,構成法によって区間の広がり方と区間幅

の位置が若干異なっていることがわかる.特に連続修正を加味している構成法と正確な検定に基づく構成法

の幅が比較的に広くなっている.なお,本ケース・スタディでは例数が多くかつ 40%近い有効割合のため,

その他では区間幅に大きな違いはみられない.

次に,表 6に様々な条件の下で求めた 10000 回のシミュレーションによる検出力を示す.P1,P2は各群に

おける有効割合,n1,n2 は各群の例数を表す.同等性試験なので,P1 と P2 が近い値を想定した下でシミュ

レーションを行った.具体的に述べると,対照群の有効割合 P2 は試験群の有効割合 P1 より大きくなること

はないという想定の下(P1≥P2),P1=0.1,0.3,0.5とし,P2は P1 (0 or 0.05 or 0.1) を想定した.また,

Agresti-Caffo 信頼区間,Farrington-Manning 信頼区間 ,Hauck-Anderson 信頼区間 ,Miettinen-Nurminen 信頼

区間,Newcombe スコア,Newcombe スコア(連続修正),Wald(連続修正)信頼区間をそれぞれ,AC,FM,

HA,MN,NS,NSC,WALDC と表記する.なお,正確な検定に基づく信頼区間については,コンピュータ

の性能より求められないため,記述していない.

表 6 より,P1,P2 の値が小さく,例数が少ない場合は,Wald 信頼区間の検出力が上がることがわかる.

他の条件の場合では,Agresti-Caffo 信頼区間,Newcombe スコア信頼区間の検出力が他の信頼区間に比べて高

いことがわかる.また,サンプルサイズの議論となるが,例数が太字になっている箇所は,検出力が 80%超

えているところである.割合の分散が大きくなる有効割合の真値 0.5 付近では,検出力 80%を超えるために

は,例数を多く必要とすることがわかる.

有効 無効 計 有効割合 差

試験群 0.395 0.056

対照群 0.339

Page 11: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

表 6.各条件の下で求めた信頼区間別の検出力

P1 P2 n1 n2 AC FM HA MN MEE NS NSC WALD WALDC

0.1 0.05 100 100 0.75 0.75 0.72 0.69 0.69 0.69 0.64 0.77 0.69

0.1 0.05 248 251 0.98 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.97

0.1 0.05 300 300 1.00 1.00 0.99 0.99 0.99 0.99 0.99 1.00 0.99

0.1 0.05 500 500 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

0.1 0.1 100 100 0.88 0.87 0.85 0.84 0.84 0.85 0.80 0.88 0.81

0.1 0.1 248 251 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

0.1 0.1 300 300 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

0.1 0.1 500 500 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

0.3 0.2 100 100 0.12 0.11 0.09 0.11 0.11 0.12 0.09 0.11 0.08

0.3 0.2 248 251 0.25 0.25 0.23 0.25 0.25 0.25 0.23 0.25 0.22

0.3 0.2 300 300 0.30 0.29 0.27 0.29 0.29 0.30 0.27 0.29 0.26

0.3 0.2 500 500 0.46 0.45 0.44 0.45 0.45 0.46 0.44 0.45 0.43

0.3 0.25 100 100 0.25 0.24 0.18 0.24 0.24 0.25 0.19 0.24 0.16

0.3 0.25 248 251 0.71 0.71 0.69 0.71 0.71 0.71 0.69 0.71 0.67

0.3 0.25 300 300 0.79 0.78 0.77 0.79 0.79 0.79 0.77 0.79 0.76

0.3 0.25 500 500 0.95 0.94 0.94 0.94 0.95 0.95 0.94 0.94 0.94

0.3 0.3 100 100 0.31 0.29 0.21 0.30 0.30 0.31 0.23 0.29 0.17

0.3 0.3 248 251 0.92 0.91 0.90 0.91 0.91 0.92 0.90 0.91 0.89

0.3 0.3 300 300 0.96 0.96 0.95 0.96 0.96 0.96 0.95 0.96 0.95

0.3 0.3 500 500 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

0.5 0.4 100 100 0.06 0.06 0.02 0.06 0.06 0.06 0.02 0.06 0.02

0.5 0.4 248 251 0.20 0.20 0.18 0.20 0.20 0.20 0.19 0.20 0.18

0.5 0.4 300 300 0.24 0.24 0.21 0.24 0.24 0.24 0.22 0.24 0.21

0.5 0.4 500 500 0.36 0.36 0.34 0.36 0.36 0.36 0.34 0.36 0.34

0.5 0.45 100 100 0.13 0.13 0.04 0.13 0.13 0.13 0.04 0.13 0.04

0.5 0.45 248 251 0.61 0.61 0.58 0.61 0.61 0.61 0.58 0.61 0.58

0.5 0.45 300 300 0.70 0.69 0.67 0.70 0.70 0.70 0.67 0.70 0.67

0.5 0.45 500 500 0.89 0.89 0.88 0.89 0.89 0.89 0.88 0.89 0.88

0.5 0.5 100 100 0.17 0.17 0.06 0.17 0.17 0.17 0.06 0.17 0.05

0.5 0.5 248 251 0.84 0.84 0.82 0.84 0.84 0.84 0.82 0.84 0.82

0.5 0.5 300 300 0.92 0.91 0.90 0.92 0.92 0.92 0.90 0.92 0.90

0.5 0.5 500 500 0.99 0.99 0.99 0.99 0.99 0.99 0.99 0.99 0.99

まとめ

本稿では,SAS の V9.4の FREQ プロシジャから新たに追加された 3 種類の構成方法を含めた 11種類の信

頼区間の構成方法の特徴について,被覆確率を評価指標として比較した.その結果,被覆確率が名義水準に

平均的に近かったのは, Miettinen-Nurminen 信頼区間と Newcombe スコア信頼区間であった.また,ケース・

スタディの結果から,検出力が比較的高い信頼区間は,Newcombe スコアであったため,Newcombe スコア信

頼区間が推奨される信頼区間であることが確認された.保守的な信頼区間は,正確な検定に基づく信頼区間,

正確な検定(FMスコア)に基づく信頼区間,Newcombe スコア(連続修正)信頼区間であった.保守的な信

頼区間の中でも被覆確率が名義水準に近かった信頼区間は,正確な検定(FM スコア)に基づく信頼区間で

あったため,保守的な信頼区間の中で推奨される信頼区間は正確な検定(FM スコア)に基づく信頼区間で

Page 12: FREQプロシジャによる割合の差の信頼区間 -V9.4における機 …...FREQプロシジャによる割合の差の信頼区間 -V9.4における機能拡張と性能評価-

あった.しかし,各群において例数が異なる場合で,単群等の試験などで真値が 0.5 付近であると予想でき

る場合には,正確な検定に基づく信頼区間の使用も検討される.

参考文献

[1] Agresti, A. and Caffo,. B., Simple and effective confidence intercals for proportions and differences of proportions

result from adding two successes and two failures, The American Statistician, 54, 280-288, 2000.

[2] Agresti, A. Categorical Data Analysis, Second Edition: John Wiley & Sons, 2003.

[3] Chan, I. S. F., Zhang, Z., Test-based exact confidence intervals for the difference of two binomial proportions,

Biometrics, 55, 1202-1209, 1999.

[4] Farrington, C. P. and Manning, G., Test statistics and sample size formulae for comparative binomial trials with null

hypothesis of non-zero risk difference or non-unity relative risk, Statistics in Medicine, 9, 1447–1454, 1990.

[5] Fleiss, J. L., Levin, B., Paik, M. C., Statistical Methods for Rates and Proportions, Third Edition : John Wiley &

Sons, 2003.

[6] Genovese. M.C. et al., Tabalumab, an anti-BAFF monoclonal antibody, in patients with active rheumatoid arthritis

with an inadequate response to TNF inhibitors. Annals of the Rheumatic Diseases, 72, 1461–1468, 2013.

[7] Hauck, W. W. and Anderson, S., A comparison of large-sample confidence interval methods for the difference of two

binomial probabilities, The American Statistician, 40, 318–322, 1986.

[8] Mee, R. W., Confidence bounds for the difference between two probabilities, Biometrics, 40, 1175-1176, 1984.

[9] Miettinen, O. S. and Nurminen, M., Comparative analysis of two rates, Statistics in Medicine, 4, 213-226, 1985.

[10] Newcombe, R. G., Confidence Intervals for Proportions and Related Measures of Effect Size, Chapman &

Hall/CRC, 2012.

[11] Newcombe, R. G., Interval estimation for the difference between independent proportions:Conparison of eleven

methods, Statistics in Medicine, 17, 873-890, 1998.

[12] Newcombe, R. G. and Nurminen, M., In Defence of Score Intervals for Proportions and their Differences,

Communications in Statistics – Theory and Methods, 40, 7, 1271-1282, 2011.

[13] Santner. T.J. et al., Small-sample comparisons of confidence intervals for the difference of two independent

binomial proportions, Computational Statistics & Data Analysis, 51, 5791–5799, 2007.

[14] Wilson, E. B., Probable inference, the law of succession, and statistical inference, Journal of the American

Statistical Association, 22, 209–212, 1927.

[15] Woodward, Epidemiology : Study Design and Data Analysis, Chapman & Hall/CRC, 2004.

[16] Yoo. D.H. et al., A randomised, double-blind, parallel-group study to demonstrate equivalence in efficacy and

safety of CT-P13 compared with innovator infliximab when coadministered with methotrexate in patients with active

rheumatoid arthritis: the PLANETRA study. Annals of the Rheumatic Diseases, 72, 1613–1620, 2013.

[17] 飯塚政人, 浜田知久馬. 2 群の割合の差における信頼区間の構成法の比較. SAS ユーザー総会 論文集,

461-473, 2013.