Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
臨床試験における SGプロシジャを用いたGraphic Designの考察
○山崎 文寛1, 清水 康平1, 高浪 洋平1
(1武田薬品工業株式会社)
Considerations on Good Graphic Design Using SG Procedures in Clinical Trials
Fumihiro Yamasaki1, Kohei Shimizu1, Yohei Takanami1 1Takeda Pharmaceutical Company Limited
2
要旨:
臨床試験の統計解析業務において,グラフによるデータの可視化は非常に有用な分析ツールとなるが,一般的に用いられる被験者の推移図や散布図等から読み取れる情報には限りがある 一方,近年SASをはじめとするソフトウェア技術の進歩により,数多くの種類のグラフが容易に,かつ高品質に作成できる環境が整いつつあり,Susan P. Dukeら (2015)は,適切にデザインされたグラフは強力なコミュニケーションツールとなる
事,データに対する適切なグラフの選択が重要である事を主張するとともに,これまで表現しきれなかった情報を付加した新たなグラフの作成によるデータの分析方法を提案している 本発表では,その適切なGraphic Designの選択方法について概要をまとめたうえで,それらのグラフを従来のグラフと比較・考察するとともに,SAS9.4のSGプロシジャによる作成方法及びカスタマイズ方法を報告する キーワード: SGプロシジャ, Lasagna Plot, Sunflower Plot
3
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
4
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
5
発表の背景:
統計解析の担当者が,データを解析した結果を解釈するうえで,グラフは重要なツールとなる.近年ではSASをはじめとするソフトウェア技術の進歩により,Graphicsに関する検討も活発に行われている CTSPedia*のSafety Graphics Working Groupでも,Graphicsに関する検討が行われているが,製薬企業及びアカデミアに加え,FDAのメンバーも含まれており,Regulatoryの観点からも注目されている それらの活動で提案されたGraphic Designもまた注目すべきと考えられ,SAS 9.4に備わる高品質なグラフ作成機能を用いて,実際の統計解析業務での適用を視野に入れて検討することとした *: 臨床研究者向けに,知識・ツール・教育資料などを蓄積し,タイムリーで有用なアドバイスを提供するために設立された.本発表で紹介する適切なGraphic Designの選択方法 (Choosing the Right Graph – What Is the Process?) やグラフを作成するサンプルのソースコード等が公開されている
6
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
7
適切なGraphic Designの原則: データの種類に対して,適切なデザインのグラフを選択
• データの種類: 連続値, カテゴリ値, サブグループなど グラフの種類の選択方法: グラフに必要な詳細度によって選択
Kaplan-Meier
累積分布曲線 Waterfall
ヒストグラム 棒グラフ & 誤差バー
シンボル & 誤差バー
箱ヒゲ図
QQプロット Violinプロット
確率密度分布
詳細度分布 (Distribution Detail Level) 生データ
解析/探索
詳細度高
きめ細かい分布
伝達/簡潔
要約データ
詳細度低
平均/中央値 & IQR/SE/95%CI
• ラインプロット • ドットプロット • フォレストプロット • 左に行くほど詳細度が高く,右に行くほど詳細度が低い
• 興味のあるデータについて,より多くの情報を得る必要がある場合は,より詳細度の高いグラフを用いる必要がある
(Susan P. Dukeら(2015)より抜粋)
8
適切なGraphic Designの原則: 一つのグラフに表示するグループの数
0 or 1 グループ変数
複数の グループ変数
(例: 年齢, 性別, 投与群)
• 以下の2種類のバランスによって選択 • 比較したいグラフにおける要素をできるだけ近くに持ってくること • 複数のパネル及びグラフを使用することで,乱雑さを避けられること
1枚のグラフに 1グループ
1枚のグラフに 複数グループ
複数パネルあたり 1枚のパネルに
1グループ
複数パネルあたり 1枚のパネルに 複数グループ
グラフサブタイプ (Graph Subtype)
(Susan P. Dukeら(2015)より抜粋)
9
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
10
Graphic Designの推奨事項: CTSPediaで公開されているGraphic Designに関する推奨事項 ① 内容 (Content): グラフ自身で意味をなす ・説明文無しで意味する内容が表現され,明快・効果的・有益である ② 伝達 (Communication): 伝達内容に対して本質的・直感的 ・情報の詰め込みすぎや最も伝えたいことから逸らす表現を避ける ③ 情報 (Information): 必須情報の表示に充てるシンボルや文字の割合を最大化 ・不必要な情報を表示しない.プロットの重なりを避ける ④ 注釈 (Annotation): 読みやすいフォントを使用 ・注釈・凡例は,解釈を助け,最も伝えたいことから逸らさないように正しく配置 ⑤ 軸 (Axes): プロットの解釈を助ける軸をデザイン ・比較するグラフは同じ軸スケール.ゼロの包含要否を検討 ⑥ 様式 (Styles): 直感的に解釈できるシンボルを使用 ・シンボル,線などは,同一パッケージ内で同じ意味 ⑦ 色 (Colors): 適切であればカラーを使用 ・色を使用する場合,対照的ではっきりした色を使用.黄色は避ける 赤・緑・茶はモノクロの場合,人が見分けるのは困難なため,ラインスタイル等を用いる ⑧ 技術 (Techniques): メッセージを明確にするための確立された技術を使用 ・データの関連性に従ってカテゴリを分類 ⑨ プロットの種類 (Type of plots): 適切で最もシンプルなプロットを使用
(9 Best Practices for Making Graphsより抜粋, https://www.ctspedia.org/do/view/CTSpedia/BestPractices)
11
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
12
SGプロシジャの概要: SGプロシジャの概要
• 名前が"SG"から始まる,優れた統計グラフを作成するプロシジャ.複数のグラフを重ね合わせたり,並べて表示する場合に大変有用
SGプロシジャの種類 SGプロシジャ 概要
SGPLOT 様々な種類の2次元プロットを作成.複数の種類のグラフを重ね合わせて作成することが可能
SGPANEL PANELBYステートメントの指定に基づき,複数のグラフを格子型で表示.SGPLOTで作成可能な,ほぼ全てのグラフをサポート
SGSCATTER 散布図の作成に特化したプロシジャで,変数の組合せごとに,複数の散布図を並べて1枚で作成
SGRENDER Graph Template Language (GTL) でカスタマイズしたテンプレートを読み込んでグラフを作成
SGDESIGN SGRENDERで読み込み可能なGTLを,ユーザがマウス操作でカスタマイズして作成
13
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
14
サンプルデータを用いた新たなグラフの考察:
本発表では,臨床試験で通常よく用いられている被験者の推移図 (Spaghetti Plot) や散布図 (Scatter Plot) に注目した それらのグラフについて,Susan P. Dukeら (2015) によって提案されたラザニアプロット (Lasagna Plot) やサンフラワープロット (Sunflower Plot) と比較・考察したうえで,高血圧患者を対象とした仮想の臨床試験データを用いて,SGプロシジャによる作成方法を提案する
15
サンプルデータ: バイタルサインのデータセットADVS(CDISC ADaM形式)
• 高血圧患者を対象とした仮想の臨床試験データ
被験者数: 200例 (1群あたり50例の計4群), 時点数: 5時点 (Baseline, Week2, 4, 6, 8) 検査項目: 収縮期血圧 (SYSBP), 拡張期血圧 (DIABP) など カテゴリデータ: 『成人における血圧値の分類*1』によるカテゴリ変数 (AVALCAT1, BASECAT1)
*1: 高血圧治療ガイドライン2014より抜粋 *2: 収縮期血圧と拡張期血圧のand条件
(単位: mmHg)
1: 至適血圧*2
2: 正常血圧
3: 正常高値血圧
4: Ⅰ度高血圧
5: Ⅱ度高血圧
6: Ⅲ度高血圧
収縮期血圧 (SYSBP) <120 120 -129 130 -139 140 -159 160 – 179 ≧180 拡張期血圧 (DIABP) <80 80 - 84 85 - 89 90 - 99 100 - 109 ≧110
16
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
17
各被験者の推移を示したグラフ: 被験者の推移図
• 各被験者の経時的なデータを同一グラフで示す場合は,Spaghetti Plotがよく使用されるが,被験者数が多くなるにつれて,線と線の重なりも多くなるため,各被験者の推移を正確に読み取ることは困難.その改善策として,Lasagna Plotが,Susan P. Dukeら (2015)によって提案されている.
Spaghetti PlotとLasagna Plotの比較
VS.
・被験者数が多い場合,Spaghetti Plotと比較して,プロットが重ならず各被験者の経時的な推移が分かりやすい
・線の重なりで,各被験者の推移が分かりにくい一方,被験者数が少なければ,Y軸のラベル等から値が分かりやすい
実測値
高値
低値 時点 時点
検査値
被験者
外れ値の検出は どちらも可能
18
SAS9.4におけるLasagna Plotの作成方法: SGPLOTプロシジャでHEATMAPPARMステートメント又は
HEATMAPステートメントを使用 • 概要
• 3変数を用いた2次元プロット (すなわちHeat map) を作成する.3変数のうち2変数で「複数の長方形から成る格子構造」をプロットし,残りの1変数で各長方形に色付け等を行うことで表現する.
• 基本構文
HEATMAPPARM X=<X軸の変数> Y=<Y軸の変数> COLORRESPONSE=<各セルの色付けに使用する変数*> COLORMODEL=<各セルに適用する色の組合せ> ;
HEATMAP X=<X軸の変数> Y=<Y軸の変数> / COLORRESPONSE=<各セルの色付けに使用する変数*> COLORMODEL=<各セルに適用する色の組合せ> ;
*: 本稿では,実測値またはそのカテゴリデータを指定
19
HEATMAPPARMステートメント及びHEATMAPステートメントにおける主なオプション: オプション 概要 COLORRESPONSE =numeric-variable
Heat mapの各セルの色を,指定した数値変数の値に応じて変化させる
COLORMODEL =color-ramp-style-element | (color-list)
COLORRESPONSEオプションと同時に使用する色傾斜 (Color Ramp)又は色の組合せを指定 ・指定可能な色傾斜: ThreeColorRamp, ThreeColorAltRamp, TwoColorRamp, TwoColorAltRamp 具体的な色の組合せを指定する場合は,左から順に値の小さい順に適用したい色を列挙したうえで全体を括弧で囲む
FILLATTRS =(TRANSPARENCY=number)
Heat mapのセル全体に対する,透過性を指定 (0~1の値を指定し,0が透過なし)
OUTLINE Heat mapのセル全体に対して,輪郭線を表示 OUTLINEATTRS =style-element | style-element (line-options) | (line-options)
Heat mapのセル全体における輪郭線の見た目 (色, 線の種類・太さ) を指定
NAME ="text-string"
他のステートメントからの参照のために,本Plotステートメントに名前を割り当てる
20
Lasagna Plotの作成事例①: 連続データの場合
• 拡張期血圧の実測値を表示したグラフ
<作成方法> • X軸に時点の変数AVISIT, Y軸に被験者番号の変数USUBJIDをそれぞれ指定 (但しYAXISステートメントのNOVALUESオプションで,Y軸の目盛は削除)
• COLORRESPONSEオプションに実測値が格納された変数AVALを指定
• 各被験者の推移に興味がある場合は,OUTLINEオプションを使用して,各セルの輪郭線が表示可能
• HEATMAPPARMステートメントのNAMEオプション及びGRADLEGENDステートメントを用いて,グラフ右端に表示される「実測値と色の対応」を示す凡例のラベル「Analysis Value」を表示
proc sgplot data=<入力データセット> ; by PARAMCD TRTAN ; heatmapparm x=AVISIT y=USUBJID colorresponse=AVAL / name='a' outline ; yaxis display=(NOVALUES NOTICKS) ; gradlegend 'a'/ integer title='Analysis Value' ; run ;
• 連続値及びカテゴリ値ともに,プロットの重なりは発生しないため,被験者の数に係わらず,集団としての推移が確認できる
ただし,外れ値の検出は可能であるものの,色の細かい違いから,その厳密な値を読み取ることは難しい
Lasagna Plotの作成事例②: グラフの重ね合わせによって情報を付加する場合
• 興味のある値に限定して,実測値の数字を各セルに出力したグラフ
21
proc sgplot data=<入力データセット> ; by PARAMCD TRTAN ; heatmapparm x=AVISIT y=USUBJID colorresponse=AVAL / name='a' outline ; scatter x=AVISIT y=USUBJID / markerchar=AVAL2 markercharattrs=(size=7) ; yaxis display=(NOVALUES NOTICKS) ; gradlegend 'a'/ integer title='Analysis Value' ; run ;
• 外れ値について,その厳密な値を,グラフの中だけで読み取ることができる
• ここでは,高血圧診断基準に合致する値のみを表示しており,不要な情報を読み取る必要がない ⇒解釈の助けとなる
<作成方法> • COLORRESPONSEオプションに指定する変数について,事前に興味のある値 (例えば,基準値超や未満の値) のみを格納した新たな変数を作成
• SCATTERステートメントのMARKERCHARオプションにその変数AVAL2を指定
• MARKERCHARATTRSオプションで,表示する値のフォントサイズ等を指定
22
Lasagna Plotの作成事例③: カテゴリデータの場合
• 血圧値の分類に従った拡張期血圧のカテゴリ値を表示したグラフ • 実測値を病態の重症度等,臨床的に意味のあ
るカテゴリに分類できる場合は,カテゴリデータの推移として出力することが可能
実測値よりも値と色の対応が明確で,集団の推移をある程度把握できる.ただし,カテゴリ化による情報の消失については注意が必要
proc sgplot data=<入力データセット> ; by PARAMCD TRTAN ; heatmapparm x=AVISIT y=USUBJID colorresponse=AVALCA1N / name='a' outline ; yaxis display=(NOVALUES NOTICKS) ; gradlegend 'a' / integer title = 'Category' ; run ;
<作成方法> • 事前に,入力データセットを興味のある時点に関して,カテゴリの順にソートしておく
※本スライドの例では,時点順 (Baseline, Week 2, ...の順) に,それぞれカテゴリの降順でソート
• COLORRESPONSEオプションにカテゴリ変数AVALCA1Nを指定
• GRADLEGENDステートメントを用いて,グラフ右端に表示される「カテゴリ値と色の対応」を示す凡例のラベル「Category」を表示
• グループ間での経時的な変化の違いを,視覚的に認識しやすい
<作成方法> • PANELBYステートメントに,パネルごとに表示したい変数TRTAを指定 (本スライドの例で投与群)
• Y軸には,被験者番号ではなく,各投与群における被験者連番を指定することが必須
(Y軸の目盛は,NOVALUESオプションで削除していて見えないが,Y軸自体は左右のグラフで共有しているため) 23
Lasagna Plotの作成事例④: 複数の群を比較する場合
• 各群のグラフを格子型に配置したグラフ
proc sgpanel data=<入力データセット> ; by PARAMCD ; panelby TRTA ; heatmapparm x=AVISIT y=<各群内の被験者連番> colorresponse=AVALCA1N / name='a' outline ; yaxis display=(NOVALUES NOTICKS) ; gradlegend 'a' / integer title = 'Category' ; run ;
24
色の選択方法: COLORBREWER (colorbrewer2.org)
• 適切な色の組合せを選ぶのに便利なサイト.画面上のオプションを選ぶと,自動的に色の組合せをカラーコードとともに出力
<色の選択で,主に使用する機能> ① 色の数 (3~12色) データのカテゴリ数等に応じて選択 ② 色の変化 ・Sequential: 薄い色から濃い色への変化 ・Diverging: ある色から別の色への変化 ・Qualitative: 各カテゴリが全く別の色
③ カラースキーム (好みの色等を選択) ④ 適切なカラースキームの絞込み ・Colorblind Safe: 色覚異常に対応 ・Print Friendly: デスクトップカラーに対応 ・Photocopy Safe: 白黒印刷に対応
⑤ カラーコード ⑥ 作成したカラースキームのファイル出力
① ②
③
④
⑤
⑥
・RGB (Red, Green, Blue (10進数), HEX (RGBの16進数版), CMYK (Cyan, Magenta, Yellow, Key (Black)) の3種類が選択可能.このうち,HEXとCMYKがSASで指定可能.HEXは主にディスプレイやデジタルカメラ,CMYKはプリンタや塗料で使用されている
25
色の指定方法: 色のパラメータ指定: COLORMODELオプションに直接指定
• COLOR BREWERの値をSASで指定
SAS 9.4の既存のCOLORMODELを使用した場合
・HEXの場合 ("#"を"CX"に置き換え) COLORMODEL=(CXe5f5f9 CX99d8c9 CX2ca25f)
・CMYKの場合 (2桁の数字×4=8桁, 「"」で囲む) COLORMODEL=("10000000" "40001500" "83007000")
TwoColorRamp TwoColorAltRamp ThreeColorAltRamp
26
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
27
各被験者の投与前後の値を比較するグラフ: Scatter Plot
• 各被験者の投与前後データや2変数の関連性を単一グラフで示す場合は,Scatter Plot(散布図)がよく使用される.しかし,被験者数が多くなるにつ
れて,シンボルの重なりが多くなり,情報量は少なくなる.その改善策として,Sunflower PlotがD.B CARR ら(1987) によって提案されている.
Scatter PlotとSunflower Plotの比較
どちらも,X軸は検査値,Y軸は時点を示すが,Sunflower Plotでは,ひまわりの花びらを
模した色と線の組合せによって,被験者数を示している
検査
値(W
eek
8)
検査値(投与前値)
検査
値(W
eek
8)
検査値(投与前値)
被験者数
多い
少ない
28
SAS9.4におけるSunflower Plotの作成方法: SURVEYREGプロシジャ及びSGPLOTプロシジャのPOLYGONス
テートメントを使用 • SURVEYREGプロシジャの概要と基本構文
• 線形モデルの当てはめ,回帰係数及びその共分散行列の算出を行ない,標本調査に基づくデータに対して回帰分析を行なう.
• SGPLOTのPOLYGONステートメントの概要と基本構文 • 入力データセットに指定した座標データを元に,多角形(以下「ビン」と呼ぶ)を作成する.
POLYGON X=<X軸の変数> Y=<Y軸の変数> ID=<各ビンを識別する変数> / COLORRESPONSE=<各ビンの色付けに使用する変数*> COLORMODEL=<各ビンに適用する色の組合せ> ;
PROC SURVEYREG DATA=<入力データセット> PLOTS(NBINS=<ビンの数> WEIGHT=<グラフの種類>) =FIT(SHAPE=<シンボルの形状>) ; MODEL <Y軸の変数> = <X軸の変数> ; RUN ;
29
SURVEYREGプロシジャにおける主なオプション: オプション 概要
PLOTS<(global-plot-options)> <=plot-request <(plot-option)>>
2変数による六角形又は長方形のHeat map領域上に,回帰直線を描く ・PLOTS=all ・PLOTS(WEIGHT=HEATMAP)=FIT
<PLOTSオプション> NBINS=nbin1 <nbin2>
ビンの数を指定 ・10: 100のビンが作成される ・10 20: 10×20=200のビンが作成される
<PLOTSオプション> WEIGHT=BUBBLE | HEATMAP
レコード数に対して,領域が比例するBubble Plotか,色の濃淡で示すHeat mapのどちらかを指定
<FITオプション> SHAPE=RECTANGULAR | HEXAGONAL
ヒートマップ領域を長方形と六角形のどちらにするかを指定 ※省略形の「REC」「HEX」の指定が可能
30
POLYGONステートメントにおける主なオプション: オプション 概要
COLORRESPONSE =numeric-variable
ビンの色を指定した数値変数の値に応じて変化させる
COLORMODEL =color-ramp-style-element | (color-list)
COLORRESPONSEオプションと同時に使用する色の組合せを指定.色リストの直接指定も可能 ・3色: ThreeColorRamp(デフォルト), ThreeColorAltRamp 2色: TwoColorRamp, TwoColorAltRamp
FILLATTRS =(TRANSPARENCY=number)
ビンに対する,透過性を指定 (0~1の値を指定し,0が透過なし)
OUTLINE ビンに対して,輪郭線を表示
LINEATTRS =style-element <options> | (options)
ビンの輪郭線の見た目 (色, 線の種類・太さ) を指定
LABEL =variable
ビン上に表示するラベルが格納された変数を指定
NAME ="text-string"
他のステートメントからの参照のために,本Plotステートメントに名前を割り当てる
31
Sunflower Plotの作成事例①: 成人における拡張期血圧の投与前後のプロット
• 色と線 (花びら) の両方で,被験者数を表現
<①各六角形の座標データの作成> proc suveyreg data=<入力データセット> plots(nbins=30 weight=HEATMAP)=fit(shape=HEX) ; by PARAMCD TRTAN ; model AVAL BASE ; run ; <②各六角形に表示する花びらデータを作成> - 作成方法は後述 - <③Sunflower Plotの作成> proc sgplot data=<①で作成したデータセット> sganno=<②で作成したデータセット> ; polygon x=XVar y=YVar ID=hID / colorresponse=WVar fill colormodel=(cxffffff cxfeb24c cxf03b20) ; by PARAMCD TRTAN ; model AVAL BASE ; run ;
• プロットシンボルの重なりが,色と線によって解消されており,密度の高い領域であっても厳密な被験者数を確認することができる
<プロットシンボル> : 1例 : 2例 : 3例 : 4例
: 5例 : 6例 : 7例 : 8例
32
各六角形に表示する花びらデータの作成:
(x1, y1+b)
θ
b
a (x1+a, y1)
(x1+acosθ, y1+bsinθ)
(x1, y1)
図1 HexBinデータ (SURVEYREGプロシジャの出力結果) 図2 楕円の円周上の座標
図3 Annotateデータ
hID:各六角形に付与された連番 XVar, YVar:六角形の頂点の座標 WVar:当該六角形の範囲内に値を持つ被験者の数
六角形の中心からその内接円に向けて線を引く.X軸とY軸のスケールが異なる場合は
楕円となるため,円弧を等分した位置に線を引く
X1, Y1及びX2, Y2は六角形の中心(=花序)とその中心から楕円の円周との交点に向けて引いた直線の始点・終点の座標を示す
33
Sunflower Plotの作成事例②: 成人における拡張期血圧の投与前後のプロット
• 色と数字の両方で,被験者数を表現
<①各六角形の座標データの作成> proc suveyreg data=<入力データセット> plots(nbins=30 weight=HEATMAP)=fit(shape=HEX) ; by PARAMCD TRTAN ; model AVAL BASE ; run ;
<②プロットシンボルの作成> ①で作成したデータセットについて,以下の処理を行う if WVar=1 then Label_Num="●" ; else Label_Num=strip(put(WVar, best.)) ;
<③Sunflower Plotの作成> proc sgplot data=<②で作成したデータセット ; polygon x=XVar y=YVar ID=hID / colorresponse=WVar fill label=Label_Num colormodel=(cxffffff cxfeb24c cxf03b20) ; by PARAMCD TRTAN ; model AVAL BASE ; run ;
• 花びらと同様に,直感的に被験者数を確認することができる.プロットシンボルの数が多くなる場合も厳密な被験者数が確認できる
34
本日の内容: 1. 発表の背景
2. 適切なGraphic Designについて 適切なGraphic Designの原則 Graphic Designの推奨事項
3. SGプロシジャを用いたGraphicsの提案 SGプロシジャの概要 サンプルデータ Spaghetti PlotとLasagna Plotの比較提案 Scatter PlotとSunflower Plotの比較提案
4. まとめ
35
まとめ: 本発表では,Susan P.Dukeら (2015) によって提案された適切なグラフの選択方法を紹介した. 臨床試験でよく使われているSpaghetti PlotやScatter Plotについて,Lasagna PlotやSunflower Plotといった付加情報を加えたグラフと比較・考察するとともに,SAS9.4のSGプロシジャによる作成方法及びカスタマイズ方法を報告した. Lasagna PlotやSunflower Plotはいずれもプロットの重なりが解消されて
いるため,個々の被験者の情報を比較的失うことなく表現することが可能である. ただし,SASの機能が年々向上している一方で,eCTDの規制上,モノク
ロ印刷を意識した記載をすることが求められており,本発表で紹介したグラフをeCTDで利用する場合は,より議論が必要である.
36
参考文献: Bruce J. Swihart et.al. (2010). Lasagna Plots A Saucy Alternative to Spaghetti Plots; Epidemiology. 2010 Sep;
21(5): 621–625 CDISC (2016). Analysis Data Model Implementation Guide Version 1.1 Cynthia Brewer et.al. (2009). COLORBREWER2.0; http://colorbrewer2.org/ D.B. CARR et.al. (1987). Scatterplot Matrix Techniques for Large N; Journal of the American Statistical
Association; Vol. 82, No. 398 (Jun., 1987), 424-436 David W. Scott (1988). A Note on Choice of Bivariate Histogram Bin Shape; Journal of Official Statistics Vol.4,
No.1, 1988, p47-51 F. Bancken et.al. (2013). General Principles, Illustrations and Wiki Resources for Improving Statistical Graphs;
International Meeting STATISTICAL METHODS IN BIOPHARMACY SFDS Rick Wicklin (2014). How to create a hexagonal bin plot in SAS;
http://blogs.sas.com/content/iml/2014/09/02/hexagonal-bin-plot.html Safety Graphics Working Group (2012). Choosing the Right Graph – What is the Process?; Available at
https://www.ctspedia.org/do/view/CTSpedia/SelectRightGraph [Accessed 11 June 2016] SAS Institute Inc. SAS 9.4 ODS Graphics: Procedures Guide, Fifth Edition;
https://support.sas.com/documentation/cdl/en/grstatproc/67909/HTML/default/viewer.htm Susan P.Duke et.al. (2012). 9 Best Practices for Making Graphs;
https://www.ctspedia.org/do/view/CTSpedia/BestPractices Susan P.Duke et.al. (2015). Seeing is believing: good graphic design principles for medical research. Statistics
in Medicine 2015; 34(22): 3040-59. The Clinical Trials Safety Graphics Home Page; https://www.ctspedia.org/do/view/CTSpedia/StatGraphHome William D. Dupont et.al. (2003). Density Distribution Sunflower Plots. Journal of Statistical Software 2003; 8(3) 高浪洋平・舟尾暢男 (2015) 「統計解析ソフト『SAS』」(カットシステム) 野中文雄 (2010) 「ActionScript 3.0による三次元表現ガイドブック」(毎日コミュニケーションズ) 舟尾暢男 (2016) 「もしも,SAS の sgplot と R の ggplot2 を比較したら…」(第1回ナニワデータサイエンス研究会) 日本高血圧学会2014作成委員会 (2014) 「高血圧治療ガイドライン2014」(日本高血圧学会)