38
DNAマイクロアレイの内部構造の詳細 及び既存の正規化手法のまとめ @antiplastics

Normalization of microarray

Embed Size (px)

Citation preview

Page 1: Normalization of microarray

DNAマイクロアレイの内部構造の詳細及び既存の正規化手法のまとめ

@antiplastics

Page 2: Normalization of microarray

2

目次

• 事前知識

• 1色法での正規化

• 2色法での正規化

• 1色法、2色法に共通した正規化

Page 3: Normalization of microarray

3

事前知識

Page 4: Normalization of microarray

4

事前知識 - mRNA -

転写

翻訳,折りたたみ

…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム

mRNA

タンパク質

DNAマイクロアレイはこのmRNAを定量的に計測する技術

遺伝子の機能解析、遺伝子間相互作用の解析等に利用

各種生体内機能

Page 5: Normalization of microarray

5

事前知識 – マイクロアレイ -

マイクロアレイ = 基盤上に何かを並べたもの

Micro:1/1000レベルに分割して

Array:並べたもの

DNAマイクロアレイ = DNAを基盤上に並べたもの

細胞マイクロアレイ = 細胞を基盤上に並べたもの

タンパク質マイクロアレイ

抗体アレイ

組織マイクロアレイ

化合物マイクロアレイ

Page 6: Normalization of microarray

6

事前知識 - DNAマイクロアレイ -

• 以下の2つがポピュラー

– 1色法:Affymetrix型(オリゴヌクレオチドアレイ) • 作成法:フォトリソグラフィ法(基盤上でプローブを合成) • 商品名:GeneChip(Affymetrix社) • 種類: 3’-Array, Gene Array, Exon Array, Cytogenetics Array, miRNA Array,

SNP Array

– 2色法:Stanford型(cDNAアレイ、オリゴよりプローブが長い) • 作成法:スポット法(作成したプローブをスライドガラス上にスポット) プリント法(インクジェット) • 商品名:DNAmicroarray(Agilent社)、AceGene(DNAChip研究所)、IntelliGene(タカラバイオ社)

• その他ビーズアレイ(Bead Array: Illumina社)や、長鎖オリゴヌクレオチドアレイ(Agilent社)、タイリングアレイ(ゲノム断片)とかもあるけどここでは割愛

• EST、SAGE、CAGE、MPSS、RNA-Seq(次世代シーケンサ)等も技術は違うが、同様に遺伝子発現データを出力する

Page 7: Normalization of microarray

7

事前知識 - アレイ解析の基礎 -

-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3

5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1

2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000

5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2

t3 t2 t1 c3 c2 c1

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる

各統計手法(例:t検定)

p=0.1

p=0.007

p=0.001

p=0.09

対照群

何も刺激を与えていないもの

処置群

試薬の投与、培養条件の変化など、

刺激を与えたもの

発現変動遺伝子の判定

FDR制御

画像データ

(.DAT)

数値データ、生データ

(.CEL)

正規化

実験

Page 8: Normalization of microarray

8

事前知識 - アレイ解析の基礎 - • 必ず対数変換したものを用いる。しかも底を2にする事が多い

– 正規分布になって、統計的に扱いやすいから

– 2くらいのスケールが一番見やすいから

– 2倍と1/2倍を同等に扱いたいから

– 情報系の人はビットが好きだから

• なぜ対数正規分布するのは不明。ただし、熱力学モデルを作成して、対数正規分布するまでの仮定を記述した研究は存在(Tomokazu Konishi,2005)

x:蛍光強度 log2x

y:頻度 y

Page 9: Normalization of microarray

9

事前知識 - バイアスと正規化 -

• バイアス:実験操作やプローブの物性などで、ある値を大きく(または小さく)見積もってしまう事

• 正規化:「データには○○というバイアスがあるはずだ」という仮定のもと、そのバイアスの影響を軽減させるために、値に補正をかける事

バイアスの例

空間バイアス Cy3、Cy5のそもそもの蛍光強度の違い

蛍光強度の値に依存する分散の大きさの違い

Page 10: Normalization of microarray

10

事前知識 - バイアスと正規化 -

• 各研究者が各々バイアスを仮定するため、正規化手法は乱立

• そのわりにみんなに広く使われている手法(デファクトスタンダード)は決まっている

• 1色法と2色法でも使われている手法が全然違う

• ただし、共通の問題というのもある

Page 11: Normalization of microarray

11

1色法での正規化

Page 12: Normalization of microarray

12

1色法の原理

生物の細胞からmRNAを抽出

cDNAに逆転写

ハイブリダイゼーション反応

各スポットにcDNAと相補的なプローブが並んだ基盤

処置群

対照群

比較

ビオチン標識

Page 13: Normalization of microarray

13

PM-MM戦略(Affymetrix社) mRNAの全長は5000塩基くらい。3‘側近辺から適当な間隔で11〜16配列が選択されプローブが作成される。これはRNAが不安定で分解されやすいため

AAAAAAA

5’ 3’

PM

MM

acttctataatctgcaacggtacat

acttctataatctccaacggtacat

プローブ長は25塩基で、13番目の塩基を変えてる

1 2 3 4 5 6 7 8 9 10 11

mRNA

Page 14: Normalization of microarray

14 さらにズーム(Affymetrix社のサイトより)

Page 15: Normalization of microarray

15

1色法で提案されている正規化法

• MBEI(2001) • PLIER(2001) • dChip(2001) • RMA(2002) • PDNN(2003) • MAS5(2003) • GCRMA(2004) • multi-mgMOS(2005) • GLA(2005) • Extrapolation Strategy、refRMA,RMA+(2006) • FARMS(2006) • RMA++(2007)

• DFW(2007) • Hook(2008)

Comparison of Affymetrix GeneChip expression measures, Bioinformatics, 2006

の時点で50の手法が存在している事が確認されている

デファクトスタンダード

Page 16: Normalization of microarray

16

3つの尺度による分類

<Background Correction>

結合したmRNA以外のもの(不純物等)から由来した

蛍光強度をどのように差し引くか

<Summarization>

PM/MMを使ってどのように発現量を割り出すか

<Normalization>

他のチップデータとどのように値を揃えるか

geneX = 234.7

Page 17: Normalization of microarray

17

*MAS4(今は誰も使わない)

値が負になる場合が出てくる ⇒ 対数とるとNA(欠損値)になる ⇒ エラーになる

A:3SD以内に入った(すなわち外れ値ではないと思われる)ペアの数

1≦A≦11

<Background Correction>

PMからMMを引く事で自ずと

<Summalization>

Avdiff

<Normalization>

特に無し

PM

MM 1 2 3 4 5 6 7 8 9 10 11

プローブペア <特徴>

PM = (特異的な結合) + (非特異的な結合) + (バックグラウンド)

MM = (非特異的な結合) + (バックグラウンド)

だと考えれば、PMからMMをひけばいい

Page 18: Normalization of microarray

18

MAS5

<Background Correction>

4×4の区画からの重み付け平均

<Summalization>

Tukey Biweight法で重み付けをしたAvdiff

<Normalization>

特に無し

<特徴>

PM

MM 1 2 3 4 5 6 7 8 9 10 11

プローブペア

<Background Correction>

1. 4×4の区画にアレイを分割

2. 各区画でのランキングで小さいほうから2%のところのセルの平均値(bZk)と、その標準偏差(nZk)を計算

3. 各セル毎に、全区画の中心との距離を計算:dk(x,y)

4. 距離をもとにした重みを計算:1/ (dk(x,y) +100)

5. 各中心からの重み付け平均をバックグランドの推定値とする

6. 蛍光強度からバックグランド値を引く

1 2 3 4

5 6 7 8

9 10 11 12

13 14 15 16

y

x

Page 19: Normalization of microarray

19

MAS5(続き) MAS4の値が負になる弱点をロバスト推定の手法(Tukey Biweight法)でカバー

<Summalization>

Normalization and Construction of Expression Measures for Affymetrixより

Page 20: Normalization of microarray

20

プローブ効果

MM

PM

並べている塩基配列が違うから、プローブペアの位置によって、蛍光強度は大きく変わる

Page 21: Normalization of microarray

21

MBEI

最尤法で回帰係数を推定。

但し、少なくともこれを使うのには、10〜20チップは必要

(正規分布ベースだから)

プローブ効果を考慮

<Background Correction>

PMからMMを引く事で

<Summalization>

非線形回帰

<Normalization>

特に無し

<特徴> 複数のアレイでのプローブペアの値を非線形回帰して、推定値を割り出してから、平均を計算する

開発者達の名前“Li Wong”としても知られている

1 2 3 4 5 6 7 8 9 10 11

1 2 3 4 5 6 7 8 9 10 11

1 2 3 4 5 6 7 8 9 10 11

. . .

. .

. . .

. .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. .

プローブペア

PM-MMの

蛍光強度

の平均を使う

. . .

. .

Page 22: Normalization of microarray

22

MMの必要性に対する疑問

・MMは結構PMより大きくなる事が多い(全体の1/3くらいになる事も) ・PMからMMを引くと値のばらつきが激しくなってしまう

・PMだけにすれば、製造コストも減らせる

Probe-Level Data Normalization: RMA and GC-RMAより

Page 23: Normalization of microarray

23

dChip

MBEIをPMの値のみで行なったもの

dChip自体はソフトウェア名

おそらくオプションでMM引くか引かないか選択できるのだと思われる

論文内で、よくMBEIのPMだけ使ったバージョンという意味で出てくる

Page 24: Normalization of microarray

24

RMA法

<Background Correction>

グローバルバックグラウンド補正(PM

のみ) <Summalization>

Median polish (PMのみ)

<Normalization>

クオンタイル正規化(箱ひげ図を揃える)

<特徴> 1色法正規化のデファクトスタンダード

<Background Correction>

①PMは真のシグナル(指数分布)とバックグラウンド(正規分布)からなると仮定

②1チップ毎に、シグナルとバックグラウンドのパラメーターを推定

③それらパラメーターを利用して、PMを補正

http://bmbolstad.com/t

alks/Bolstad-

%20GenentechBioinf

ormaticsTalk.pdfより

PMの補正式

Page 25: Normalization of microarray

25

RMA法(続き)

<Summalization>

<Normalization>

Median Polish法で線形モデルを求める

クオンタイル正規化(後述)で複数アレイのデータを標準化する

http://bmbolstad.com/t

alks/Bolstad-

%20GenentechBioinf

ormaticsTalk.pdfより

Page 26: Normalization of microarray

26

RMAから派生した手法

• GCRMA

• RMA+

• RMA++

プローブ-ターゲットRNA間のGC結合の強さまで考慮したRMA

大規模なアレイ解析(100枚以上)を意識した(Extrapolation Strategy)RMA

Page 27: Normalization of microarray

27

2色法での正規化

Page 28: Normalization of microarray

28

2色法の原理

1色法との違いは、1チップ上で対照群と処置群を同時に見るところ

Cy:Cyanine

対照群1vs処置群1

対照群2vs処置群2

対照群3vs処置群3

対照群の細胞から

mRNAを抽出

処置群の細胞から

mRNAを抽出

競合的

ハイブリダイゼーション反応

Cy3 Cy5

逆転写&蛍光標識

Page 29: Normalization of microarray

29

一般的なマイクロアレイのイメージ画像

赤:正常細胞で多く発現

緑:癌細胞で多く発現

黄:両細胞で多く発現

黒:両細胞で発現無し

Cy3が赤の発光をする

Cy5が緑の発光をする

画像重ね合わせ

波長Xの光

波長Yの光

ハイブリ後のプレート

無色

Page 30: Normalization of microarray

30

2色法で提案されている正規化法

• LOWESS(局所重み付け多項式回帰) • スプライン回帰

• ハウスキーピング遺伝子の利用

• プリントオーダーバイアス補正

• 空間バイアス補正(ヒストグラム法) …

• 分散安定化法

• グローバル正規化

• クオンタイル正規化

デファクトスタンダード

こっちは1色法にも共通するものがあるので後で説明

Page 31: Normalization of microarray

31

Cy3/Cy5の非線形な系統誤差

Wikipediaより

Cy5(対照群)に比べ、

Cy3(処置群)で何倍

発現変動したか

Cy5とCy3の

対数値の平均

A = ( log2(Cy3)+log2(Cy5)) / 2

M = log2( Cy3 / Cy5 )

Cy5側に系統的に偏る(Cy3/Cy5の物性の違い)

+しかも蛍光強度に依存して偏る(非線形)

MA-plot

Page 32: Normalization of microarray

32

LOWESS、スプライン回帰 ノンパラトリック回帰の手法の利用

この回帰関数の選び方でLOWESS、LOESS、スプライン回帰等がある

補正前 補正後

この関数を直線にして、全データに補正をかける

Page 33: Normalization of microarray

33

1色法、2色法に

共通した正規化

Page 34: Normalization of microarray

34

標準化(スケーリング)

他のマイクロアレイ実験と相対的に値を比べたい(グローバル正規化ともいう) – 平均値0、標準偏差1にする (z-スケーリング)

⇒正規分布する時

– 中央値を0、MADを1にする (特にこの類を“グローバル正規化”と呼んでる気がする)

⇒正規分布しない時

– 箱ヒゲ図をそろえる、同じ順位の遺伝子同士を平均化する (クオンタイル正規化)

⇒無理やり全部同じ分布にする

中央値=0

平均値=0

中央値

Page 35: Normalization of microarray

35

VSN(分散安定化法)

チップ1

チップ2

geneAの発現量

geneAの発現量

散布図

高発現領域(分散小)

低発現領域(分散大)

考えられる理由

*そもそも小さい値のほうが、変動がでかい

例:1⇒2は2倍だが、100⇒101は1.01倍でしかない

*アレイは飽和する

低発現領域の遺伝子発現は信頼度が低い ⇒ 低発現領域の分散を小さくする補正

⇒高発現領域はもうそれ以上値が大きくならない

Page 36: Normalization of microarray

36

SuperNorm

(3パラメータ対数正規分布モデル) 実際のデータは正規分布しない事も多い。

通常正規分布は、

①平均値(分布の位置)

②分散(分布の幅)

という2つのパラメータで求められるが、SuperNormでは、第三のパラメータ

③バックグラウンド

を仮定する。

そうすると分布が必ず正規分布するようになるらしい(数式は割愛)

Page 37: Normalization of microarray

37

まとめ

既存の正規化手法のアプローチ

1色法→PM、MMをどう使うか

2色法→Cy3、Cy5の系統誤差をどう補正するか

1,2色法共通→標準化、分散安定化、正規分布化

Page 38: Normalization of microarray

38

参考文献

• 各手法の文献

• 門田先生のサイト

• 各メタ解析の文献

• PM/MMの画像:http://compbio.pbworks.com/w/page/16252906/Microarray%20Normalization%20and%20Expression%20Index

• バイオメトリックス研究所:http://www.biomatrix.co.jp/product/dna_micro/1_1.html

• Affymetrix:http://www.affymetrix.com/jp/products_services/arrays/specific/ht_hgu133_pm_ap.affx

• 京大のサイト: • Agilent: • Illumina:

• 製造法の違い:http://www.bio-concierge.com/buyers_guide/nucle2_2_1.php

• 藤淵先生の講義資料(2色法の正規化):http://cellmontage.cbrc.jp/~wataru/to_takeyama/waseda-enshu2010-1.pdf

• MAS5アルゴリズム:http://bioinformatics.picr.man.ac.uk/research/software/simpleaffy/algorithms.html

• MAS5のスライド:http://www.google.co.jp/url?sa=t&rct=j&q=estimating%20signal%20with%20next%20generation%20affymetrix%20software&source=web&cd=1&ved=0CD0QFjAA&url=http%3A%2F%2Fstat-www.berkeley.edu%2Fusers%2Fterry%2Fzarray%2FAffy%2FGL_Workshop%2FHubbell_GLGCpresents.ppt&ei=4LWPT6SKNYHumAX7gtnxAQ&usg=AFQjCNH3PnznEWu02vK8H7mb6GkW6NW2aQ&sig2=oTlCY4XIIOQYaY5Vz9Nx8A

• median polishについて:http://www3.atword.jp/kmgs/2008/12/29/median-polishで株価変動のトレンド除去/

• 正規化のベンチマーク:http://affycomp.biostat.jhsph.edu/