Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
2
• CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で使用可能な無償プラグイン
• RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる
• おもにサンプル間の比較解析や、データのビジュアライゼーションに使用
Advanced RNA-Seqプラグイン
3
PCA for RNA-Seq: 主成分分析(Principal Component Analysis)
Differential Expression for RNA-Seq: 発現変動遺伝子の解析
Create Heat Map for RNA-Seq: 二次元階層クラスタリング解析とヒートマップ作成
Create Expression Browser: 各種発現データの統合リストの作成
Create Venn Diagram for RNA-Seq: 発現変動遺伝子リストのベン図作成
Advanced RNA-Seq搭載ツール
• サンプル間比較解析を行うツールでは、自動的に各サンプルのRNA-Seqデータの「Total count」データに基づいて、TMM法で補正されたデータが解析に使用される。
4
PCA for RNA-Seq
• 発現量データを用いて、主成分分析 (Principal Component Analysis: PCA) を行うためのツール
• プロットデータの、2Dと3D表示に対応
• あらかじめ関連付けておいた、サンプルメタデータのグループ分類情報に基づき、プロットを色分けしての表示が可能
• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる
5
Differential Expression for RNA-Seq
• 発現量データを用いて、サンプル間の発現変動解析を行うためのツール
• サンプル間の発現変動を示すFold ChangeとP値が計算され、ボルケーノプロットによる表示が可能
• Track表示の際、変動の大きさに基づき、各遺伝子を色分けして表示が可能
• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる
6
Create Heat Map for RNA-Seq
• 発現量データを用いて、二次元階層型クラスタリングを行い、ヒートマップ表示を行うツール
• 発現変動を示す遺伝子や、任意の遺伝子リストに含まれる遺伝子のみを使用して、解析を実行することが可能
• あらかじめ関連付けておいた、サンプルメタデータのグループ分類情報に基づき、サンプルを色分けしたラベル表示が可能
• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる
7
Create Expression Browser
• Differential Expression for RNA-Seqツールで作成した発現変動解析データと、RNA-Seqの発現データを統合したリストを作成するツール
• Gene Ontologyなどの遺伝子機能アノテーションデータも同時に表示させ、外部データベースへのリンクも使用可能になる
8
Create Venn Diagram for RNA-Seq
• Differential Expression for RNA-Seqツールで作成した発現変動解析データを複数セット用いて、データ間の遺伝子の重複などを表すベン図の作成を行うツール
• ベン図上でFold ChangeやP値の閾値を変更し、変更結果をリアルタイムにベン図に反映が可能
• ベン図上の任意のエリアを選択することで、該当する遺伝子データを容易に取得が可能
9
• RNA-Seq発現量データの取得
RNA-Seq Analysis
• 主成分分析 • 発現変動解析 • クラスタリングとヒートマップ作成
PCA for RNA-Seq Differential Expression
for RNA-Seq Create Heat Map for
RNA-Seq
• ベン図作成
Create Venn Diagram for RNA-Seq
• 発現データリスト作成
Create Expression Browser
各ツールの使用の流れ
• メタデータのインポート
Import Metadata
10
Import Metadata
11
まず始めにMicrosoft Excelなどを使用し、以下の例のように、1行1サンプルごとにサンプル情報をまとめたファイル(.txt, .xlsx形式など)を作成する。
1列目には、関連付ける各データの、Navigation Area上でのデータ名の一部またはすべてと同じにする。
2列目以降の列数とヘッダー名は任意に指定できる。
各サンプルのリード配列データ
Import Metadata
12
ImportメニューからImport Metadataを選択しクリックすると、ウイザードが起動する。
Import Metadata
13
Data association: • Exact: 1列目のデータ名と、関連付けるデータ名が完全一致する場合に選択。 • Partial: 1列目のデータ名と、関連付けるデータ名が部分一致する場合に選択。 *関連付けが実行可能だと、緑色のチェックが付く。
Import Metadata
14
• データの保存先を指定する。
• メタデータのテーブルがインポートされる。
Import Metadata
15
RNA-Seq Analysis
16
1. RNA-Seq Analysisを選択し、ダブルクリック。
2. リード配列データを選択。
RNA-Seq Analysis
17
【References】 Genome annotated with genes and transcripts: • 「Gene」および「mRNA」のアノテーショントラックの両方が存在する場合(真核生物ゲノム)。
Genome annotated with genes only: • 「Gene」のアノテーショントラックのみ存在する場合(原核生物ゲノム)。
One reference sequence per transcript: • アノテーションが無い場合(リファレンスデータが配列のリストである場合に使用)
• 各配列は転写産物として扱われ、それらの発現量が計算される。 • RNA-SeqデータのDe novo assembly産物がリファレンスの場合に頻用される。
Mapping: • Map to gene region only (fast): Gene trackで指定された領域のみにマッピングする。
• Also map to inter-genic regions: 遺伝子間領域にもマッピングする(遺伝子発現量データには反映されない)。
RNA-Seq Analysis
18
Read alignment: • Mismatch cost: リードにおいてリファレンスとマッチしない塩基があった場合のコスト
• Insertion cost: リードに挿入があった場合のコスト • Deletion cost: リードに欠失があった場合のコスト • Length fraction: リードの長さのどの程度がマップされているべきか • Similarity fraction: リードとリファレンス間での配列がどの程度類似しているか。
• Global alignment: Global alignmentを実行するか
• Color space alignment: SOLiDのカラースペースデータにおけるエラーコスト
• Auto-detect paired distances: ペアリードデータにおいて、リード配列の距離を自動で計算する。
• Strand specific: リファレンス配列のforwardまたはreverse鎖に対してのみアライメントを実行するかどうか。
• Maximum number of hits for a read: 1つのリードがリファレンス配列に対してアライメント可能な個所の最大数。
RNA-Seq Analysis
19
Expression level: • Count paired reads as two: ペアリードを2本としてカウントする。
• Expression value: Total counts: 各遺伝子またはリファレンス配列にマップされた全リード数(non-specific readsも含まれる)。
Unique counts: 各遺伝子またはリファレンス配列にのみマップされたリード数。
TPM:各遺伝子または転写物の発現量を「Transcripts Per Million; TPM」で算出。
RPKM: 各遺伝子または転写物の発現量を「Reads Per Kilo base of exon model per Million mapped reads; RPKM」で算出。
• Calculate RPKM for genes without transcripts: mRNAアノテーションが存在しない場合、遺伝子領域をエキソン領域としてRPKMを算出する。
• Use EM estimation (recommended): EMアルゴリズムを用いて、リード配列が複数遺伝子や転写物にマッピングされた場合の、発現データ算出の感度を上げる。
RNA-Seq Analysis
20
Gene-Level Expression data
Transcript-Level Expression data
Mapping data
RNA-Seq Analysis
• 3種類の解析結果データが作成される。
21
• MetadataテーブルでFind Associated Dataをクリックすると、画面下側に関連付けられた各サンプルのデータの一覧が表示され、新たに作成した解析結果データも表示される。
• Roleカラムなどで、目的のデータを容易に抽出することができ、抽出したデータを選択した状態でToolboxのツールを起動すると、それらデータが既に選択された状態になる。
RNA-Seq Analysis
22
PCA for RNA-Seq
23
1. PCA for RNA-Seqを選択し、ダブルクリック。
2. RNA-Seq Expression trackデータを選択。
PCA for RNA-Seq
24
• 2D PCAプロットが表示される。 • Plot SettingsのMetadata項目から、各サンプルのメタデータ情報に基づき、プロットの表示色
などを変更することが可能。
PCA for RNA-Seq
25
• 3D表示に切り替えることも可能。
PCA for RNA-Seq
26
Differential Expression for RNA-Seq
27
1. Differential Expression for RNA-Seqを選択し、ダブルクリック。
2. RNA-Seq Expression trackデータを選択。
Differential Expression for RNA-Seq
28
Experimental design: • Metadata table: サンプル情報のメタデータを指定する。 • Test differential expression due to: 発現差解析に使用するサンプルのグループ情報を指定する。
• While controlling for: 発現に影響を与えていると考えられる、他の情報を指定する。
Comparisons: • Across groups (ANOVA-like): 3グループ以上のサンプルの場合の比較を行う。
• All group pairs: 全グループ間で、2グループごとの比較を行う。 • Against control group: コントロールとなるグループを決めて、比較を行う。
Differential Expression for RNA-Seq
29
• テーブル表示に切り替えると、グループ間の比較データが表示され、さらにウインドウ上部にある Filter項目で任意の条件を指定し、条件を満たすデータを検索することができる。
Differential Expression for RNA-Seq
30 • Volcano plotの表示も可能。
Differential Expression for RNA-Seq
31
• トラック表示に切り替えると、各遺伝子のゲノム上の配置を確認でき、Fold ChangeやP-valueなどのデータに基づいて、各遺伝子を着色表示できる。
• Create Track Listツールで、複数の比較データトラックを並べて表示し、それぞれのデータの違いを目視で確認できる。
Differential Expression for RNA-Seq
32
Create Heat Map for RNA-Seq
33
1. Create Heat Map for RNA-Seqを選択し、ダブルクリック。
2. RNA-Seq Expression trackデータを選択。
Create Heat Map for RNA-Seq
34
Distance: • データ間の距離の計算方法のアルゴリズムを指定する。
Clusters: • クラスター間の距離の計算方法のアルゴリズムを指定する。
Create Heat Map for RNA-Seq
35
Filter settings: 計算に使用するデータの選択方法を指定する。 • No filtering: 全データを使用する。 • Fixed number of feature:サンプル間の発現変動が大きく、少なくとも1サンプルにおいて指定された最低リード数をもつ、任意の数のデータを使用する。
• Filter by statistics: Differential Expression for RNA-Seqで作成した発現比較データを指定し、その中から任意の検索条件で抽出されたデータを使用する。
• Specify features: 任意のトラックまたはデータ名を指定し、その中に含まれるデータのみを使用する。
Create Heat Map for RNA-Seq
36
• 2次元階層型クラスタリングの樹形図とヒートマップ図が表示される。 • Heat Map SettingsのMetadata項目から、各サンプルのメタデータ情報に基づき、メタデータの
ラベルを表示することが可能。
Create Heat Map for RNA-Seq
37
Create Expression Browser
38
• the Gene Ontology (http://geneontology.org/page/download-annotations) のサイトから、解析に使用する生物種の遺伝子発現解析用アノテーションファイルをダウンロードしておく。
• 代わりにBlast2GO PROプラグインを使用し、リファレンス遺伝子のBLAST結果より、遺伝子発現解析用アノテーションデータを作成することも可能。
クリックしてダウンロード
Create Expression Browser
39
• ダウンロードしたファイルを、Importアイコン -> Standard Import からインポートすると、Navigation Areaにデータが保存される。
• インポートの際は、OptionのForce import as type:の設定で、Gene Ontology Annotation fileを指定する。
Create Expression Browser
40
1. Create Expression Browserを選択し、ダブルクリック。
2. RNA-Seq Expression trackデータを選択。
Create Expression Browser
41
Additional data (optional): • Statistical comparisons:Differential Expression for RNA-Seqで作成した、比較データを指定する。
• Annotation resource:遺伝子発現解析用アノテーションデータを指定する。
Create Expression Browser
42
• グループ間比較データや遺伝子機能アノテーションデータ、サンプルごとの発現量データをまとめたリストが作成される。
Create Expression Browser
43
Create Venn Diagram for RNA-Seq
44
1. Create Venn Diagram for RNA-Seqを選択し、ダブルクリック。
2. Statistical Comparison trackデータを選択。
Create Venn Diagram for RNA-Seq
45
• 指定の条件で抽出された、各比較データの遺伝子の重複を表すベン図が表示される。 • Venn Diagram SettingsのData項目から、比較データの遺伝子抽出条件を指定できる。
Create Venn Diagram for RNA-Seq