46
フィルジェン株式会社 バイオサイエンス部 ([email protected]) 1 CLC Genomics Workbench ウェブトレーニングセミナー: RNA-Seq編

CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

フィルジェン株式会社 バイオサイエンス部

([email protected])

1

CLC Genomics Workbench ウェブトレーニングセミナー: RNA-Seq編

Page 2: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

2

• CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で使用可能な無償プラグイン

• RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

• おもにサンプル間の比較解析や、データのビジュアライゼーションに使用

Advanced RNA-Seqプラグイン

Page 3: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

3

PCA for RNA-Seq: 主成分分析(Principal Component Analysis)

Differential Expression for RNA-Seq: 発現変動遺伝子の解析

Create Heat Map for RNA-Seq: 二次元階層クラスタリング解析とヒートマップ作成

Create Expression Browser: 各種発現データの統合リストの作成

Create Venn Diagram for RNA-Seq: 発現変動遺伝子リストのベン図作成

Advanced RNA-Seq搭載ツール

• サンプル間比較解析を行うツールでは、自動的に各サンプルのRNA-Seqデータの「Total count」データに基づいて、TMM法で補正されたデータが解析に使用される。

Page 4: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

4

PCA for RNA-Seq

• 発現量データを用いて、主成分分析 (Principal Component Analysis: PCA) を行うためのツール

• プロットデータの、2Dと3D表示に対応

• あらかじめ関連付けておいた、サンプルメタデータのグループ分類情報に基づき、プロットを色分けしての表示が可能

• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる

Page 5: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

5

Differential Expression for RNA-Seq

• 発現量データを用いて、サンプル間の発現変動解析を行うためのツール

• サンプル間の発現変動を示すFold ChangeとP値が計算され、ボルケーノプロットによる表示が可能

• Track表示の際、変動の大きさに基づき、各遺伝子を色分けして表示が可能

• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる

Page 6: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

6

Create Heat Map for RNA-Seq

• 発現量データを用いて、二次元階層型クラスタリングを行い、ヒートマップ表示を行うツール

• 発現変動を示す遺伝子や、任意の遺伝子リストに含まれる遺伝子のみを使用して、解析を実行することが可能

• あらかじめ関連付けておいた、サンプルメタデータのグループ分類情報に基づき、サンプルを色分けしたラベル表示が可能

• 解析に使用する発現量データは、自動的にTMM法により、サンプル間の正規化がされる

Page 7: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

7

Create Expression Browser

• Differential Expression for RNA-Seqツールで作成した発現変動解析データと、RNA-Seqの発現データを統合したリストを作成するツール

• Gene Ontologyなどの遺伝子機能アノテーションデータも同時に表示させ、外部データベースへのリンクも使用可能になる

Page 8: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

8

Create Venn Diagram for RNA-Seq

• Differential Expression for RNA-Seqツールで作成した発現変動解析データを複数セット用いて、データ間の遺伝子の重複などを表すベン図の作成を行うツール

• ベン図上でFold ChangeやP値の閾値を変更し、変更結果をリアルタイムにベン図に反映が可能

• ベン図上の任意のエリアを選択することで、該当する遺伝子データを容易に取得が可能

Page 9: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

9

• RNA-Seq発現量データの取得

RNA-Seq Analysis

• 主成分分析 • 発現変動解析 • クラスタリングとヒートマップ作成

PCA for RNA-Seq Differential Expression

for RNA-Seq Create Heat Map for

RNA-Seq

• ベン図作成

Create Venn Diagram for RNA-Seq

• 発現データリスト作成

Create Expression Browser

各ツールの使用の流れ

• メタデータのインポート

Import Metadata

Page 10: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

10

Import Metadata

Page 11: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

11

まず始めにMicrosoft Excelなどを使用し、以下の例のように、1行1サンプルごとにサンプル情報をまとめたファイル(.txt, .xlsx形式など)を作成する。

1列目には、関連付ける各データの、Navigation Area上でのデータ名の一部またはすべてと同じにする。

2列目以降の列数とヘッダー名は任意に指定できる。

各サンプルのリード配列データ

Import Metadata

Page 12: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

12

ImportメニューからImport Metadataを選択しクリックすると、ウイザードが起動する。

Import Metadata

Page 13: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

13

Data association: • Exact: 1列目のデータ名と、関連付けるデータ名が完全一致する場合に選択。 • Partial: 1列目のデータ名と、関連付けるデータ名が部分一致する場合に選択。 *関連付けが実行可能だと、緑色のチェックが付く。

Import Metadata

Page 14: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

14

• データの保存先を指定する。

• メタデータのテーブルがインポートされる。

Import Metadata

Page 15: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

15

RNA-Seq Analysis

Page 16: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

16

1. RNA-Seq Analysisを選択し、ダブルクリック。

2. リード配列データを選択。

RNA-Seq Analysis

Page 17: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

17

【References】 Genome annotated with genes and transcripts: • 「Gene」および「mRNA」のアノテーショントラックの両方が存在する場合(真核生物ゲノム)。

Genome annotated with genes only: • 「Gene」のアノテーショントラックのみ存在する場合(原核生物ゲノム)。

One reference sequence per transcript: • アノテーションが無い場合(リファレンスデータが配列のリストである場合に使用)

• 各配列は転写産物として扱われ、それらの発現量が計算される。 • RNA-SeqデータのDe novo assembly産物がリファレンスの場合に頻用される。

Mapping: • Map to gene region only (fast): Gene trackで指定された領域のみにマッピングする。

• Also map to inter-genic regions: 遺伝子間領域にもマッピングする(遺伝子発現量データには反映されない)。

RNA-Seq Analysis

Page 18: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

18

Read alignment: • Mismatch cost: リードにおいてリファレンスとマッチしない塩基があった場合のコスト

• Insertion cost: リードに挿入があった場合のコスト • Deletion cost: リードに欠失があった場合のコスト • Length fraction: リードの長さのどの程度がマップされているべきか • Similarity fraction: リードとリファレンス間での配列がどの程度類似しているか。

• Global alignment: Global alignmentを実行するか

• Color space alignment: SOLiDのカラースペースデータにおけるエラーコスト

• Auto-detect paired distances: ペアリードデータにおいて、リード配列の距離を自動で計算する。

• Strand specific: リファレンス配列のforwardまたはreverse鎖に対してのみアライメントを実行するかどうか。

• Maximum number of hits for a read: 1つのリードがリファレンス配列に対してアライメント可能な個所の最大数。

RNA-Seq Analysis

Page 19: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

19

Expression level: • Count paired reads as two: ペアリードを2本としてカウントする。

• Expression value: Total counts: 各遺伝子またはリファレンス配列にマップされた全リード数(non-specific readsも含まれる)。

Unique counts: 各遺伝子またはリファレンス配列にのみマップされたリード数。

TPM:各遺伝子または転写物の発現量を「Transcripts Per Million; TPM」で算出。

RPKM: 各遺伝子または転写物の発現量を「Reads Per Kilo base of exon model per Million mapped reads; RPKM」で算出。

• Calculate RPKM for genes without transcripts: mRNAアノテーションが存在しない場合、遺伝子領域をエキソン領域としてRPKMを算出する。

• Use EM estimation (recommended): EMアルゴリズムを用いて、リード配列が複数遺伝子や転写物にマッピングされた場合の、発現データ算出の感度を上げる。

RNA-Seq Analysis

Page 20: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

20

Gene-Level Expression data

Transcript-Level Expression data

Mapping data

RNA-Seq Analysis

• 3種類の解析結果データが作成される。

Page 21: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

21

• MetadataテーブルでFind Associated Dataをクリックすると、画面下側に関連付けられた各サンプルのデータの一覧が表示され、新たに作成した解析結果データも表示される。

• Roleカラムなどで、目的のデータを容易に抽出することができ、抽出したデータを選択した状態でToolboxのツールを起動すると、それらデータが既に選択された状態になる。

RNA-Seq Analysis

Page 22: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

22

PCA for RNA-Seq

Page 23: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

23

1. PCA for RNA-Seqを選択し、ダブルクリック。

2. RNA-Seq Expression trackデータを選択。

PCA for RNA-Seq

Page 24: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

24

• 2D PCAプロットが表示される。 • Plot SettingsのMetadata項目から、各サンプルのメタデータ情報に基づき、プロットの表示色

などを変更することが可能。

PCA for RNA-Seq

Page 25: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

25

• 3D表示に切り替えることも可能。

PCA for RNA-Seq

Page 26: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

26

Differential Expression for RNA-Seq

Page 27: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

27

1. Differential Expression for RNA-Seqを選択し、ダブルクリック。

2. RNA-Seq Expression trackデータを選択。

Differential Expression for RNA-Seq

Page 28: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

28

Experimental design: • Metadata table: サンプル情報のメタデータを指定する。 • Test differential expression due to: 発現差解析に使用するサンプルのグループ情報を指定する。

• While controlling for: 発現に影響を与えていると考えられる、他の情報を指定する。

Comparisons: • Across groups (ANOVA-like): 3グループ以上のサンプルの場合の比較を行う。

• All group pairs: 全グループ間で、2グループごとの比較を行う。 • Against control group: コントロールとなるグループを決めて、比較を行う。

Differential Expression for RNA-Seq

Page 29: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

29

• テーブル表示に切り替えると、グループ間の比較データが表示され、さらにウインドウ上部にある Filter項目で任意の条件を指定し、条件を満たすデータを検索することができる。

Differential Expression for RNA-Seq

Page 30: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

30 • Volcano plotの表示も可能。

Differential Expression for RNA-Seq

Page 31: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

31

• トラック表示に切り替えると、各遺伝子のゲノム上の配置を確認でき、Fold ChangeやP-valueなどのデータに基づいて、各遺伝子を着色表示できる。

• Create Track Listツールで、複数の比較データトラックを並べて表示し、それぞれのデータの違いを目視で確認できる。

Differential Expression for RNA-Seq

Page 32: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

32

Create Heat Map for RNA-Seq

Page 33: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

33

1. Create Heat Map for RNA-Seqを選択し、ダブルクリック。

2. RNA-Seq Expression trackデータを選択。

Create Heat Map for RNA-Seq

Page 34: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

34

Distance: • データ間の距離の計算方法のアルゴリズムを指定する。

Clusters: • クラスター間の距離の計算方法のアルゴリズムを指定する。

Create Heat Map for RNA-Seq

Page 35: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

35

Filter settings: 計算に使用するデータの選択方法を指定する。 • No filtering: 全データを使用する。 • Fixed number of feature:サンプル間の発現変動が大きく、少なくとも1サンプルにおいて指定された最低リード数をもつ、任意の数のデータを使用する。

• Filter by statistics: Differential Expression for RNA-Seqで作成した発現比較データを指定し、その中から任意の検索条件で抽出されたデータを使用する。

• Specify features: 任意のトラックまたはデータ名を指定し、その中に含まれるデータのみを使用する。

Create Heat Map for RNA-Seq

Page 36: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

36

• 2次元階層型クラスタリングの樹形図とヒートマップ図が表示される。 • Heat Map SettingsのMetadata項目から、各サンプルのメタデータ情報に基づき、メタデータの

ラベルを表示することが可能。

Create Heat Map for RNA-Seq

Page 37: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

37

Create Expression Browser

Page 38: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

38

• the Gene Ontology (http://geneontology.org/page/download-annotations) のサイトから、解析に使用する生物種の遺伝子発現解析用アノテーションファイルをダウンロードしておく。

• 代わりにBlast2GO PROプラグインを使用し、リファレンス遺伝子のBLAST結果より、遺伝子発現解析用アノテーションデータを作成することも可能。

クリックしてダウンロード

Create Expression Browser

Page 39: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

39

• ダウンロードしたファイルを、Importアイコン -> Standard Import からインポートすると、Navigation Areaにデータが保存される。

• インポートの際は、OptionのForce import as type:の設定で、Gene Ontology Annotation fileを指定する。

Create Expression Browser

Page 40: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

40

1. Create Expression Browserを選択し、ダブルクリック。

2. RNA-Seq Expression trackデータを選択。

Create Expression Browser

Page 41: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

41

Additional data (optional): • Statistical comparisons:Differential Expression for RNA-Seqで作成した、比較データを指定する。

• Annotation resource:遺伝子発現解析用アノテーションデータを指定する。

Create Expression Browser

Page 42: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

42

• グループ間比較データや遺伝子機能アノテーションデータ、サンプルごとの発現量データをまとめたリストが作成される。

Create Expression Browser

Page 43: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

43

Create Venn Diagram for RNA-Seq

Page 44: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

44

1. Create Venn Diagram for RNA-Seqを選択し、ダブルクリック。

2. Statistical Comparison trackデータを選択。

Create Venn Diagram for RNA-Seq

Page 45: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

45

• 指定の条件で抽出された、各比較データの遺伝子の重複を表すベン図が表示される。 • Venn Diagram SettingsのData項目から、比較データの遺伝子抽出条件を指定できる。

Create Venn Diagram for RNA-Seq

Page 46: CLC Genomics Workbench...2 • CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0以降で 使用可能な無償プラグイン • RNA-Seqデータを使用した、発現データ解析用の各種ツールが使用可能になる

お問い合わせ先:フィルジェン株式会社

TEL 052-624-4388 (9:00~17:00)

FAX 052-624-4389

E-mail: [email protected]

46