Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
本日のセミナー内容
1.Blast2GO® PROの製品紹介
2.Blast2GO® PROのRNA-Seq解析機能について
・FASTQファイルのクオリティチェック・RNA-Seq DeNovo Assemblyによるコンティグ作成・ペアワイズ解析によるサンプル間比較・非モデル生物にも対応した遺伝子機能アノテーション解析
3.質疑応答
~どのような解析が可能?~
~実際の操作を交えてご紹介~
本日のセミナー内容
1.Blast2GO® PROの製品紹介
~どのような解析が可能?~
Biobam社とは
• 2011年スペインのバレンシアで設立
• 機能アノテーションやゲノムワイド解析の
バイオインフォマティクスソフトウェアを販売
• Blast2GO® PROは、3000を超える論文で引用されている
Blast2GO® PROの主な特徴
直感的なインターフェースウェット実験の研究者向けに設計されたソフトウェアです。初めてでも簡単に使用することができます。
データマイニングBlast2GO ® PROは機能アノテーションが付加できるだけではありません。様々なグラフィカル機能や統計解析機能 を使って、データの生物学的意義を調べることができますBlast2GO® PROは、Gene Ontology Terms, InterPro Domains, RFAM Ids, Enzyme Codes, KEGG maps をサポートしています。
PCのシステム要件Blast2GO® PROはウェブベースのソフトウェアで解析や計算は、統合させたウェブサイトやbiobam社のクラウドを通して行われるため、安定したインターネット接続があれば解析が可能です。
コマンドの入力はなく、マウス操作で簡単に解析可能
Blast2GO® PROでできること
Gene Ontology Annotation
アノテーションによる機能付け配列間の相同性比較を行うBlast解析と、アミノ酸配列のドメイン・モチーフを調べるInterProScanを、同時に実行することが可能。また専用のクラウドを使用することで高速に解析が実行できます。さらに、GO Slimやエンリッチメント解析などユーザー定義のアノ テーションスタイルが設定可能です。
変動遺伝子群(変動タンパク質群)クラスター分類された遺伝子群(タンパク質群)
どのような機能をもつか?変化した機能に偏りがあるか、それはどのような機能か?
Blast2GO® PROでできること
Genome Characterization
遺伝子予測真核生物の遺伝子予測に使用されるソフトウェア 「Augustus」と原核生物の遺伝子予測に使用されるソフトウェア「Glimmer」を組み込むことにより、遺伝子予測解析が可能となりました。
未知の生物の新規配列 遺伝子領域の予測解析
Blast2GO® PROでできること
RNA-seq
新規Transcriptレベルの定量解析(Fast+Fastq)RNA-Seqデータセットでの発現解析が行え、テストサンプルとコントロールサンプルの比較解析を行うことができます。解析結果から、Volcano PlotやMA plotを描画するこ ともできます。経時変化の発現解析も可能です。また、RNA De novo Assemblyにも対応しています。
本セミナーで詳しくご説明いたします!
変動遺伝子群 機能付け・発現比較
本日のセミナー内容
1.Blast2GO® PROの製品紹介
2.Blast2GO® PROのRNA-Seq解析機能について
・FASTQファイルのクオリティチェック・RNA-Seq DeNovo Assemblyによるコンティグ作成・ペアワイズ解析によるサンプル間比較・非モデル生物にも対応した遺伝子機能アノテーション解析
3.質疑応答
~どのような解析が可能?~
~実際の操作を交えてご紹介~
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+前処理
・Ascaridia galli は広範囲の家禽に感染する腸内寄生虫ヨーロッパの農場で鶏を飼育し、経済的な問題を引き起こす。
・利用できる唯一の治療法は、駆虫剤のグループであるフルベンダゾール(FLBZ)のようなベンズイミダゾール誘導体しかし、A. galli は耐性機構を発達させる可能性があるため、将来的にはそれらの過剰使用は問題となる可能性がある。
デモンストレーションデータ
使用するデータ:
生物種:Ascaridia galli (腸内寄生虫)
Michaela M. Martis et al. in 2017(doi: http://doi.org/10.1371/journal.pone.0185182)
ERR194831 コントロール
ERR194832 コントロール
ERR194833 コントロール
ERR194834 フルベンダゾール
ERR194835 フルベンダゾール
ERR194836 フルベンダゾール
A. galliのリファレンストランスクリプトームを開発する 。
RNA-Seq示差的発現解析によるFLBZ暴露前後の遺伝子発現における応答を理解する。
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+ 前処理
FASTQ Quality Checkツールは、次世代シーケンサーより出力されたシーケンスデータのクオリティチェックを簡単に実行することができます。
データが良好に見えるかどうか、下流分析に影響する可能性のある問題または偏りがないかどうかを簡単に概観できます 。
このツールは、多くのユーザーが使用するFastQCソフトウェアに基づいています。
FASTQ Quality Check
FASTQ Quality Check
・画面左上のToolsよりFASTQ Tools>FASTQ Quality Check
・FASTQファイルを選択(gzip形式で圧縮された形式でも可)
・ ライブラリーに対して検索されるアダプター・シーケンスのリストを含むファイルを指定。(Name <Tab> Sequence”の形式で名前付きアダプタのセット)
このオプションが設定されていない場合、Blast2GOは以下のアダプター・シーケンスを検索します。イルミナユニバーサルアダプター:AGATCGGAAGAG
Illumina Small RNA 3 'アダプター:TGGAATTCTCGG
Illumina Small RNA 5 'アダプター:GATCGTCGGACT
Nexteraトランスポゼース配列:CTGTCTCTTATA
SOLID小型RNAアダプター:CGCCTTGGCCG
・過度表現されたシーケンスをスクリーニングするための汚染物質のリストを含むファイルを指定。(Name <Tab> Sequence の形式で名前の付いた汚染物質のセット)このオプションが設定されていない場合、Blast2GOは共通の汚染配列のリストを検索
・読み込みの塩基のグループ化を有効にします。そうでない場合は、レポートにはすべての基本データが読み込まれます。
FASTQ Quality Check
・解析が終了するとレポートが作成される
・項目ごとにクオリティチェックの結果が表示される。
・レポートのアイコンをクリックすることでさらに詳細な結果を見ることが可能(次ページ)
FASTQ Quality Check
Per Base Sequence Quality Chart
シーケンスごとの品質スコアチャート
塩基配列別コンテンツチャート
シーケンスごとのGC含量チャート
塩基ごとのN含量チャート
配列長分布図
アダプタのコンテンツチャート
過剰表現されたシーケンス表
シーケンス重複レベルのグラフ
FastQ Pre-Processingツールは、次世代シーケンサーより出力されたシーケンスデータのアダプター除去やトリミングを簡単に実行することができます。
FastaQ Quality Checkで確認後アダプター除去や様々なトリミングができます。
FastQ Pre-Processing
FastQ Pre-Processing +
FASTQ Quality Check
今回使用した解析データではアダプター除去を実行
QC結果からもアダプターの除去が確認できる
【アダプター除去前】 【アダプター除去後】
Illuminaアダプター
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+前処理
RNA-Seq DeNovo Assembly
生物学およびバイオインフォマティクスにおける最もメジャーなタイプの分析の1つであり、RNAシークエンシングデータからトランスクリプトームを再構成し、参照ゲノムを使用せずに短いヌクレオチド配列をより長いものに組み立てます。
この機能は、Broad Institute と Hebrew Unicersity of Jerusalem で開発された、よく知られたデノボシークエンスアセンブラソフトウェアであるTrinityに基づいています。
RNA-Seq DeNovo Assembly
・Fastaqファイルの選択(シングルリードもしくはペアリード)
・研究中の転写産物RNA-seqデータが遺伝子密度の高いコンパクトゲノムから誘導される場合、融合転写産物を最小化することが可能。このオプションは、ペアエンドのデータでのみ使用できます。コンパクトな真菌ゲノムでは、それは強く推奨されます。
RNA-Seq DeNovo Assembly
・RNA-seq読み取りの鎖の長さの定義
・フラグメント対の間で予想される最大長
・転写物を遺伝子マッピングファイルに保存することが可能。
RNA-Seq DeNovo Assembly
・作成されたコンティグの表とDeNovo Assemblyの結果のレポートが作成される一部グラフ化も可能
RNA-Seq DeNovo Assembly
トランスクリプトームアセンブリの完全性を評価するために、BUSCOソフトウェアを用いて線虫のオルソログを検索した。
オルソログデータベースをダウンロードし、そのウェブサイトから、今回のアセンブリを使用してソフトウェアを実行
アゼンブルのシングルコピーは少なくとも91.3%がオルソログを持ち同時に5.3%が部分的に見つかっており、3.4%が欠損していた。
元の研究と同様の結果が得られた。(91.9%の完全なオーソログが見つかり、3.3%が欠損していた)
https://www.blast2go.com/support/blog/22-blast2goblog/188-drug-response-transcriptomics
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+前処理
機能アノテーションとInterProScan
RNA-Seq DeNovo Assemblyで得たコンティグに機能情報を付与する。
3ステップで簡単に機能アノテーション付けが可能です。
タンパク質のドメイン構造やモチーフなどの特徴を推定できるInterProScanにも対応しており、Blast解析と同時に解析可能です。
Biobam専用のクラウドで解析計算を行うことで高速でBlast解析、InterProScan解析が可能です。( 解析ごとにComputation Unitsが消費され使い切ると再度ユニット購入することでBiobam専用のクラウドで解析を行うことができます。)
機能アノテーションとInterProScan
Run Blastを実行
CloudBlastbiobam専用のクラウドサーバー上で、 Blastを安全にかつ高速に実行することができます。CloudBlastは、最初の購入時に6 Million Computation Unitsが付属しており、CloudBlast解析を行うごとに消費されます。すべてのUnitsを使い切ってしまった場合は、追加でComputation Unitsを購入することができます。
NCBI BlastBLASTアルゴリズムを用いて分子配列データベースを検索することを可能にする公共サービスを利用します。
Local BLASTBLAST +実行可能ファイルを使用して、ローカル/独自のデータベースを照会します。
あらかじめ検索したいデータベースの情報をダウンロードし設定しておく必要があります。
Blastのサーバー選択
ブラスト設定ページ(NCBIを選択した場合)
Eメールアドレス。
BLAST program:使用したいアルゴリズム• blastp - タンパク質+タンパク質配列データベースを比較します.• Blastn - ヌクレオチドクエリー配列とヌクレオチド配列データベースを比較します• blastx - すべてのリーディングフレームで翻訳されたヌクレオチドクエリー配列を
タンパク質配列データベースと比較します。• tblastn - タンパク質クエリー配列を、すべてのリーディングフレームで動的に
翻訳されたヌクレオチド配列データベースと比較します。• blastx-fast• blastp-fast• blastp-short• blastn (-task megablast)• blastn (-task dc-megablast)• blastn-short• tblastn-fast
BLAST DB:検索するデータベースの名前(例:nr、swissprot、pdb)。
Taxonomy Filter:選択したタクソノミー内のブラスト結果のみを検索します。
BLAST expect value:統計的有意性閾値E- value の値を指定。
Number of BLAST hits:達成したいアラインメントの数(0~100)。
BLAST Description Annotator:BLAST結果に基づいて新しい配列についての最良のアノテーションを見つけます。
機能アノテーションとInterProScan
詳細な設定が可能
BLAST検索が進行するにつれて、正常なBLAST結果を有する配列は、表の色がオレンジ色になり 、与えられたシーケンスに対して検索結果が得られない場合、暗赤色に変わります。
表として個々のBLAST結果やアラインメントビューで個々のBLAST結果を見ることができます。
マウスでシーケンスを右クリックすると、Single Sequence Menuが表示され、各シーケンスのBLAST結果を個別に確認することができます。Show BLAST Resultsは、選択された配列の類似性検索の結果に関する情報を含む結果を表示します。
機能アノテーションとInterProScan
InterProScan
Blast2GOのInterProアノテーションの機能にタンパク質のドメイン構造やモチーフなどの特徴を推定できます。対応するGOタームは、次にシーケンスに転送され、既存のGOタームとマージされます。
CloudIPSCloudIPSは、小規模から大規模なデータセットまで、あらゆる分野の高速かつ信頼性の高いInterPro分析用のクラウドベースのBlast2GO PROコミュニティリソースです。専用コンピューティングクラウドの最新のデータベースに対して元のInterProアルゴリズムを実行することができます。Cloud IPSは、 CloudBlastのComputation Unitsを使用し、解析を行うごとに消費されます。
EMBL-EBI interPro公開EMBL-EBI InterPro Webサービスは、InterProのシグネチャに対してシーケンスをスキャンし、パフォーマンスと結果はEBI Webサーバーに依存します。
サーバー選択
InterProアイコンから実行できます。
機能アノテーションとInterProScan
マッピングは、BLAST検索によって得られた情報に関連するGO用語を検索するプロセスです。
機能アノテーションとInterProScan
アノテーションでは細かなしきい値の調節やエピデンスコードの設定が可能
機能アノテーションとInterProScan
アノテーションステップが終了すると、80,000件の転写物の機能アノテーションを取得した。
元の記事では、 Trinotate suiteを使用して最終的にアノテーションが付けられた転写産物は3万件に過ぎなかった。
Blast2GO® PROを使用することで簡単にコンティグにアノテーションを付加ができます。また、アノテーションされたコンティグ数も多い結果となりました。
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+前処理
Differential Expression Analysis
トランスクリプトームデータからの発現を定量化「Create Count Table」
ソフトウェアパッケージであるRSEMに基づいています。
STEP1 STEP2
2つの異なる実験条件のペアワイズ比較発現されたゲノム特徴の同定を可能にする
ソフトウェアパッケージEdgeRに基づいてます。
Differential Expression Analysis
Create Count Table
今回はトランスクリプトレベルでの定量
Differential Expression Analysis
Create Count Table
ペアエンドリードの場合、ここでリード1(_1.fastq)を選択。
リード2(_2.fastq)を選択。
サンプル名の条件_1(または2).fastqというファイル名
ここでは、Contig配列(fasta)ファイルを選択。
Contig配列をリファレンスとしてリードをマッピングしていく
シングルもしくはペアリードを選択
Gene-level Estimationsチェックを入れると、遺伝子レベルとアイソフォームレベルの両方で発現量を計算します。
Transcript to Gene Map FileGene-level Estimationsにチェックを入れた場合、ここでTranscript(アイソフォーム)IDと遺伝子IDを対応付けするための情報ファイルを選択してください。
Append Poly(A) TailsポリAを持つmRNA解析の場合、ReferenceにポリAを付加して、精度よくアライメントを行うことができます。
Poly(A) Tails Length付加するポリAの長さを設定します。
Estimate RSPDRead Start position distribution (RSPD)を測定します。もし、プロトコルが5’や3’に偏りがあるならば、これを行うことを強く推奨します。
Strand SpecificityStrand SpecificなLibraryを作成した場合は、ここで設定する必要があります。
Differential Expression Analysis
Create Count Table
詳細なパラメータ設定が可能
解析が終了すると、発現レベルに関するテーブルとレポートが作成されます。
Differential Expression Analysis
Create Count Table
Differential Expression Analysis
ペアワイズの発現解析
ペアワイズ解析を選択。 CPM Filter:ライブラリーで低いカウントの遺伝子を除外
Sample reaching CPM filter:CPM filterで設定した値を達成しているサンプルの最低数のフィルター
Normailzation Method:ライブラリーサイズなどのデータバイアスを避けるため、データのノーマライズを行う
Differential Expression Analysis
ペアワイズの発現解析
実験条件ファイルは、このようにタブ区切りのファイルである必要があります。このファイルの最初の列のサンプル名は、カウントテーブルのヘッダー(最初の行)と一致している必要があります。
実験条件ファイルを選択
Differential Expression Analysis
ペアワイズの発現解析
Simple Design:2つの実験条件に属するサンプルをペアワイズで比較します。Primary Target内の条件で比較します。
Paired Design:Simple Designに加え他の実験要因のベースライン差を調整する。
Multifactorial Design:2つの実験的な要因で2つの実験的な状況に属しているサンプルの間のペアワイズに比較します。
Differential Expression Analysis
ペアワイズの発現解析
解析が終了すると、Pairwise differential Expression Resultsのテーブルが作成されます。
Differential Expression Analysis
ペアワイズの発現解析
ボルケーノプロット
ヒートマップ MAプロット
結果のグラフ化
結果のテーブルより簡単にグラフ化を行うことができます。
Differential Expression Analysis
79個のアップレギュレーションされた遺伝子と112個のダウンレギュレートされた遺伝子を検出した。
【アップレギュレーション】多剤耐性タンパク質(PGP)ATP結合カセットスーパーファミリーのメンバー。抵抗性は、薬物蓄積の減少および薬物流出の増加に関連する。
熱ショックタンパク質(HSP)ある範囲のストレス状態に曝されたことに応答して産生されるタンパク質群のサブセット。
【ダウンレギュレーション】グルタミン酸デヒドロゲナーゼ(GDH)これは、線虫のエネルギー恒常性において重要な役割を果たし、ATP産生に関与する反応を伴う酵素である。
シトクロムP450これは、酸化的リン酸化を介したATP産生に関与する。
両方の所見は、ATP産生がFLBZの影響を受けることを示唆している。
ストレスや薬剤耐性に関連するアップレギュレートされた遺伝子を検索し、著者らの報告と同様の結果を得た。
さらにBlast2GO® PROは解糖経路の重要な調節段階として働くホスホフルクトキナーゼ(PFK)を検出した。この知見は、解糖系がFLBZへの暴露によって影響される可能性があることを示唆している。
RNA-seq配列データ
(Fastq)
Fastq Quality Check
RNA-Seq DeNovo Assembly
機能アノテーションとInterProScan
Differential Expression Analysis
Enrichment analysis.
Fisher's Exact Test
データ解析の流れ
+前処理
Blast2GO® PROは発現変動遺伝子の機能に、どのようなものが多いのかを解析するEnrichment Analysisを搭載してます。
FatiGO p ackageを統合して、2組のシーケンス間のアノテーションの相違を統計的に評価します。
この分析のために、アノテーション付きの関連シーケンスをアプリケーションにロードする必要があります。Blast2GO® PROアノテーションの結果でも、ファイル(.annot )によるインポートされたアノテーションでも構いません 。
Fisher's Exact Test
Fisher's Exact Test
アップレギュレーションした遺伝子ダウンレギュレーションした遺伝子をそれぞれテキストファイルにまとめます。
アノテーションされたリファレンスを用い解析を行います。またP-ValueやFDRの値を指定できます。
Fisher's Exact Test
表で解析結果が表示されます。
様々なグラフ化が可能です。
アップレギュレートされた遺伝子分析は結果を示さなかったが、ダウンレギュレートされた遺伝子内で興味深い機能を見出した。
グルクロン酸代謝があるため、UDPグルクロン酸転移酵素(UGT)が検出された。この酵素は、いくつかの生体異物にグルクロン酸を添加することを含むグルクロニド化反応を触媒する、最も頻繁に使用される薬物を排除する重要な手段として知られている。
この排泄経路は、フルベンダゾール処理された生物において下方制御される。
フルベンダゾール処理を行ったにもかかわらず薬物除去経路がダウンレギュレートした
エンリッチメント解析により著者らの報告にない可能性を提示した
Fisher's Exact Test
・ Blast2GO® PROは、A. galliトランスクリプトームを組み立て、それにアノテーションをつけ、上方制御遺伝子および下方制御遺伝子の記述を同定し、エンリッチメント解析を行うことを可能にした。
・参照論文と同様の変動遺伝子に加え、新たな仮説を与える変動遺伝子が検出された。
・これらの解析をコマンドを組むことなく簡単に解析を行うことが可能です。
Blast2GO® PRO
Blast2GO® PROは他にも様々なアプリケーションが搭載されてます。弊社のHPにはそれらの情報に加え、デモライセンスを取得して実際にご自身のデータ解析を行うことも可能です。https://filgen.jp/Product/BioScience21-software/BioBam/index.htm