Upload
phungthien
View
231
Download
0
Embed Size (px)
Citation preview
© 2012 Illumina, Inc. All rights reserved.Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iSelect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
MiSeq Reporter v2 によるMiSeqデータ解析
癸⽣川絵⾥(Eri Kibukawa)Bioinformatics Support Scientist
2
MSR解析工程とワークフローの概要
インターフェイスとワークフロー毎のポイント
トラブルシュートQ:インデクス配列を確認したい
Outline
3
「MiSeq Reporterをはじめよう」
http://www.illuminakk.co.jp/events/webinar_japan.ilmn
- MSR 基本ワークフローの詳細項目、FASTQ命名規則、はじめのトラブルシュート (Q:MSRで解析結果がでてきません)
など、上記でカバーされている事項は割愛している箇所もございます.よろしければ⼀度ご覧下さい (pdf有).
MiSeq Reporter v1
〇 2012/6/15「MiSeq Reporterをはじめよう」http://www.illuminakk.co.jp/events/webinar_japan.ilmn
4
実験ステージ と イルミナシーケンシングソフトウェアMiSeq:
http://support.illumina.com/sequencing/sequencing_software.ilmn
クラウドサービスを使用したデータ保存、共有、解析実⾏環境(MiSeq Reporterの機能を内包)
MiSeqの動作制御と⼀次データ解析
MiSeqランデータの二次解析
ラン条件の指定(SampleSheet.csvファイルの作成)
MiSeq⼀次データの品質確認
5
– on-instrument ( MiSeq上)デフォルトでインストール/設定済み
ラン中は自動でMSRが起動し解析を⾏う
– off-instrument ( ユーザの個別PC上)ユーザーが自分のWindowsPCにインストール/設定MSR スタンドアロンとも呼称される
– クラウド環境 ( BaseSpace:ベーススペース) ベータ版
MSR の機能を内包.データ保存、共有、解析実⾏環境.BaseSpace機能との概念図
MiSeq Reporter 動作環境 (復習)
• supported on 64-bit Windows(Vista, Windows 7)• Installation Guide could be downloaded from MyIllumina
BaseSpace
MSR
https://basespace.illumina.com/
SAV
6
MiSeq のパイプラインで二次解以降を担当するソフトウェア
MiSeq Reporter (MSR)とは? (復習)
画像解析
ベースコール
ワークフローに従った各解析
レポート表示
画像取得
FASTQの作成MiSeq Reporter
(MSR)
MiSeq Control Software(MCS)
/Real Time Analysis(RTA)
二次解析
⼀次解析
7
対応ブラウザ バージョン OS
Google Chrome 20.0以上 Windows
FireFox 13.0.1以上 Windows
Internet ExplorerIE8 , IE9
Windows
Safari 5.1.7以上 MacOS
� Performance向上等のためMicrosoft Silverlight を採用⇒初めてアクセスする際に、ブラウザにSilverlightがインストールされる
*その他インストール先推奨環境
MiSeq Reporter インターフェイスの向上 (MSR v2)
8
– Resequencing– Custom Amplicon– De novo assembly– GenerateFASTQ (MSRv1.3〜)
– Libarary QC– 16S Metagenomics– PCR Amplicon (MSR v2.0〜)
– Small RNA– Enrichment (MSR v2.1〜)
MiSeq Reporter ワークフローの追加 (MSR v2)
Standard formatted output files!FASTQFASTABAMVCFTXTHTMLXML
*バージョン間の詳細な差異はMSRダウンロードキットに同梱のReleaseNoteをご参考下さい.
9
MiSeq Reporterの9つのワークフロー概要
いる.
リード配列を指定されたリファレンスにアライメントし変異コールは⾏わない.またアライメントも素早いDNAライブラリのQCリポート⽣成に最適化されている.
小さいゲノム(<20 Mb) をアセンブル.velvetを利用.リファレンス配列を与えた場合は⽣成コンティグ(fasta)とのドットプロットを描画.
16S rRNA bacterial 解析.Classification にはGreenGenesを利用.http://greengenes.lbl.gov/cgi-bin/nph-index.cgi
イルミナTSCAライブラリ用.TSCAのマニフェストファイルにある領域に対しアライメントと変異コールを⾏う.
コンタミ指定の配列を除いた後、miRBaseのmaturemiRNAと⼀致する配列を検出.⼀致しないものはその他 smallRNA > genome と順次アライメント.Adapter 配列マスク機能あり.
リード配列を指定されたリファレンスにアライメントし変異コールを⾏う.
Nexteraを用いたPCRアンプリコン用.マニフェストファイルで指定されたアンプリコン領域に対してリードのアライメントと変異コールを⾏う.
その他のワークフローがFASTQ⽣成後に各解析を⾏うのに対し、ベースコールファイルから FASTQ ファイルに変換したところで終了する.3rdパーティー等その他のソフトで解析を続けたい場合に指定.
濃縮処理された配列用.リード配列はゲノム全体にアライメントされ、変異コールはマニフェストファイルで指定された領域のみ.Nextera Enrichment sample preparation kits. 対応.
Resequencing
Custom Amplicon (TruSeq Custom Ampliconのこと)
de novo Assembly
Small RNA
Library QC
PCR Amplicon (Nextera-fragmented)
16S Metagenomics
Enrichment (* MSR v2.1より追加)
GenerateFASTQ
10
アライメントと変異コールソフトウェアの組合せ
* MiSeq Reporterに関する主要ドキュメント:“MiSeq Reporter User Guide” (revG 2013.1.18現在)
https://my.illumina.com/Download/Summary/aUoACtzqL0SzH1KJl1iy0A“MiSeq Reporter v2.1 Theory of Operation” 解析に関するもっとも詳細なドキュメントです(MSR v2.1).
https://my.illumina.com/Download/Summary/U_IAqdwuXkOgAY9DyPPQFQ
Somatic Variant Caller(イルミナ)はTech Noteもご参考ください.http://www.illumina.com/documents/products/technotes/technote_somatic_variant_caller.pdf
(MSR v2.1現在)
11
アライメント⇒⇒⇒⇒BWA, 変異コール⇒⇒⇒⇒GATK がデフォルトとなっています MSR v2
http://www.broadinstitute.org/gatk/http://www.broadinstitute.org/gatk/guide/
http://bio-bwa.sourceforge.net/http://bio-bwa.sourceforge.net/bwa.shtml (Manual Reference Pages)http://icb.med.cornell.edu/wiki/index.php/Elementolab/BWA_tutorial
GATK, BWAはスタンダードな3rd party ツールですので、インターネット上に様々な情報があります.
• MSR v2.1から GATK versionが1.4 ->1.6にバージョンアップされました.
* v0.6.1
BWA
12
ワークフローや解析オプションをどう指定するのか?
SampleSheet.csv による指定毎ランや毎再解析(リキュー)ごとにサンプルシートに
記⼊することでワークフローや条件の変更が可能.
MSRのconfigファイル(設定ファイル)による指定設定後は、そのMSRを使うすべてのランフォルダの解析で適用される.
* configは変更前に必ずバックアップ(コピー)をして下さい.編集エラーがありますと、MSRが起動しません.
* パラメータにより、どちらで指定可能かが決まっています.
C:¥Illumina¥MiSeq Reporter¥MiSeqReporter.exe.config
13
SampleSheet.csv とは ? (復習)
SampleSheet.csvは必ず必要です.*ファイル名は認識されますので変更なさらないで下さい.
MSR はサンプルシートの情報に基づきデマルチプレックスとワークフロー実施を⾏います.
Illumina Experiment Manager software
最新版を用いて作成下さい.*IEMでたたきを作成し、notepad等で編集頂くことも可能ですが、記述ルールに起因するエラーが発⽣し易くなりますのでご注意下さい.
ご参考;
- IEM User Guide
- イルミナサポートウェビナーSession3 http://www.illuminakk.co.jp/events/webinar_japan.ilmn
14
変更可能パラメタ例(Sample Sheetで指定するもの)
[ Adapter | AdapterRead2 | Aligner | CustomAmpliconAlignerMaxIndelSize |ExcludeRegionsManifestA | FlagPCRDuplicates | Kmer | QualityScoreTrim | TaxonomyFile | VariantCaller ]
特に変異コール特有のパラメタ;
[ FilterOutSingleStrandVariants | IndelRepeatFilterCutoff | MinimumCoverageDepth | MinQScore | StrandBiasFilter | VariantFilterQualityCutoff | VariantFrequencyEmitCutoff | VariantFrequencyFilterCutoff | VariantMinimumGQCutoff ]
• パラメタの設定可否やデフォルト値等についてはどのワークフローを選択し、どの解析ツールを指定するかにより変わります.
• 詳細は、MiSeq Reporter User Guideをご参照ください.
SampleSheet.csvの[Settings]以下にパラメタを⼊⼒
15
変更可能パラメタ例(MSR configで指定するもの)
[ AdapterTrimmingStringency | ConvertMissingBclsToNoCalls | CopyToRTAOutputPath | CreateFastqForIndexReads | EnableHTTPService |FilterNonPFReads | IndelRepeatFilterCutoff | MaximumGigabytesPerProcess | MaximumHoursPerProcess | MaximumMegabasesAssembly | MinimumAlignReadLength | NMaskShortAdapterReads | RetainTempFiles | VariantFilterQualityCutoff | GATKDownsampleDepth 等]
1. 設定変更後は、これを反映させるため、MiSeq Reporter Serviceの再起動が必用です.
2. <サービス再起動>;Windows Start ボタン> Control Panel > Administrative Tools > ServicesMiSeq Reporter serviceを右クリックしRestart Service.
3. IEウェブブラウザも⼀度閉じてから新しく起動し使用する.
詳細やデフォルト値等につきましては MiSeq Reporter User Guideをご参照ください.
MSR config: C:¥Illumina¥MiSeq Reporter¥MiSeq Reporter.exe.config
16
プリインストールドデータベース
多くのワークフローでリファレンスゲノムの指定が必用となります
* ご自分でリファレンスを用意される場合は、拡張子を.fastaあるいは.faとしてください.
* シングルFASTAを沢山置くか、マルチFASTAとするか、どちらかとしてください.
* FASTAコメント部に以下があるとエラーとなる場合があります.? ( ) [ ] / ¥ = + < > : ; " ' , * ^ | & .
(*coming release MSR v2.1)
17
Illumina iGenome からもリファレンスファイルがダウンロード頂けます
https://my.illumina.com/Message/iGenome/
18
MSR解析工程とワークフローの概要
インターフェイスとワークフロー毎のポイント
トラブルシュートQ:インデクス配列を確認したい
Outline
19
MSRトップ画面とインターフェイス(MSR v2から大きく変わりました)
ワークフローの種類
これまでのランリスト
MSRの終了ステータス
eg. http://192.168.10.16:8042http://IP address:8042or
クリック
http://localhost:8042
ワークフローの略記
20
データ参照の仕方、リキューの仕方
1. 当該のランフォルダにチェックを⼊れる
2. 現れたREQUEUE ボタンを押す
ランフォルダの参照場所設定
ヘルプ
過去のランリスト画⾯を更新(リフレッシュ)
21
MSR結果表示のための各種タブ� Summaryタブ
� Detailsタブ
� クラスター数、ミスマッチ頻度、シーケンス中のシグナル強度の推移など、ランの環境に関わる情報を表示
� 各ワークフローで概ね共通の表示項目
� 検出されたバリアント(SNP等)の表示、アセンブルされたコンティグ情報の表示、検出されたSmall RNA種の分類の表示、など解析結果を表示する主要画⾯
� 選択したワークフローごとに、表示内容は大きく変化する
管理に役⽴つその他のタブ: AnalysisInfo、 SampleSheet、 Logs、Error タブ
22
Resequencing/Amplicon系ワークフロー のDetailsタブ
カバレッジとエラー
Q score
SNP/indel + annotation
Samples・variants
サンプルテーブル
Targetsテーブル
csv形式でエクスポート
検索
縮尺(zoom)変更
23
Amplicon系ワークフロー のポイント
Amplicon系ワークフロー(TSCA, PCR Amplicon, Enrichment)には
マニフェストファイルが必用
マニフェストファイルの拡張子や名前は変えない
Illumina Amplicon Viewerという別ソフトがあり、複数ランをまとめて閲覧できる
*MSRのバージョンにより、使えるIAVのバージョンが決まります.
(MSR v1.0.7 ⇒ IAV 1.0.0.7, MSR v1.3以降⇒ IAV v1.1.0)
Enrichment ワークフローではMSRで表示されないが、以下がAlignmentN配下に出⼒されているので必要に応じて確認できる
-*.coverage.csv
マニフェスト中のターゲット領域毎のmean depthリスト
- *.gaps.csv
MinimumCoverageDepth 以下の カバレッジのターゲット領域リスト
24
– イルミナ独自の配列領域を指定したポジションファイル
– タブ区切りファイルでテキストのため、notepadなどで開くことができる
– CustomAmplicon、Enrichment、 PCR Ampliconワークフローで必要となる
– “マニフェストファイル”は総称で、ワークフローにより
フォーマットの違いがある– CustomAmplicon(TSCA)の場合イルミナから提供される
拡張子は .txt
– Enrichment, PCR AmpliconワークフローはIEMで⽣成拡張子は .AmpliconManifest
マニフェスト (Manifest) ファイルとは?
Amplicon系ワークフロー のポイント
25
De Novo アセンブリ ワークフロー のDetailsタブ Dot Plot*
メトリクス
*Dot plot は、サンプルシートでリファレンス配列を指定した場合にのみ表示されます.*De Novoアセンブリワークフローではリファレンスゲノムは必須ではありません.
26
De Novo アセンブリ ワークフロー のポイントアセンブラとしてVelvetを利用
デフォルト Kmer は 31、 パラメータで31-63 で変更可能. Kmer
デフォルトではvelvetに供するリード量(bp量)をMax 550 Mbpに設定済– MiSeqの内蔵WindowsPCメモリが8GB (装置アップグレード後は16GB) のため、
メモリエラーによる不正終了を防ぐ目的– サンプル配列の性質により場合によってはメモリエラーが発⽣することもある
eg. リピート構造の多いサンプルだったなど- パラメータでインプット量の閾値を調整可能 MaximumMegabasesAssembly
Velvet http://www.ebi.ac.uk/~zerbino/velvet/
Velvetの論⽂ http://genome.cshlp.org/content/18/5/821
Velvet: algorithms for de novo short read assembly using de Bruijn graphs,
Zerbino and Birney, Genome Research 2008
Velvet-users メーリングリスト
http://listserver.ebi.ac.uk/mailman/listinfo/velvet-users
27
Small RNAワークフロー Details タブ
smallRNA 種の内訳
miRNA(miRBaseへのヒット)
Top 10
表形式のカウントデータ
28
Small RNAワークフロー のポイント
smallRNA ワークフローで⽣成された FASTQ はすでにNでマスクの上ユニークにされている.(smallRNAワークフローの下流解析で使用するinputファイルとするため)
マスクされていないPFした全FASTQが必用の場合は、smallRNAワークフローで⽣成されたFASTQを他のディレクトリ等に避難させておき(MSRでリキューするとFASTQは上書きされるため)、サンプルシートのワークフローをGenerateFASTQに変更の上リキューし別途⽣成の必要がある.
smallRNAワークフローでは、以下の順にDBに対してアライメントを⾏いカウントしている.
Contaminants> miRNA> smallRNA> Genome
上位工程のアライメントでヒットしたリードは、それ以降のアライメント工程ではヒットしてもカウントはされない.(例;Contaminantとされたリードはそれ以降のアライメントではヒットカウントから除かれる)
Contaminants,miRNA,smallRNA,GenomeそれぞれのFASTAファイルは、サンプルシートにて指定したディレクトリ配下にあるものとなる.
(通常は、MiSeq Reporter SoftwareがインストールされたフォルダのGenomesフォルダの下)
29
Small RNAワークフロー のポイント
smallRNAのアライナーはイルミナのElandのみに対応*Elandの詳細はCASAVA v1.8.2 User Guideのexport形式についてをご参照ください.
アライメント中間ファイルの Alignment¥*.export.DB 名は gzip されている*export形式フォーマットルールはCASAVAのElandと同様です.
Adapter mask処理の結果;ランフォルダ配下のTrimmerHistogram.txt
デフォルトでは TGGAATTCTCGGGTGCCAAGGC がマスク用配列として使用される.Nexteraでサンプル処理を⾏った場合にはCTGTCTCTTATACACATCT を通常指定する.
*詳細は、以下をご参考下さい.
MiSeq Reporter Theory of Operations 2.1MiSeq Reporter User Guide (rev G)MiSeq Software Release Notes (v2.0以前からのバージョンアップの方)
* v2.1からAdapter適用アルゴリズムが向上しました
Adapter
30
smallRNA
cM - Mitochondrial DNAexon - read aligned within and exon Genome - genomic DNA contaminationGt_RNA - transfer RNAhum5SrDNA - Human 5S DNAhumRibosomal - Ribosomal RNA indexedAdapter1 - Illumina adapterlincRNA - long non-coding RNAMature miRNA - Mature miRNAnewcontam - second Illumina adapter includes poly A and Poly Cphi - PhiX genome (spike in された場合に備えて)piRNA - Piwi-interacting RNAprecursor - precursor hairpin RNAsnoRNA - Small Nucleolar RNAs snRNA - small non-coding RNA
smallRNA FASTAの種類
Appendix.
31
Metagenomics ワークフロー Detailsタブ
Classification
左で選択したレベルでの内訳
分類ごとにクラスター数等表示
32
Metagenomicsワークフロー のポイント
Classificationの結果ファイルはClassification.txt
http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/current_GREENGENES_gg16S_unaligned.fasta.gzをDBとして使用
taxonomic counts;
Kingdoms: 2
Phyla: 32
Classes: 73
Orders: 149
Families: 379
Genera: 1311
naïve Bayesian classifier (based on Wang et al) を利用ペアードエンドリードの場合はそれぞれのリードをwordに断片化して解析に用いられる
* 詳細は、以下をご参考下さい.MiSeq Reporter Theory of Operations 2.1MiSeq Reporter User Guide (rev G)MiSeq Software Release Notes (v2.0以前からのバージョンアップの方)Technote; http://www.illumina.com/documents/%5Cproducts%5Cappnotes%5Cappnote_miseq_16S.pdf
33
解析の進捗を示すプログレスバー表示プログレスバーの右のiconから解析を中止することができるランフォルダとして参照している情報のPC内での場所等
Analysis Infoタブ (MSR 管理系のタブ)
34
MSRの進捗や、エラー、ワーニングの確認.問題があったような場合もまずここのログ内容をチェック.英語メッセージを読む.
LogsタブとErrorsタブ (MSR 管理系のタブ)
35
その場編集が⾏えます.v2.1〜は、編集に加え ⾏のadd/delete/も可能に
サンプルシート タブ (MSR 管理系のタブ)
1. 変更したいところをクリックして編集
2. “Save and Requeue”を押す
36
サンプルシートにエラーがあると報告されます.このような場合、サンプルシートタブから修正しリキューできます.
(直接SampleSheet.csvを修正して頂くことも可能です)
サンプルシート タブ (MSR 管理系のタブ)
37
MSR解析結果ファイルの物理位置
FASTQ
D:¥Illumina¥MiSeqAnalysis¥当該ランフォルダ名¥Data¥Intensities¥BaseCalls
FASTQ⽣成以降の工程の解析結果D:¥Illumina¥MiSeqAnalysis¥当該ランフォルダ名¥Data¥Intensities¥BaseCalls¥AlignmentN
リキューすると必ずFASTQを作成するところから再実⾏されます.このため、既存のFASTQファイルは上書きされます.FASTQ⽣成以降の結果は、AlignmentNディレクトリ配下に⽣成されます.既存のAlignmentNディレクトリは上書きされません.最新の結果はAlignmentフォルダ名の数字がインクリメントされたフォルダに⽣成され、過去のAlignmentディレクトリは保存されます.フォルダやファイルの更新時間情報もご確認に役⽴ちます.
38
MSR解析工程とワークフローの概要
インターフェイスとワークフロー毎のポイント
トラブルシュートQ:インデクス配列を確認したい
Outline
39
Q:インデクス配列を確認したい
40
D:¥Illumina¥MiSeqAnalysis¥<ランフォルダ名>¥Data¥Intensities¥BaseCalls¥Alignment¥DemultiplexSummaryF1L1.txt
認識されたインデクス配列の上位のバリエーションとそのカウント数が記録されている
上⼿く認識されていない配列はドット. で表されている
簡単にインデクス配列を確認するには
41
MSRはv1.3以降デフォルトではインデクス配列を出⼒させない仕様に変更されましたがconfig設定変更によりデフォルトで出⼒させるようにすることも可能です.
1) C:¥Illumina¥MiSeq Reporter¥MiSeq Reporter.exe.config
をコピーしファイル名を適当に変更しバックアップとする.2 ) 上記configを右クリック>開く>notepad で開き、
ファイル中に以下の箇所に⾚で書かれている⼀⾏を加える.
3) MiSeq Reporterを再起動.Windows スタートボタン > ⼊⼒フィールドにtaskmgr と打ちエンター> Servicesタブの下部の
Service ボタンを押下 > MiSeq Reporter を右クリック > restart (p. 15の方法でも同じです)
* MSR v2.0以降でご利用下さい.MSR v2.0.26未満ですと、インデクス部の最後の1塩基が出⼒されませんのでご注意下さい.
インデクス配列をFASTQ出⼒させるには
<configuration><appSettings>
<add key="Repository" value="D:¥Illumina¥MiSeqAnalysis" /><add key="GenomePath" value="C:¥Illumina¥MiSeq Reporter¥Genomes" /><add key="TempFolder" value="D:¥Illumina¥MiSeqAnalysis¥Temp" /><add key="EnableHTTPService" value="1"/><add key="DefaultRedirectPath" value="Default.htm"/><add key="ClientSettingsProvider.ServiceUri" value="" /><add key="CopyToRTAOutputPath" value="1"/><add key="DemuxMaxSequencesToReport" value="100"/><add key="MaximumHoursPerProcess" value="24"/><add key="CreateFastqForIndexReads" value="1"/>
</appSettings>
42
ご清聴ありがとうございました.ご質問は[email protected]でも承ります.