45
Montagne Sainte Geneviève Plateforme Génomique http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012 Stéphane Le Crom ([email protected]) Laboratoire de Biologie du Développement (UPMC) Plateforme Génomique de la Montagne Sainte Geneviève Atelier Epigénétique Université Pierre et Marie Curie Le séquençage à haut débit Juin 2012

Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stéphane Le Crom ([email protected])

Laboratoire de Biologie du Développement (UPMC) Plateforme Génomique de la Montagne Sainte Geneviève

Atelier Epigénétique Université Pierre et Marie Curie

Le séquençage à haut débit Juin 2012

Page 2: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage par la méthode Sanger

• Méthode par synthèse enzymatique inventée en 1977 par Frédérick Sanger (Angleterre, nobel de Chimie 1980).

• Initiation de la polymérisation de l’ADN à l'aide d'une amorce complémentaire.

• Élongation de l’amorce par des ADN polymérases thermostables (PCR).

• Addition des quatre désoxyribonucléotides (dATP, dCTP, dGTP, dTTP) et d’une faible concentration de l'un des quatre didésoxynucléotides (ddATP, ddCTP, ddGTP ou ddTTP).

• Ces ddNTP une fois incorporés dans le nouveau brin synthétisé, empêchent la poursuite de l’élongation. La terminaison se fait de manière statistique sur toutes les positions possibles.

D’après The Scientist

Page 3: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Lecture de la séquence

• On obtient un mélange de fragments d’ADN de tailles croissantes qui se terminent tous au niveau d'une des bases dans la séquence.

• Ces fragments sont séparés par électrophorèse sur gel de polyacrylamide.

• La détection des fragments synthétisés se fait en incorporant un traceur dans l'ADN synthétisé.

• Initialement ce traceur était radioactif, attachés soit à l'oligonucléotide, soit au didésoxyribonucléotide.

• Environ 1 kb d’ADN par lecture en 6-8 heures. Une lecture par échantillon.

A C G T Du plus grand

Au plus petit

Page 4: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les séquenceurs à capillaires

• Les séquenceurs capillaires sont apparus dans les années 90 grâce au remplacement du marqueur radioactif par un marqueur fluorescent.

• Utilisation des tubes capillaires de verre de seulement quelques microns de diamètre, sur plusieurs dizaines de centimètres de longueur (30 à 50 cm), pour séparer l'ADN durant l'électrophorèse.

• Les quatre nucléotides passent dans le même tube capillaire à l’aide de quatre marqueurs fluorescents différents.

• 300 kb d’ADN par lecture en 3 heures. Un grand nombre d’échantillons en parallèle.

Page 5: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les nouvelles méthodes de séquençage à haut débit

Page 6: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Historique des technologies en présence

• Principe : obtention de séquences courtes en très grand nombre.

• Roche : 454 GS FLX

• Illumina/Solexa : Genome Analyzer

• Applied Biosystems : SOLiD

Page 7: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (préparation)

• Fractionnement aléatoire de l’ADN de l’échantillon à analyser en morceaux de 300 à 800 pb pour obtenir une banque d’ADN simple brin matrice.

• Préparation en ajoutant des adaptateurs spécifiques des extrémités 3' et 5’.

• Immobilisation de chaque brin sur une bille. Un fragment d’ADN = une bille.

• Émulsion des billes avec les produits d’amplification dans un mélange eau-huile. Création de microréacteurs contenant une seule bille.

• PCR en émulsion. Amplification de chaque séquence dans son microréacteur. Amplification de toute la banque en parallèle. Plusieurs millions de copies par bille.

Mardis (2008) Trends Genet.

Page 8: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (séquençage)

• Purification et chargement des fragments sur plaque. Le diamètre des puits ne permet qu’une seule bille à la fois.

• Ajout des enzymes de séquençage et envoi des nucléotides individuels les uns après les autres.

• Les bases complémentaires du brin matrice s’ajoutent une ou plusieurs à la fois.

• Le signal chimie luminescent est enregistré par une caméra CCD.

• Séquençage par synthèse avec émission de lumière, on parle de pyroséquençage.

Mardis (2008) Trends Genet.

Page 9: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (lecture)

• La lecture est effectuée en simultanée sur plusieurs bases incorporées. Le « flowgram » est alors lu pour obtenir la séquence.

• On obtient : - 400 000 lectures ; - chacune de 250 bases ; - 100 Mb par run.

• Les erreurs majeures de séquences proviennent avec cette méthode des homopolymères.

http://www.454.com/

Page 10: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (préparation)

• Génération d’une banque d’ADN double brin à partir de l’échantillon à analyser par fractionnement aléatoire en morceaux de 200 pb.

• Ajout d’adaptateurs spécifiques aux extrémités.

• Dénaturation de l’ADN en simple brin.

• Fixation de l’extrémité des simples brins aléatoirement à la surface du « flowcell ».

• PCR « bridge » en phase solide. Création d’un double brin. Dénaturation et création de groupes (clusters) denses où les fragments sont amplifiés.

http://www.illumina.com/

Page 11: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (séquençage)

• Le premier cycle de séquençage commence en ajoutant les 4 terminateurs réversibles marqués, les amorces et l’ADN polymérase.

• Après excitation par un laser, la fluorescence émise par chaque cluster est récupérée et la première base est lue.

• Le cycle suivant continue en ajoutant les 4 terminateurs réversibles marqués.

• Après excitation l’image est acquise de la même façon et la deuxième base est lue.

• Les cycles de séquences sont répétés pour lire chaque base les unes après les autres.

http://www.illumina.com/

Vidéo présentation Illumina/Solexa

Page 12: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (lecture)

• La lecture est effectuée à chaque position sur toutes les séquences en parallèle.

• On obtient : - 45 000 000 de lectures ; - chacune de 36 bases ; - 1 Gb par run.

• Les erreurs majeures de séquences proviennent d’erreur de séquençage (99%)

http://www.illumina.com/

Page 13: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (préparation)

• Fabrication de deux types de banque : classique ou « mate-paired ».

• Ajout d’adaptateurs.

• PCR par émulsion comme dans la méthode 454.

• Enrichissement des billes amplifiées.

• Modification en 3’ pour permettre la fixation covalente sur une lame.

• Dépôts des billes sur la lame qui peut-être séparée en chambres.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Page 14: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Séquençage par ligation.

• Des amorces s’hybrident sur les adaptateurs présents sur la matrice.

• Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces.

• La spécificité des sondes de 2 bases s’effectue avec les 1ère et 2nd bases de chaque réaction de ligation.

• Plusieurs cycles de ligation, détection et clivages sont effectués.

• Les produits d’extension sont retirés et une nouvelle amorce complémentaire de la positon n-1 est utilisée pour un second tour de ligations.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Page 15: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Cinq tours de remise à zéro des amorces sont effectués pour chaque séquence.

• À chaque nouvelle mise à jour le primer utilisé interroge la position n-1.

• Dans ce processus chaque base est interrogée dans deux réactions de ligation indépendantes par deux différentes amorces.

• Par exemple la base en position 5 est mesurée par l’amorce 2 dans le cycle de ligation 2 et par l’amorce 3 dans le cycle de ligation 1.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Vidéo présentation SOLiD

Page 16: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Le codage des résultats est effectué sur 2 bases dans un espace de 4 couleurs.

• La lecture des séquences est effectuée dans un espace de couleur.

• À partir du moment où l’on connaît la première base, la conversion de l’espace des couleurs vers celui des bases est possible.

• La séquence de référence est codée dans l’espace de couleur. L’alignement et la séquence consensus sont aussi effectués dans cet espace.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Page 17: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (lecture)

• Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats.

• Avec ce système on peut faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions).

• On obtient : - 80 000 000 de lectures ; - chacune de 30 bases ; - 3 Gb par run.

• Le système de codage dans l’espace de couleur rend l’analyse informatique relativement complexe.

Mardis (2008) Trends Genet.

Page 18: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Comparaison des différentes technologies

Mardis (2008) Trends Genet. Et http://www.agencourt.com/services/nextgen/

Page 19: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les améliorations actuelles

• Augmentation de la densité des éléments (puits, clusters, billes).

• Amélioration des logiciels de détections.

• Utilisation du système « paired-end tags » (PET) ou « mate-pair ».

Fullwood (2009) Genome Res.

Page 20: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les séquences Paired-End

• Détection des associations à plus longue distance.

• Facilite la détection des évènements de transcription.

• Dans le cas des analyses génomiques, les séquences Paired-End permettent de trouver les variants structuraux et de passer pas dessus les régions répétées des génomes.

Ozsolak & Milos (2009) Nat. Rev. Genet.

Page 21: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Comparaison des derniers modèles

454 GS FLX SOLiD 5500XL HiSeq 2000 Run Time 10 heures 10 jours 8 jours

Taille des lectures (pb) 1000 2x 75 2x 100

Nombre de lectures 1 106 1,4 109 3 109

Données générées 1 Gb 300 Gb 600 Gb

Débit 1 Gb/jour 30 Gb/jour 75 Gb/jour

Page 22: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’évolution des technologies de séquençage

Stratton (2009) Nature

Page 23: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’évolution des technologies de séquençage

Stratton (2009) Nature

109

1010

108

107

106

105

104

103

Coû

t du

séqu

ença

ge d

u gé

nom

e hu

mai

n (e

n $)

Page 24: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La troisième génération

Page 25: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage en temps réel

• Technologie de séquençage en temps réel sur molécule unique grâce à l’immobilisation au fond d’un puits d’une molécule d’ADN polymérase.

• L’incorporation de chaque base associée à un fluorochrome est mesuré en temps réel grâce à une caméra CDD placée sous la plaque support.

Eid (2009) Science

Page 26: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Pacific Biosciences

Vidéo de présentation de Pacific Biosciences http://www.pacificbiosciences.com/

Page 27: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie nanopore

• Un système nanopore permet la détection de molécules uniques en faisant passer des molécules en solution à travers un pore à l’échelle nanométrique.

Branton (2008) Nat. Biotech.

• Le système facilite l’analyse d’une molécule d’ADN à haut débit en analysant les bases qui le compose les unes après les autres.

• La détection s’effectue à l’échelle du kilobase. Plusieurs types de molécules peuvent être détectées (ADN ou ARN) avec ce système sans amplification.

Page 28: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications

Page 29: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Elles recouvrent les techniques précédentes

Kahvejian et al. (2008) Nat. Biotech.

Page 30: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Elles peuvent se regrouper en 2 catégories

Rothberg et Leamon (2008) Nat. Biotech.

Page 31: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage de novo

• Les nouvelles technologies permettent de séquencer plus vite et pour moins cher qu’avec la méthode de Sanger.

• Seulement les lectures sont plus petites et chaque méthode à ses propres limites.

• La combinaison de plusieurs méthodes différentes permet pour de petits génomes d’obtenir des brouillons de bonne qualité.

=> Combinaison 454 et Illumina.

• Taux d’erreur faible et couverture uniforme car absence des biais introduits par le clonage dans la méthode Sanger.

• Les erreurs sont différentes entre les deux méthodes.

Aury et al. (2008) BMC Genomics

Page 32: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications de reséquençage

• Leurs buts : analyser différents génomes en les comparant à une souche de référence.

• Recherche de polymorphismes dans une population, d’identification de mutations en biotechnologie, d’analyse d’évolution d’organismes, de différenciation d’une cellule au cours du temps, de la découverte d’ADN anciens …

• Métagénomique : caractériser les différents génomes présents dans un échantillon.

• Le champs des applications de cette approche est important : caractériser les micro-organismes pathogènes présents chez un patient (sang, tissus, …), définir l’ensemble des espèces présents dans l’environnement (écologie, dépollution, …), comprendre l’évolution des espèces, …

http://www.jgi.doe.gov/News/lake_washington_microbes.jpg

Page 33: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications fonctionnelles

Wold et al. (2008) Nat. Methods

Page 34: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les nouvelles technologies de séquençage • Avantages

• Pas de sous-clonage ni d’utilisation de bactérie comme hôte :

- plus de biais ; - banques plus simples.

• Chaque séquence provient d’une molécule d’ADN unique :

- quantification ; - gamme dynamique plus grande.

• Résolution importante pour un très grand nombre de types d’expériences différentes.

• Amélioration considérable dans la vitesse et dans le coût comparé à la méthode de Sanger.

• Inconvénients

• Les séquences obtenues sont plus courtes :

- par rapport à Sanger ; - paramètres du « base calling » ; - analyses bioinfo à repenser.

• La quantité de données générées pose de vrai problème d’informatique :

- plusieurs To par run ; - utilisation de temps CPU ; - Choisir ce qui doit être archivé.

• La technologie évolue sans cesse ce qui pose des problèmes pour l’amortissement des appareils.

• La fabrication des banques n’est pas une étape si simple.

Page 35: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le traitement informatique

Page 36: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’analyse des données

Page 37: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stockage des lectures : le format fastq

• Format de fichier texte qui stocke les séquences des lectures ainsi que leur qualité.

• Stockage sur 4 lignes

1. @ Identifiant de la séquence

2. Séquence brute

3. + Identifiant (optionnel)

4. Qualité de la séquence

http://en.wikipedia.org/wiki/FASTQ_format

@HWI-EAS285:1:1:35:1578#0/1!GCGGTATCCTNGTCTAAGAATCCGGTAAGNTNTATC!+HWI-EAS285:1:1:35:1578#0/1!a`a`Z\a`aaB^\^a`]Z^_`^[]TUS\QBaB[^__!@HWI-EAS285:1:1:35:195#0/1!GCCAGAGCGGNGAGGGCAAGGGCAACAAANGNGGGC!+HWI-EAS285:1:1:35:195#0/1!aaaa`_X`[QB`a`[aa`\`YMXaa_UBBBBBBBBB!@HWI-EAS285:1:1:35:1320#0/1!CGAATACGAGNCACACACATACCGCACTTCTTCCCA!+HWI-EAS285:1:1:35:1320#0/1!ab^]aaab\aBaaaa_aaaaaa`aa```__`____a!@HWI-EAS285:1:1:35:1010#0/1!CTTTGAAAAAATTAGAGTGCTCAAGTCAGGCCTATG!+HWI-EAS285:1:1:35:1010#0/1!aabb\^^\^`aaaa[`P]P]_``aWVa^NRa_``_S!

Page 38: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stockage des alignements : le format SAM

• Les résultats de l’alignement des lectures sur le génome de référence est stocké dans un fichier de type texte au format SAM (Sequence Alignment/Map).

http://samtools.sourceforge.net/

• Format de gestion des alignements générique (plus que le fastq).

• Supporte différentes plateformes de séquençage et différentes tailles de lecture.

• Des lignes d’en-têtes peuvent être ajoutées pour décrire les données et les traitements effectués. Elles commencent par @.

Page 39: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La baisse des coûts du séquençage =

Le début de la génomique « personnelle »

Page 40: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage des génomes individuels

Wheeler et al. (2008) Nature

• Encore plus rapide avec les nouveaux séquenceurs

• Premier génome humain séquencer avec les nouvelles méthodes à haut débit.

• Génome de James Watson.

• Navigateur génomique public et accessible à tous.

Page 41: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Applications disponibles

• Séquençage de transcriptome entier : RNA-Seq

• Matériel de départ : ARN total • Contrôle qualité des échantillons d’ARN • Préparation des banques

-  Illumina TruSeq, purification polyA - 1 µg (min 500 ng) -  ou Epicentre ScriptSeq (directionnel), déplétion ribosomique - 2 µg (min 1 µg)

+ amplification des ARN (pour les faibles quantités de matériel de départ) -  NuGEN Ovation system - 10 ng (min 500 pg)

• Chromatine IP et séquençage : ChIP-Seq

• Matériel de départ : ADN immunoprécipité et fragmenté (< 500 bp) • Contrôle qualité des échantillons d’ADN • Préparation des banques

-  NEXTflex (Bioo Scientific) - 30 ng (min 10 ng)

Page 42: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Séquençage

• Contrôle qualité et normalisation des banques

• Séquençage -  Lectures simples de 50 bases -  ou lectures associées (Paired-End) de 2x100 bases -  Multiplexage des banques (2-4 échantillons / ligne)

• Spécifications des derniers runs (SR 50 V3) -  1.3 109 lectures totales (passant les filtres illumina) -  168 106 (± 45 106) lectures par ligne en moyenne -  95% des lectures avec une qualité >Q30

(erreur de détection de base < 0.1%)

Page 43: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Analyses bioinformatiques

• Analyses des données depuis les sorties brutes du séquenceur (fichiers fastq compressés en bzip2).

• Génération de rapports de qualité.

• Alignement des lectures sur un génome de référence.

• Création de fichiers BAM indexés et triés pour la visualisation dans un navigateur de génome (IGV).

+ RNA-Seq

-  Estimation de l’abondance des transcrits.

-  Analyse statistique (normalisation et expression différentielle).

Page 44: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Exemple de tarif • Protocole RNA-Seq non directionnel à partir d’ARN total.

• Toutes les étapes sont incluses jusqu’à la liste des gènes différentiellement exprimés.

Prix HT / échantillon Contrôle qualité des échantillons 8 €

Fabrication de la banque RNA-Seq 170 €

Contrôle et normalisation des banques 18 €

Séquençage Single Read 50 bases (multiplexage : 3 échantillons par ligne) 330 €

Analyse bioinformatique 90 €

Total 616 €

• Pour toute question, contactez nous :

[email protected]

Page 45: Atelier Epigénétique Université Pierre et Marie Curiegenetique.snv.jussieu.fr/doc2012/120607_SequencageHautDebit.pdf · • Principe : obtention de séquences courtes en très

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012