La cartographie des génomes

Séquençage d’un génome

• Séquenceur actuel : 1000 pb• Partie séquençable génome humain : 2,9

milliards pb (2,9 Gb)• Génome humain total : 3,2 Gb• On ne peut pas séquencer en un seul

coup !!

Couper l’ADN en petits fragments

Aligner les ≠ séquences

Librairie ADN Séquençage

Méthode shotgunADN

500pb Digestion par ≠ enzyme de restriction

…GCAGCCAATGCCAATGCATTA…

Recouvrement de qqs 10aines de pb : Les 2 séquences sont liées entre elles

Assemblage de séquences maîtresses

Séquence maîtresse

ProblèmesMéthode bien adaptée au séquençage de

petits génomes procaryotes

Grands génomes : Complexité d’aligner les fragments

Grands génomes : Séquences répétées

Répétition en tandem

GATTA GATTA GATTA GATTA GATTA

Recouvrement incorrecte

GATTA GATTA GATTAGATTA GATTA

Les mêmes motifs de répétition en tandem peuvent être localisées dans

tout le génome !

(GATTA)4 (GATTA)6 (GATTA)8

Recouvrement incorrect

GATTA GATTA GATTAGATTA GATTA

Grandes répétitions dispersées…GCATAGCTTAGC…

…GCATAGCTTAGCGCATAGCTTAGC…

Recouvrement incorrect

Il faut des balises pour assembler les séquences

maîtresses

Carte génétique ou carte physique des génomes

A B C D E F G

Approche clone contigGénome fractionné en segments gérables

Qqs centaines kb ou qqs Mb

Méthode séquençage shotgun sur les fragments

Les fragments sont positionnés grâce àune carte

Carte génétique (analyse des liaisons)

Position relative de gènes ou d’autres marqueurs

Croisements et recombinaison

Unité de distance = cM

1 cM = 1 % de recombinaison

Il faut de la variabilité : Polymorphisme

Homme : Analyse de pedigree

Ières cartes génétiques = Cartes de gènes

Analyse de pedigree

Homme : Carte de recombinaison

Problème des cartes de gènes

Génomes eucaryotes : Peu de gènes et très dispersés

Marqueurs de l’ADN (RFLPs, SSLPset SNPs)

Cartes peu détaillées

Marqueur SSLP (Simple SequenceLength Polymorphism)

SSLPs : Zones de séquences répétées avec variation de tailles

SSLPs : Les plus utilisés = Microsatellites

MicrosatellitesSéquences courtes (2 à 10Pb)

Répétées en tandem de <10 à >100 fois

Motifs : Milliers de copies dispersées dans tous le génome

Nbre de répétition du tandem est très variable

Génome humain : 6.5 x 105 µsat.

En moyenne 1 µsat. / 10 000 pb

Variation de Séquence microsatellite chez Brassica

Cartes physiquesCartes génétiques : Généralement

insuffisantesRésolution cartes génétiques : Fonction nbre

de crossing over (Pb d’estimation)

Cartes génétiques : Assomptions de Sturtevant

Zones de points chauds et de points froids

Nombreux points de non concordance

De nbeuses

distorsions

Des ordres de marqueurs inversés!

Carte génétique et carte physique du chromosome 11 de l’homme

Cartes physiques

Carte physique de restriction → Localiser les sites de restriction

FISH → Fluorescent In Situ Hybridization

STS mapping → Sequence Tagged Site

Carte physique de restriction

Obtenir une carte physique des sites

de restriction

Gel d’agarose contenant des

fragments d’ADN amplifiés, colorés

(bromure d’éthidium)

Les + petits fragments migrent

plus loin que les grands

Dépôt sur gel et migration avec un marqueur de taille

(ladder)

Une population d’ADN cloné est préparé

Coupure par des enzymes de restriction

Amplification (PCR)

10,0 kb

Ladder

7,5 kb

2,5 kb

1 kb0,5 kb

Non coupé HindII SalI

HindIIet SalI

7,0 kb

6,2 kb

0,8 kb

5,8 kb

1,2 kb0,8 kb

0,4 kb

5,8 kb

HindII

6,20,8

0,80 7

0,86,2

0,80 7

5,81,2

1,20 7

5,8 1,2

Faire des hypothèsesHindII

6,20,8

0,80 7

5,8 1,2

HindII et SalI

3 fragments de 0,8 kb, 5 kb et 1,2 kb

REJETER

HindII et SalI

3 fragments de 0,8 kb, 0,4 kb et 5,8 kb

ACCEPTER5,81,2

1,20 7

HindII

6,20,8

0,80 7

Organisation du génome des eucaryotes

3 - Génomique structurale

Saccharomyces cerevisiae Ascomycota(levure du boulanger)

Respiration → Transformation anaérobique 02 en CO2 (pain…etc)

Fermentation alcoolique du glucose (vin, bière)

Premier eucaryote séquencé (1996)

13 Mb et 6 275 gènes (23% commun avec H. sapiens)

Caenorhabditis elegans Nématode

100 Mb et 19 000 gènes (6 chromosomes)

Organisme totalement transparent (1000 ¢ )

Vers 1mm hermaphrodite ou ♂

Vit dans l’humus et se nourrit de bactéries

Comportement (302 neurones) et biologie du dévent

Séquençage 1998

Drosophila melanogaster Diptère

Séquençage 2000

Arabidopsis thaliana Angiosperme

Le plus petit génome végétal connu

Séquençage 2001

Homo sapiens sapiens

3 Gb et 30 000 gènes

Séquençage 2003

Caractéristiques du génome humain

3 Gb : 30 000 gènes (5% séquences codantes)

50% génome : Éléments transposables

40% gènes (12 800) : sans fonction connue

Distribution des gènes : non uniforme (des déserts (20%) et des zones riches)

Homme: Il y a des chromosomes denses en gènes et des chromosomes

pauvres

• Chromosome 19 (le + riche) → 23 gènes / Mb (3%)

• Chromosome 13 (le + pauvre) → 5 gènes /Mb (0.7%)

Chromosome 21 (46,9 Mb) : 337 gènes (1 gène / 140 kb

Chromosome 22 (49,5 Mb) : 693 gènes (1 gène / 70 kb

Région pauvre en gènes → 1 gène / 304 kb

Région riche en gènes → 1 gène / 95 kb

Homme: hétérogénéité dans les chromosomes (ex. Chromosome 21)

Plusieurs région presque dépourvues de gènes : 7 Mb (1 gène), 3 régions 1 Mb (pas de gènes) : Total 10 Mb

Des régions dupliquées → 220 kb (2 extrémités bras long); 10 kb (près du centromère)

Taille du génome et Nbre de gènes

• Mitochondrie levure ~ 78 kb• Mitochondrie homme ~ 17 kb• Chloroplaste 140 ~ 200 kb• Archée M. jannaschii ~ 1,6 Mb• Bactérie E. coli ~ 5 Mb• Levure S. cerevisiae ~ 13 Mb• Nématode C. elegans ~ 100 Mb• Drosophile ~ 150 Mb• Plante A. thaliana ~ 120 Mb• Homme ~ 3 000 Mb

• 34 gènes• 37 gènes• 136 gènes• 1 738 gènes• 4 000 gènes• 6 000 gènes• 19 000 gènes• 13 000 gènes• 25 000 gènes• 30 000 gènes

103 104 105 106 107 108

Bactéries

Champignons

Algues

Mollusques

Insectes

Crustacés

Échinodermes

Poissons

Amphibiens

Reptiles

Mammifères

Oiseaux

Angiospermes

Taille du génome (kb)

Paradoxe de la valeur de C • C : Qté totale d’ADN d’un génome haploïde• En général C augmente des procaryotes →

Eucaryotes uni¢ → Métazoaires et plantes• MAIS énorme variation entre compléxité (et

nbre de gènes) et valeur de C• Paradoxe → Divergence entre C et ADN

requit pour coder la complexité d’un organisme

Paradoxe de la valeur de C: La complexité n’est pas corrélée avec

la Qté d’ADN

3.4 x 109 pbHomo sapiens

6.7 x 1011 pbAmoeba dubia

Paramecium caudatumParamecium aureliaNon distinguables en morphologie et en phénotypes

P aurelia : ADN 200 000 kbP caudatum : ADN 9 000 000 kb

P caudatum = 45 X ADN de P. aurelia et 3 X ADN H. sapiens

Paradoxe de la valeur de K: La complexité n’est pas corrélée avec le nbre de chromosomes

46 250

Ophioglossum reticulatumHomo sapiens Lysandra atlantica

Paradoxe de la valeur de N: La complexité n’est pas corrélée avec

les nbre de gènes

~31,000 genes~31,000 genes~26,000 genes~26,000 genes~50,000 genes~50,000 genes

19,000 19,000 ggèènesnes 13,600 13,600 ggèènesnes~10~1088 cellulescellules~10~1033 cellulescellules

Coenorbitis Drosophila

On observe généralement:• Excès d’ADN par rapport à ADN requit

pour coder toutes les protéines et ARN• Énormes variations entre organismes de

complexité comparables

Pourquoi ce paradoxe?• ADN non codant • ADN répétitif• Introns

RégionsintergéniquesADN poubelle(junk DNA)

Introns (junk)Exons

Le Le ggéénomenomeestestvide !vide !

Génomique structurale

• Organisation des séquences d’ADN dans le génome

• Organisation du génome• Fait appel aux techniques d’amplification

(PCR)• Séquençage• Clonage d’ADN

Génome humainTous les individus sont ≠ MAIS

ADN entre individus ≠ varie sur 0.2 % ou moins

Seulement 1 lettres / 1400 est ≠ entre ind.

De 2 à 3 millions de lettres de différence entre 2 ind.

ADN Eucaryotes

Gènes fonctionnels en simple copie

ADN répétitif ADN intercalaire

Séquence fonctionnelles

Séquence sans fonctions connues

Familles de gènes codantes

(et pseudogènes)

Séquences fonctelle

non codantes

Familles de gènes dispersées

Familles de gènes en tandem

Répétition hétérochromatine

centromère

Répétition en tandem variables

Séquences transposées

Transposons Retrotransposons

3 – 1 - Gènes fonctionnels en simple copie

Gène• Ancienne déf. : Séquence d'ADN qui

code pour une chaîne polypeptidique ou une molécule fonctelle d'ARN

• Pb. : des gènes régulateurs non transcrits

• Activateurs (enhancers) et inhibiteurs (silencers)

• Activateurs et inhibiteurs peuvent se trouver très loin d’une séquence transcrite

• Une région transcrite + une séquence régulatrice de transcription

• Segment d'ADN qui a une fonction spécifique

• Unité fonctelle du gène : Région transcrite + toutes les séquences de régulation

3 types de gènes

• Gènes de structures (G1) : codent pour une protéine (transcription et traduction)

• Gènes uniquement transcrits (G2) : ARN non traduits

• Gènes régulateurs (G3) : non transcrits • régulation de la réplication• recombinaison• fixation de protéines ou d'hormones sur

Nature des gènes G1 et G2

• Région d’ADN transcrite en ARN

Région codante

ADN de procaryote

Zone de régulation

Zone de fin de

transcription

Région codante (exons)

ADN eucaryote

Zone de régulation

Zone de fin de

transcription

Introns

Séquences intragéniques transcrites et éliminées (épissage) : maturation ARNm

Séquences d’ADN non fonctelles intercalaires des exons

Souvent : zones de localisation des ARN interférents (ARNi)

EpissageEpissage

Gènes eucaryotes (exons & introns)

Nombre moyen d’introns

• Saccharomyces cerevisiae : 1• Drosophila melanogaster : 4• Caenorhabditis : 5,2 (taille 0,12 Kb)• Poulet : 9• Mammifères : 7 (de 1 à > 60)• Homme : 7,7

Organism # Chromosomes # Genes Exons Introns

Mycoplasmagenitalium

1 500 5001/gene

Deinococcusradiodurans

2 3200 35001.02/gene

Saccharomycescerevisiae

16 6200 65001.04/gene

C. elegans 6 18,000 91,0005/gene

73,0004/gene

Drosophilamelanogaster

5 14,000 54,0004/gene

44,0003/gene

60 bp/intronArabodopsisthaliana

5 25,000 133,0005/gene

247bp/exon

107,0004/gene

169 bp/intronHomo sapiens 23 30,000 310,000

8+/gene455 bp/exon

250,0007/gene

3400 bp/intron

Variabilité intrasp. en nbred’introns

• Histones : Pas d’introns• Gène du collagène pro-α2 du poulet : 50

introns • Gène protéine musculaire titine 283 kb :

363 exons

Variabilité en taille

Gène Taille µintrons (pb)

tRNAtyr 20Insuline 480Classe I HLA 260

Collagène 190Complément C3 900

Facteur VIII 7100CFTR 9100

Titine 466

Dystrophine

kb Nbre

0.1 21.4 33.5 831 11841 29

186 26250 27283 363

2400 79

Taille µexons (pb)

5015518777122375227315

180 30770

La plupart des exons sont des petites îles dans une mer

d’introns

Introns

Majorité des introns eucaryotes : épissage par splicéosome

1% du génome humain (ou de la levure) code pour des pièces du splicéosome

Splicéosome : une machine moléculaire (ribonucléoprotéine) aussi complexe que le

ribosome

AGGT AATAAAIntron Exon

Règle GT-AG

Codon stopSignal de

polyadénylation(queue de polyA)

Règle GT-AG : début d’intron GT – Fin d’intron AG

Jonction exon-intron : séquences hautement conservées = Quasiment toutes les jonctions chez

tous les eucaryotes

3' UTR

La grande majorité des splicéosomes fonctionnent avec introns GT-AG

Qqs splicéosomes fonctionnent avec d’autres introns

Introns GT-AG : dans toute la lignée eucaryote

Les introns à splicéosomes étaient présent dans la lignée primitive eucaryote !

Il existe des introns àautoépissage

Thomas Cech et al. 1982 : Tetrahymena (protozoaire cilié)

Découverte des ribozymes : ARN à propriétécatalytique

Des introns à ribozyme : capables de s’autoexciser !

Les introns sont un coût métabolique important

Synthèse d’ADN et d’ARN supplémentaire

Une machinerie nécessaire pour détecter/éliminer les mauvais transcrits

1/3 des désordres génétiques humains : mutations qui causent une mauvaise reconnaissance des sites

d’épissages !

Erreur d’épissage : mauvais transcrits

Origine des introns2 hypothèses

Des frontières de fusions entre miniprotéines(minigènes) primitives (introns précoces)

Des éléments mobiles insérés (introns tardifs)

Introns précoces

9 introns

Intron/Exon structure of the chicken pyruvate kinase geneN. Lonberg & W. Gilbert

Cell 40: 81-90, 1985

Divisent les séquences codantes en pièces de taille uniforme qui

codent pour les éléments discrets de la structure IIaire

Pas d’insertion au hasard mais produit de l’évolution du 1er gène pyruvate kinase

Epissage alternatif

variant II

Epissage alternatif: Un gène : Plusieurs protéines

variant I

Exons constitutifs

Exons sauteur

Déduction de l’épissage alternatif par alignement de séquences d’ARNm

A B C A C

Variant ABC d’ARNm

Variant AC d’ARNm

Séquençage des variants

Alignement des séquences

Alignements multiples d’ARNmexprimés à large échelle

• Génome humain : 10aines de milliers de séquences ARNm alignées

• 75% des gènes humains : épissage alternatif

• 30 000 gènes : centaines de milliers de protéines

• Le protéome est bcp plus complexe que le génome

Plusieurs formes d’épissage alternatif

Exons sauteurs

Échange d’Exons

Utilisation de sites d’épissages alternatifs

•Inconditionnel : 2 (ou plus) variants d’ARNmproduits dans tous les tissus qui expriment le gène•Conditionnel : spécifique du tissu, du stade de dévent ou de l’état physiologique

Epissage alternatif

Caractérisation des exons constitutifs et sauteurs

(alternatifs) chez l’homme

• But : rechercher des motifs (séquences) caractéristiques des exons sauteurs

• Résultats : bcp d’exons alternatifs avec motifs très conservés

• Motif : partie d’un éléments ALU• Rôle des éléments ALU dans l’épissage

alternatif peu connu

Drosophile: Gène Dscam

Guide la croissance des axones entre neurones

4 exons = clusters d’exons alternatif

38 000 versions ≠ de la protéine (Droso. = 13 000 gènes)

115 exons

Chaque exons alternatif = mutuellement exclusif

Zone 5' et 3' de l'ARN messager

5' UTR et 3' UTR : Untranslated Transcribed Region

Des motifs cruciaux de régulation

Zones de régulation

Séquences qui contrôlent la transcription : séquences cis-régulatrices

Éléments cis-actifs : séquences sites d’accrochage d’éléments régulateurs (trans-actifs)

Éléments trans-actifs : molécules qui se lient aux séquences ADN cis-actifs

Élément (séquence) cis-actif

Reconnaissance +/- spécifique des éléments

Élément (molécule) trans-actif

Liaison cis-trans

Contrôle de la transcriptionTrois types de séquences cis-régulatrices :

contrôle de la transcription

Promoteur : séquence de nucléotides = site de reconnaissance de la machine de transcription

Enhancer (activateurs) : augmentent taux de transcription ou activent le promoteur

Silencer (inhibiteurs) : diminuent taux de transcription ou inactivent le promoteur

Structure du site promoteurSpécifie le site où démarre la transcription +

direction de transcription

ADNPromoteur Gène

PolII PolII: ARN polymérase

Complexe d’initiation de la transcription

ARNm30pb100pb200pb

GGGCGG CCAAT TATATATA boxCAAT boxGC box

Promoteur Central

Éléments proches du Promoteur Central

TATA : région d’attache de l’ARN Polase

TATA : AT de 2 à 8 pbCAAT : Séquence consensus CAAT ou CCAAT

CAAT : Site d’accroche de protéines

GC : Séquence consensus GGGCGGGC : Site d’accroche de protéines

Boite TATA Gène

Mise en place d’une plateforme

Complexe TFIID Accrochage de

la PolII

Transcription

Boite TATA Départ de transcription

Tous les gènes n’ont pas une boite TATA !

Activateurs : contrôlent le taux de transcription

Peut être à coté du gène (ex. boites CAAT ou CG)

Peut être en amont, en aval ou même dans le gène

Peut être à qqs distance du gène

Si un activateur est déplacé dans le génome, si un gène est placé près d’un activateur : transcription

du gène adjacent augmentée

Mécanisme : protéines modulaires qui se lient sur les activateurs

Complexe de protéines : enhanceosome

Complexe activateur à 2 domaines fonctionnels !

Domaine de liaison ADN (activateur)

Domaine de trans-activationInteraction protéine-protéine : Liaison avec PolII et

autres protéines du promoteur

PolIIComplexe TFIID

activateur

Boite TATA Gène

Formation d’une loupe d’ADN

Complexe activateurs : domaines de liaison ADN tri dimensionnels caractéristiques (motifs)

Plusieurs classes de motifs (non exhaustif)

Motifs très conservés au cours de l’évolution

Homodimères ou hétérodimères

HTH (helix-turn-helix) : Très nombreux facteurs de

régulation du développement

HTH → Homeobox : 180 pb= 60 a.a. séquence

homéodomaine (très conservée)

Motif en doigt de zinc : Facteurs de transcription et régulation

Zipper (glissière) à Leucine basique (bZIP)

LeuLeu

Résidus leucines tous les 7 a.a.

Confrontation de 2 chaînes protéiques par ponts

hydrophobes

Facteurs de transcription : contient aussi de domaines d’interaction protéine-protéine

Lien avec ARN Pol ou d’autres facteurs de transcription

Des domaines de liaison avec d’autre coactivateurs(hormones ou petits métabolites)

La régulation de la transcription est complexe mais généralisable

Comment localiser un gène dans une séquence ?

Algorithme d'analyse de génomes : détecter des ORF (Open Reading Frame)

Cadre de lecture ouvert : une portion du génome contenant une séquence pouvant potentiellement

coder une protéine

Gène : les ORFs sont localisés entre séquences d'initiation (codon start) et de fin de transcription

(codon stop)

Identification d'un gène dans le génome

Pas de codon stop

Exon (5') initial :

Commence avec un point de départ de transcription (ATG)

Est précédé par un site promoteur (ex. TATA à ≈ 30 pb)

Terminé juste avant un signal d'épissage GT

Exon interne : pas de codons stop

débute après un AG

finit avant GT

Exon final (3') : débute après un AG

termine par un codon stop (TAA, TAG, TGA)

est suivi par une séquence avec polyA (5' UTR)

ATGCCGA……TCAGG… …CCTAGTAATTG…

Exon initial

Exon interneIntron

Promoteur

Exon final

…TAAG TTC… …AGGTGA CCTAATAAAGACC…Séquence polyaSTOP

ACTTG… …GCCC…AGTAG GTCCTA…

5' UTR

3' UTR

3 – 2 - ADN Répétitif

Définition

Séquences de nucléotides, de tailles variables, +/- identiques que l’on retrouve un certain nombre de fois dans le génome

d’un organisme

Séquence en tandem

Séquence dispersées

Motif de la Séquence

TTAGCT TTAGCT TTAGCTTTAGCT

TTAGCT

Plusieurs types d’ADN répétitif

• ADN répétitif de séquences fonctelles : Familles multigéniques, séquences fonctelles non codantes

• ADN répétitif de séquences sans fonctions connues : Séquences transposées, ADN non fonctel répété

3 – 2 – 1 Les familles multigéniques

La cartographie des génomes - [Biologie Végétale de...

Documents

Évolution des génomes des endosymbiotes chez les insectes

La reproduction chez les végétaux - serres.u-bourgogne.frserres.u-bourgogne.fr/IMG/pdf/La_reproduction_chez_les_vegetaux.pdf · ... reproduction asexuée, autofécondation La reproduction

Paris - Rennes - u-bourgogne.fr

(F. SCHEPENS - u-bourgogne.fr

DOCUMENT CONFIDENTIEL - nuxeo.u-bourgogne.fr

Sommaire - u-bourgogne.fr

ANNEE 2018 - u-bourgogne.fr

Décoder les génomes

Comparaison de génomes de souches d’

Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

ALIGNEMENT DE GÉNOMES COMPLETSgenoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/...26 mars 2012 Alignement de génomes 1. Introduction - Contexte - Principe des outils - Les outils

Cartographie génétique des génomes eucaryotes I ...pdv.univ-lille1.fr/labo/figB4part2.pdf · Cartographie génétique des génomes eucaryotes I. Construction de cartes génétique

Assemblage adaptatif de génomes et de méta-génomes par ...Assemblage adaptatif de génomes et de méta-génomes par passage de messages Thèse Sébastien Boisvert Doctorat en physiologie-endocrinologie

Fluidité des génomes, rôle des éléments transposables

Réarrangements chromosomiques Evolution des génomes de levures

Isabelle Marinone - u-bourgogne.fr

Syllabus - u-bourgogne.fr

Résumés des communications - u-bourgogne.fr

Bioinformatique: Annotation des génomes (eucaryotes)pbil.univ-lyon1.fr/.../INSA-Annotation2010-2011.pdf · Annotation des génomes (eucaryotes) Laurent Duret BBE – UMR CNRS n°

Assemblage adaptatif de génomes et de méta-génomes par ... · Maxime Boissonneault Louis Demers Jean-Philippe Dionne Laurent Duschene Jean-Sébastien Landry Frederick Lefebvre