View
222
Download
0
Category
Preview:
Citation preview
La cartographie des génomes
Séquençage d’un génome
• Séquenceur actuel : 1000 pb• Partie séquençable génome humain : 2,9
milliards pb (2,9 Gb)• Génome humain total : 3,2 Gb• On ne peut pas séquencer en un seul
coup !!
Couper l’ADN en petits fragments
Aligner les ≠ séquences
BamHI
BamHI
PstI
PstI
EcoRI
EcoRI
Librairie ADN Séquençage
AA
TGCC
TGA
CGA
TTCG
ACC
AA
TGCC
TGA
CGA
TTCG
ACC
CATT
GCGG
ATA
TTA
CGCA
TCGG
GAA
CTCA
CATT
GCGG
ATA
TTA
CGCA
TCGG
GAA
CTCA
GGTT
AGT
ACC
ATG
CCTG
GAA
CTGA
CACT
GACG
TACA
GTGG
TTA
GTA
CCA
TGCC
TGGA
ACT
GACA
CTGA
CGTA
CAGT
CATT
GACG
TACG
TACG
CATT
GACG
TACG
TACG
Méthode shotgunADN
500pb Digestion par ≠ enzyme de restriction
…GCAGCCAATGCCAATGCATTA…
Recouvrement de qqs 10aines de pb : Les 2 séquences sont liées entre elles
Assemblage de séquences maîtresses
Séquence maîtresse
ProblèmesMéthode bien adaptée au séquençage de
petits génomes procaryotes
Grands génomes : Complexité d’aligner les fragments
Grands génomes : Séquences répétées
Répétition en tandem
GATTA GATTA GATTA GATTA GATTA
Recouvrement incorrecte
GATTA GATTA GATTAGATTA GATTA
Les mêmes motifs de répétition en tandem peuvent être localisées dans
tout le génome !
(GATTA)4 (GATTA)6 (GATTA)8
Recouvrement incorrect
GATTA GATTA GATTAGATTA GATTA
Grandes répétitions dispersées…GCATAGCTTAGC…
…GCATAGCTTAGCGCATAGCTTAGC…
Recouvrement incorrect
Il faut des balises pour assembler les séquences
maîtresses
Carte génétique ou carte physique des génomes
ADN
500pb
A B C D E F G
Approche clone contigGénome fractionné en segments gérables
Qqs centaines kb ou qqs Mb
Méthode séquençage shotgun sur les fragments
Les fragments sont positionnés grâce àune carte
Carte génétique (analyse des liaisons)
Position relative de gènes ou d’autres marqueurs
Croisements et recombinaison
Unité de distance = cM
1 cM = 1 % de recombinaison
Il faut de la variabilité : Polymorphisme
Homme : Analyse de pedigree
Ières cartes génétiques = Cartes de gènes
Analyse de pedigree
Homme : Carte de recombinaison
Problème des cartes de gènes
Génomes eucaryotes : Peu de gènes et très dispersés
Marqueurs de l’ADN (RFLPs, SSLPset SNPs)
Cartes peu détaillées
Marqueur SSLP (Simple SequenceLength Polymorphism)
SSLPs : Zones de séquences répétées avec variation de tailles
SSLPs : Les plus utilisés = Microsatellites
MicrosatellitesSéquences courtes (2 à 10Pb)
Répétées en tandem de <10 à >100 fois
Motifs : Milliers de copies dispersées dans tous le génome
Nbre de répétition du tandem est très variable
Génome humain : 6.5 x 105 µsat.
En moyenne 1 µsat. / 10 000 pb
Variation de Séquence microsatellite chez Brassica
Cartes physiquesCartes génétiques : Généralement
insuffisantesRésolution cartes génétiques : Fonction nbre
de crossing over (Pb d’estimation)
Cartes génétiques : Assomptions de Sturtevant
Zones de points chauds et de points froids
Nombreux points de non concordance
De nbeuses
distorsions
Des ordres de marqueurs inversés!
Carte génétique et carte physique du chromosome 11 de l’homme
Cartes physiques
Carte physique de restriction → Localiser les sites de restriction
FISH → Fluorescent In Situ Hybridization
STS mapping → Sequence Tagged Site
Carte physique de restriction
Obtenir une carte physique des sites
de restriction
Gel d’agarose contenant des
fragments d’ADN amplifiés, colorés
(bromure d’éthidium)
Les + petits fragments migrent
plus loin que les grands
Dépôt sur gel et migration avec un marqueur de taille
(ladder)
Une population d’ADN cloné est préparé
Coupure par des enzymes de restriction
Amplification (PCR)
10,0 kb
Ladder
7,5 kb
5 kb
2,5 kb
1 kb0,5 kb
Non coupé HindII SalI
HindIIet SalI
7,0 kb
6,2 kb
0,8 kb
5,8 kb
1,2 kb0,8 kb
0,4 kb
5,8 kb
HindII
6,20,8
0,80 7
0,86,2
0,80 7
5,81,2
1,20 7
0 7
SalI
5,8 1,2
1,2
Faire des hypothèsesHindII
6,20,8
0,80 7
SalI
0 7
5,8 1,2
1,2
HindII et SalI
3 fragments de 0,8 kb, 5 kb et 1,2 kb
REJETER
HindII et SalI
3 fragments de 0,8 kb, 0,4 kb et 5,8 kb
ACCEPTER5,81,2
1,20 7
HindII
6,20,8
0,80 7
SalI
Organisation du génome des eucaryotes
3 - Génomique structurale
Saccharomyces cerevisiae Ascomycota(levure du boulanger)
Respiration → Transformation anaérobique 02 en CO2 (pain…etc)
Fermentation alcoolique du glucose (vin, bière)
Premier eucaryote séquencé (1996)
13 Mb et 6 275 gènes (23% commun avec H. sapiens)
Caenorhabditis elegans Nématode
100 Mb et 19 000 gènes (6 chromosomes)
Organisme totalement transparent (1000 ¢ )
Vers 1mm hermaphrodite ou ♂
Vit dans l’humus et se nourrit de bactéries
Comportement (302 neurones) et biologie du dévent
Séquençage 1998
Drosophila melanogaster Diptère
150 Mb et 13 000 gènes (4 chromosomes)
Séquençage 2000
Arabidopsis thaliana Angiosperme
Le plus petit génome végétal connu
125 Mb et 25 000 gènes (5 chromosomes)
Séquençage 2001
Homo sapiens sapiens
3 Gb et 30 000 gènes
Séquençage 2003
Caractéristiques du génome humain
3 Gb : 30 000 gènes (5% séquences codantes)
50% génome : Éléments transposables
40% gènes (12 800) : sans fonction connue
Distribution des gènes : non uniforme (des déserts (20%) et des zones riches)
Homme: Il y a des chromosomes denses en gènes et des chromosomes
pauvres
• Chromosome 19 (le + riche) → 23 gènes / Mb (3%)
• Chromosome 13 (le + pauvre) → 5 gènes /Mb (0.7%)
Chromosome 21 (46,9 Mb) : 337 gènes (1 gène / 140 kb
Chromosome 22 (49,5 Mb) : 693 gènes (1 gène / 70 kb
Région pauvre en gènes → 1 gène / 304 kb
Région riche en gènes → 1 gène / 95 kb
Homme: hétérogénéité dans les chromosomes (ex. Chromosome 21)
Plusieurs région presque dépourvues de gènes : 7 Mb (1 gène), 3 régions 1 Mb (pas de gènes) : Total 10 Mb
Des régions dupliquées → 220 kb (2 extrémités bras long); 10 kb (près du centromère)
Taille du génome et Nbre de gènes
• Mitochondrie levure ~ 78 kb• Mitochondrie homme ~ 17 kb• Chloroplaste 140 ~ 200 kb• Archée M. jannaschii ~ 1,6 Mb• Bactérie E. coli ~ 5 Mb• Levure S. cerevisiae ~ 13 Mb• Nématode C. elegans ~ 100 Mb• Drosophile ~ 150 Mb• Plante A. thaliana ~ 120 Mb• Homme ~ 3 000 Mb
• 34 gènes• 37 gènes• 136 gènes• 1 738 gènes• 4 000 gènes• 6 000 gènes• 19 000 gènes• 13 000 gènes• 25 000 gènes• 30 000 gènes
103 104 105 106 107 108
Bactéries
Champignons
Algues
Mollusques
Insectes
Crustacés
Échinodermes
Poissons
Amphibiens
Reptiles
Mammifères
Oiseaux
Angiospermes
Taille du génome (kb)
Paradoxe de la valeur de C • C : Qté totale d’ADN d’un génome haploïde• En général C augmente des procaryotes →
Eucaryotes uni¢ → Métazoaires et plantes• MAIS énorme variation entre compléxité (et
nbre de gènes) et valeur de C• Paradoxe → Divergence entre C et ADN
requit pour coder la complexité d’un organisme
Paradoxe de la valeur de C: La complexité n’est pas corrélée avec
la Qté d’ADN
3.4 x 109 pbHomo sapiens
6.7 x 1011 pbAmoeba dubia
Paramecium caudatumParamecium aureliaNon distinguables en morphologie et en phénotypes
P aurelia : ADN 200 000 kbP caudatum : ADN 9 000 000 kb
P caudatum = 45 X ADN de P. aurelia et 3 X ADN H. sapiens
Paradoxe de la valeur de K: La complexité n’est pas corrélée avec le nbre de chromosomes
46 250
Ophioglossum reticulatumHomo sapiens Lysandra atlantica
1260
Paradoxe de la valeur de N: La complexité n’est pas corrélée avec
les nbre de gènes
~31,000 genes~31,000 genes~26,000 genes~26,000 genes~50,000 genes~50,000 genes
19,000 19,000 ggèènesnes 13,600 13,600 ggèènesnes~10~1088 cellulescellules~10~1033 cellulescellules
Coenorbitis Drosophila
On observe généralement:• Excès d’ADN par rapport à ADN requit
pour coder toutes les protéines et ARN• Énormes variations entre organismes de
complexité comparables
Pourquoi ce paradoxe?• ADN non codant • ADN répétitif• Introns
RégionsintergéniquesADN poubelle(junk DNA)
Introns (junk)Exons
5%5%
Le Le ggéénomenomeestestvide !vide !
Génomique structurale
• Organisation des séquences d’ADN dans le génome
• Organisation du génome• Fait appel aux techniques d’amplification
(PCR)• Séquençage• Clonage d’ADN
Génome humainTous les individus sont ≠ MAIS
ADN entre individus ≠ varie sur 0.2 % ou moins
Seulement 1 lettres / 1400 est ≠ entre ind.
De 2 à 3 millions de lettres de différence entre 2 ind.
ADN Eucaryotes
Gènes fonctionnels en simple copie
ADN répétitif ADN intercalaire
Séquence fonctionnelles
Séquence sans fonctions connues
Familles de gènes codantes
(et pseudogènes)
Séquences fonctelle
non codantes
Familles de gènes dispersées
Familles de gènes en tandem
Répétition hétérochromatine
centromère
Répétition en tandem variables
Séquences transposées
Transposons Retrotransposons
3 – 1 - Gènes fonctionnels en simple copie
Gène• Ancienne déf. : Séquence d'ADN qui
code pour une chaîne polypeptidique ou une molécule fonctelle d'ARN
• Pb. : des gènes régulateurs non transcrits
• Activateurs (enhancers) et inhibiteurs (silencers)
• Activateurs et inhibiteurs peuvent se trouver très loin d’une séquence transcrite
Gène
• Une région transcrite + une séquence régulatrice de transcription
• Segment d'ADN qui a une fonction spécifique
• Unité fonctelle du gène : Région transcrite + toutes les séquences de régulation
3 types de gènes
• Gènes de structures (G1) : codent pour une protéine (transcription et traduction)
• Gènes uniquement transcrits (G2) : ARN non traduits
• Gènes régulateurs (G3) : non transcrits • régulation de la réplication• recombinaison• fixation de protéines ou d'hormones sur
l'ADN
Nature des gènes G1 et G2
• Région d’ADN transcrite en ARN
Région codante
ADN de procaryote
Zone de régulation
Zone de fin de
transcription
Région codante (exons)
ADN eucaryote
Zone de régulation
Zone de fin de
transcription
Introns
Introns
Séquences intragéniques transcrites et éliminées (épissage) : maturation ARNm
Séquences d’ADN non fonctelles intercalaires des exons
Souvent : zones de localisation des ARN interférents (ARNi)
EpissageEpissage
Gènes eucaryotes (exons & introns)
Nombre moyen d’introns
• Saccharomyces cerevisiae : 1• Drosophila melanogaster : 4• Caenorhabditis : 5,2 (taille 0,12 Kb)• Poulet : 9• Mammifères : 7 (de 1 à > 60)• Homme : 7,7
Organism # Chromosomes # Genes Exons Introns
Mycoplasmagenitalium
1 500 5001/gene
0
Deinococcusradiodurans
2 3200 35001.02/gene
61
Saccharomycescerevisiae
16 6200 65001.04/gene
220
C. elegans 6 18,000 91,0005/gene
73,0004/gene
Drosophilamelanogaster
5 14,000 54,0004/gene
44,0003/gene
60 bp/intronArabodopsisthaliana
5 25,000 133,0005/gene
247bp/exon
107,0004/gene
169 bp/intronHomo sapiens 23 30,000 310,000
8+/gene455 bp/exon
250,0007/gene
3400 bp/intron
Variabilité intrasp. en nbred’introns
• Histones : Pas d’introns• Gène du collagène pro-α2 du poulet : 50
introns • Gène protéine musculaire titine 283 kb :
363 exons
Variabilité en taille
Gène Taille µintrons (pb)
tRNAtyr 20Insuline 480Classe I HLA 260
Collagène 190Complément C3 900
Facteur VIII 7100CFTR 9100
Titine 466
Dystrophine
kb Nbre
exons
0.1 21.4 33.5 831 11841 29
186 26250 27283 363
2400 79
Taille µexons (pb)
5015518777122375227315
180 30770
Homme
La plupart des exons sont des petites îles dans une mer
d’introns
Introns
Majorité des introns eucaryotes : épissage par splicéosome
1% du génome humain (ou de la levure) code pour des pièces du splicéosome
Splicéosome : une machine moléculaire (ribonucléoprotéine) aussi complexe que le
ribosome
TGA
TAA
TAG
AGGT AATAAAIntron Exon
Règle GT-AG
Codon stopSignal de
polyadénylation(queue de polyA)
Règle GT-AG : début d’intron GT – Fin d’intron AG
Jonction exon-intron : séquences hautement conservées = Quasiment toutes les jonctions chez
tous les eucaryotes
3' UTR
La grande majorité des splicéosomes fonctionnent avec introns GT-AG
Qqs splicéosomes fonctionnent avec d’autres introns
Introns GT-AG : dans toute la lignée eucaryote
Les introns à splicéosomes étaient présent dans la lignée primitive eucaryote !
Il existe des introns àautoépissage
Thomas Cech et al. 1982 : Tetrahymena (protozoaire cilié)
Découverte des ribozymes : ARN à propriétécatalytique
Des introns à ribozyme : capables de s’autoexciser !
Les introns sont un coût métabolique important
Synthèse d’ADN et d’ARN supplémentaire
Une machinerie nécessaire pour détecter/éliminer les mauvais transcrits
1/3 des désordres génétiques humains : mutations qui causent une mauvaise reconnaissance des sites
d’épissages !
Erreur d’épissage : mauvais transcrits
Origine des introns2 hypothèses
Des frontières de fusions entre miniprotéines(minigènes) primitives (introns précoces)
Des éléments mobiles insérés (introns tardifs)
Introns précoces
9 introns
Intron/Exon structure of the chicken pyruvate kinase geneN. Lonberg & W. Gilbert
Cell 40: 81-90, 1985
Divisent les séquences codantes en pièces de taille uniforme qui
codent pour les éléments discrets de la structure IIaire
Pas d’insertion au hasard mais produit de l’évolution du 1er gène pyruvate kinase
Epissage alternatif
variant II
Epissage alternatif: Un gène : Plusieurs protéines
variant I
Exons constitutifs
Exons sauteur
Déduction de l’épissage alternatif par alignement de séquences d’ARNm
A B C
A B C A C
Variant ABC d’ARNm
Variant AC d’ARNm
Séquençage des variants
Alignement des séquences
Gap
Alignements multiples d’ARNmexprimés à large échelle
• Génome humain : 10aines de milliers de séquences ARNm alignées
• 75% des gènes humains : épissage alternatif
• 30 000 gènes : centaines de milliers de protéines
• Le protéome est bcp plus complexe que le génome
Plusieurs formes d’épissage alternatif
Exons sauteurs
Échange d’Exons
Utilisation de sites d’épissages alternatifs
•Inconditionnel : 2 (ou plus) variants d’ARNmproduits dans tous les tissus qui expriment le gène•Conditionnel : spécifique du tissu, du stade de dévent ou de l’état physiologique
Epissage alternatif
Caractérisation des exons constitutifs et sauteurs
(alternatifs) chez l’homme
• But : rechercher des motifs (séquences) caractéristiques des exons sauteurs
• Résultats : bcp d’exons alternatifs avec motifs très conservés
• Motif : partie d’un éléments ALU• Rôle des éléments ALU dans l’épissage
alternatif peu connu
Drosophile: Gène Dscam
Guide la croissance des axones entre neurones
4 exons = clusters d’exons alternatif
38 000 versions ≠ de la protéine (Droso. = 13 000 gènes)
115 exons
Chaque exons alternatif = mutuellement exclusif
Zone 5' et 3' de l'ARN messager
5' UTR et 3' UTR : Untranslated Transcribed Region
Des motifs cruciaux de régulation
Zones de régulation
Séquences qui contrôlent la transcription : séquences cis-régulatrices
Éléments cis-actifs : séquences sites d’accrochage d’éléments régulateurs (trans-actifs)
Éléments trans-actifs : molécules qui se lient aux séquences ADN cis-actifs
ADN
Élément (séquence) cis-actif
Reconnaissance +/- spécifique des éléments
Élément (molécule) trans-actif
ADN
Liaison cis-trans
Contrôle de la transcriptionTrois types de séquences cis-régulatrices :
contrôle de la transcription
Promoteur : séquence de nucléotides = site de reconnaissance de la machine de transcription
Enhancer (activateurs) : augmentent taux de transcription ou activent le promoteur
Silencer (inhibiteurs) : diminuent taux de transcription ou inactivent le promoteur
Structure du site promoteurSpécifie le site où démarre la transcription +
direction de transcription
ADNPromoteur Gène
ADN
PolII PolII: ARN polymérase
Complexe d’initiation de la transcription
ARNm30pb100pb200pb
GGGCGG CCAAT TATATATA boxCAAT boxGC box
Promoteur Central
Éléments proches du Promoteur Central
Gène
TATA : région d’attache de l’ARN Polase
TATA : AT de 2 à 8 pbCAAT : Séquence consensus CAAT ou CCAAT
CAAT : Site d’accroche de protéines
GC : Séquence consensus GGGCGGGC : Site d’accroche de protéines
Boite TATA Gène
Mise en place d’une plateforme
Complexe TFIID Accrochage de
la PolII
PolII
Transcription
Boite TATA Départ de transcription
Tous les gènes n’ont pas une boite TATA !
Activateurs : contrôlent le taux de transcription
Peut être à coté du gène (ex. boites CAAT ou CG)
Peut être en amont, en aval ou même dans le gène
Peut être à qqs distance du gène
Si un activateur est déplacé dans le génome, si un gène est placé près d’un activateur : transcription
du gène adjacent augmentée
Mécanisme : protéines modulaires qui se lient sur les activateurs
Complexe de protéines : enhanceosome
Complexe activateur à 2 domaines fonctionnels !
Domaine de liaison ADN (activateur)
Domaine de trans-activationInteraction protéine-protéine : Liaison avec PolII et
autres protéines du promoteur
PolIIComplexe TFIID
activateur
Boite TATA Gène
ADN
Formation d’une loupe d’ADN
Complexe activateurs : domaines de liaison ADN tri dimensionnels caractéristiques (motifs)
Plusieurs classes de motifs (non exhaustif)
Motifs très conservés au cours de l’évolution
Homodimères ou hétérodimères
HTH (helix-turn-helix) : Très nombreux facteurs de
régulation du développement
HTH → Homeobox : 180 pb= 60 a.a. séquence
homéodomaine (très conservée)
Motif en doigt de zinc : Facteurs de transcription et régulation
Zipper (glissière) à Leucine basique (bZIP)
LeuLeu
Leu
LeuLeu
Leu
Résidus leucines tous les 7 a.a.
Confrontation de 2 chaînes protéiques par ponts
hydrophobes
Facteurs de transcription : contient aussi de domaines d’interaction protéine-protéine
Lien avec ARN Pol ou d’autres facteurs de transcription
Des domaines de liaison avec d’autre coactivateurs(hormones ou petits métabolites)
La régulation de la transcription est complexe mais généralisable
Comment localiser un gène dans une séquence ?
Algorithme d'analyse de génomes : détecter des ORF (Open Reading Frame)
Cadre de lecture ouvert : une portion du génome contenant une séquence pouvant potentiellement
coder une protéine
Gène : les ORFs sont localisés entre séquences d'initiation (codon start) et de fin de transcription
(codon stop)
Identification d'un gène dans le génome
Pas de codon stop
Exon (5') initial :
Commence avec un point de départ de transcription (ATG)
Est précédé par un site promoteur (ex. TATA à ≈ 30 pb)
Terminé juste avant un signal d'épissage GT
Exon interne : pas de codons stop
débute après un AG
finit avant GT
Exon final (3') : débute après un AG
termine par un codon stop (TAA, TAG, TGA)
est suivi par une séquence avec polyA (5' UTR)
ATGCCGA……TCAGG… …CCTAGTAATTG…
Exon initial
Exon interneIntron
Promoteur
Exon final
…TAAG TTC… …AGGTGA CCTAATAAAGACC…Séquence polyaSTOP
ACTTG… …GCCC…AGTAG GTCCTA…
5' UTR
3' UTR
3 – 2 - ADN Répétitif
Définition
Séquences de nucléotides, de tailles variables, +/- identiques que l’on retrouve un certain nombre de fois dans le génome
d’un organisme
Séquence en tandem
Séquence dispersées
Motif de la Séquence
TTAGCT TTAGCT TTAGCTTTAGCT
TTAGCT
TTAGCT
TTAGCT
Plusieurs types d’ADN répétitif
• ADN répétitif de séquences fonctelles : Familles multigéniques, séquences fonctelles non codantes
• ADN répétitif de séquences sans fonctions connues : Séquences transposées, ADN non fonctel répété
3 – 2 – 1 Les familles multigéniques
Recommended