41
1. L’ADN et l’information génétique

1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

Embed Size (px)

Citation preview

Page 1: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

1. L’ADN et l’information génétique

Page 2: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

l’ADNl’information génétique est contenue dans l’ADN

(ARN)(ADN)

A G T C U

Page 3: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

traductionl’information génétique est organisée par triplets (codons)

Page 4: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

1 triplet= 1 codon = 3 lettres= 1 acide aminé

le code génétique

Page 5: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le gèneunité de l’information génétique

gène

introns : non codants exons : codants

Page 6: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le gène

gène

unité de l’information génétique

Page 7: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le génomeorganisation de l’information génétique

chez la bactérie : Escherichia Coli

4938920 bps4732 gènes

Page 8: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le génomeorganisation de l’information génétique

codant

séquences répétées

non codant

pseudogènes

chez l’homme :

•3 milliards de pbs

•~20000 gènes

•< 2 % d’ADN codant !

Page 9: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le génomepourcent d’ADN noncodant et « complexité »des organismes

quantité d’ADN codant en fonction de la taille du génome

Page 10: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

ADN codant et non codant

ADN « poubelle »

exons

introns

pourquoi autant d’ADN non codant ?peut-on en comprendre le rôle ?

en résumé :

Page 11: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

2. étudier les séquences d’ADN

comparaison entre séquences / alignement de séquences :

• recherche de gènes

• recherche de similarités entre espèces - évolution

• recherches de motifs répétés - régulation, organisation

à la recherche de caractéristiques « globales » :

• différencier les régions codantes et non codantes

• rechercher un « ordre » dans le désordre apparent…

approche « déterministe » :

approche statistique :

Page 12: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

analyse statistiques des séquences

mesurer l’ordre dans l’ADN

qu’est-ce qui différencie les séquences d’ADN de simples séquences aléatoires ?

1. information mutuelle

2. fonction de corrélation / densité spectrale de puissance

3. techniques basées sur la « marche ADN »

4. …

Page 13: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

de la séquence symbolique à une séquence numérique

choisir un code binaire : par exemple

A

T

G

C

A

G

T

C

double liaisonhydrogène

triple liaisonhydrogène

ou

purines

pyrimidines

+1

-1

+1

-1

n=1 2 3 4 5 6 7 8 9 10… A T C G G T C A T A… n= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1…

on peut donc étudier la variable numérique binaire

n = 1 où n = position

on obtient :

Page 14: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

le signal n (ADN)

signal aléatoire

signal déterministe

signal corrélé

Page 15: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

3. fonction de corrélation et densité spectrale de puissance

(DSP)

xx() Sxx( f )

T

1/T

Page 16: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

fonction de corrélation

soit (t) signal aléatoire fonction du temps t, stationnaire :

1. on peut définir la fonction de corrélation de (t)

2. si « ergodique », on peut remplacer la moyenne d’ensemble par une moyenne sur le temps :

chaque t0 initial considéré comme une nouvelle réalisation

ϕ (τ ) = ξ (t) − ξ( ) ⋅ ξ (t +τ ) − ξ( )ensemble

ϕ (τ ) = ξ (t0 + t) − ξ( ) ⋅ ξ (t0 + t +τ ) − ξ( )t0

Page 17: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

fonction de corrélation

fonction de corrélation

Signal temporel Périodicités cachées

Signal musical (Strauss) :

La fonction de corrélationprésente de pics pour des

retards multiples du « tempo »

(msec

)

t (sec)

Page 18: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

fonction de corrélation

fonction de corrélationSignal temporel

Signaux persistants : la fonction de corrélation décroît plus lentement pour des signaux qui ont tendance à varier lentement

Une mesure de la « mémoire » du signal

Page 19: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

(bruit blanc)Signal « sans mémoire » : chaque valeur est indépendante de la précédente

fonction de corrélation• bb() = ()

d’où b2 = bb() = +

b(t)

• b(t) signal stationnaire,

• b(t) = 0 (centré),

Page 20: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

effet du bruit

Page 21: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

densité spectrale de puissance (DSP)

3. on peut passer à la représentation en fréquence par transformée

de Fourier (TF) : on obtient la densité spectrale de puissance

4. Théorème de Wiener-Khintchine :

Sξξ ( f ) =def

TF ϕ ξξ (τ )[ ] = limT → ∞

1

TTF ξ T (t)[ ]

2

Sξξ ( f ) =def

TF ϕ ξξ (τ )[ ]

T (t) = ξ (t)où limitée à l’intérvalle [0, T]

5. On peut alors évaluer S( f ) directement à partir du signal :

estimateur de la DSP d’un signal réel :

Sξξ ( f ) ≅1

TTF ξ T (t)[ ]

2

ensemble

Page 22: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

() ~ exp(- /a) exponentielle

S ( f ) ~ 1/( 1+(2 a f )2 ) lorentzienne

f

largeur de bande

2. échelle de « mémoire » = a largeur de bande 1/a

1. périodicité « cachée » = T pic à la fréquence 1/T

xx() Sxx( f )

fT

1/T

Fonction de corrélation et DSP

ϕ (τ ) dτ0

∫ ≈ a

Page 23: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

4. corrélation à longue portée

http://www.scholarpedia.org/article/1/f_noise

Page 24: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

si l’échelle de mémoire est infinie (xx() n’est pas intégrable)

on parle de corrélation à longue portée.

Typiquement, loi de puissance :

corrélation à longue portée

0 < β ≤10 <α ≤1 β =1− α

limτ → ∞

ϕ ξξ (τ )∝1

τ α

limf → ∞

Sξξ ( f )∝1

f β

(échelle log)

)

(éch

elle

log

)

pente 1/α

f (échelle log)

S(f)

(éch

elle

log

)pente 1/β

Page 25: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

5. corrélation et ADN

Page 26: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

ADN : résultat 1 – périodicité 3périodicité dans la fonction de corrélation

positions n = 3i

positions n = 3i+1, 3i+2

d

C(d

)

lié à la structure en triplets (codons) du code génétique ;mais comment ? pourquoi ?

Page 27: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

résultat 2 – corrélation à longue portée

R. F. V

oss, P

RL, 1

99

2

(variation de la méthode :construction de 4 sous-séquences0/1 pour A, T, C, G)

résultat 1 : pic à f = 1/3

cytomégalovirus, 230000 pbs

(codant)

résultat 2 : DSP 1/f β β1

β

le résultatsembleplutôt général…

(non codant)

échelle log-log : log(DSP) -β log(f)

f=1/3

Page 28: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

pour l’ADN codantdes résultats controversés :

pas de corrélation ?(Stanley group, 1992-1995)

L’ADN codant est sans doute moins corrélé que le non codant

Page 29: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

positions n = 3i

positions n = 3i+1, 3i+2

d

C(d

)

revenons à la fonction de corrélationpour bien analyser les résultats obtenus :

comment évolue l’amplitude des pics en position 3i ?

on la reporte en échelle log : décroissance en dα corrélation longue portée pour « une base sur trois » ?

d

C(d

)séquence codante

Page 30: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

dégénérescencesur la troisièmelettre du codon

séquences codantes : la dégénérescence du code laisse « passer »

un peu de corrélation longue portée H

calc

ulé

su

r d

iffére

nte

s éch

elle

s q

introns : H≈0.6

position 1 du codon : H≈0.55

position 2 du codon : H≈0.55

position 3 du codon : H≈0.58

Arnéodo group, 1995-1996

la position 3du codon, plus libre,peut suivrela contrainte« globale »

Page 31: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

pourquoi une mémoire étendue ?procaryotes (bactéries et archea)

ADN : un filament hautement compacté

4 600 000 bps 2 cm d’ADNtaille de la cellule 1 m

ratio = 5 10-5

Page 32: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

pourquoi une mémoire étendue ?eucaryotes : CHROMATINE !

Goodsell

nucléosomes

DNA

histones

nucléosomes

fibre de chromatine

chromatine

DNA

fibre de chromatine

boucles

noyau cellulaire

parties verrouilléesparties transcritesparties verrouilléesparties transcrites

une structure fonctionnelle hautement organisée

Page 33: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

d’autres images

Page 34: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

un rôle pour les séquences non codantes

les séquences non codantes montrent toujours

une corrélation à longue portée

l’ADN « poubelle » participe à l’établissement d’un

arrangement fonctionnel de l’ADN dans le noyau/la cellule !

la corrélation à longue portée indique

la présence d’un ordre global ;

Page 35: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

interprétation

•rôle de la fonction biologique :

codage d’une protéine :

représente une contrainte sur le choix

des bases, lié à la bonne séquence d’a.a.

corrélation longue portée :

en général,reflet d’une contrainte

sur l’ordre globalde l’ADN

séquences non codantes séquences codantessoumises à deux contraintes :

peut-on les « simuler » ?

Page 36: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

signal discret fonction de corrélation de n n = 1 2 3 4 5 6 7 8 9 10

11… A T C G G T C A T A C… n= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1 -1…n signal aléatoire discret

fonction de la position n plutôt que du temps t :

si <n>=0 (autrement, on soustrait la moyenne)

alors la fonction de corrélation s’écrit

d = distance entre 2 sites le long de la séquence

moyenne d’ensemble moyenne sur n

C(d) = n n+d =1N

n n+dn=1

N

Page 37: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

fonction de corrélation de n en pratique :

sur un ordinateur, le signal est toujours discret !

z(t) (z1, z2, z3, z4,… zN) = z

pour nous, le signal est intrinsèquement discret (pas=1), car c’est la séquence.

sous scilab, il donc d’utiliser la fonction :

corr : corr(z, dmax) = fonction de corrélation de x, en fonction de la distance d,

pour d = 0, 1, 2,… dmax-1

sous scilab, corr soustrait automatiquement la moyenne de z

Page 38: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

DSP de n – 1. calculer la TF : x(t)

t

|X(f)|

f

SpectreSignal

Signal échantillonné ∆t Spectre périodique de période ƒe = 1/∆t

Signal echantillonné :

xk = k t de 0 à Te = N ∆T

tk

xk

f-fefe/20

FFT du signal :

ƒn = n ƒ de 0 à ƒe = N ∆ƒ

Transformée de Fourier Rapide :FFT

Page 39: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

DSP de n – 2. déduire la DSP:

Wiener-Khintchine : estimateur DSP =

d’où |fft(z)|2 / N ≈ DSP de z

1

TTF ξ T (t)[ ]

2

ensemble

sous scilab, commencer par soustraire la moyenne de z

FFT = transformée de Fourier Rapide

sous scilab :

fft : fft(z, -1) = fft(z) = TF de z donne la TF pour f = 0, ∆f, 2∆f,… fe-1

Page 40: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

fin

Page 41: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

1. information mutuelle

probabilité jointe d’avoir les symboles i et j à distance d

probabilités d’avoir les symboles i et j (densités)

zéro si indépendants car Pij(d)=PiPj

remarque :

en thermo, S = -kB∑pilnpi … c’est une mesure d’entropie!

voir « entropie de Shannon »