Upload
rangle
View
23
Download
0
Embed Size (px)
DESCRIPTION
Gene and genome history. Equipe Evolution Biologique Modélisation UMR 6632 http://www.up.univ-mrs.fr/evol/. Somes Concepts in evolutionary biology Informatisation. Arthropods. Gastrotrichs. Nematodes. ECDYSOZOANS. Onychophorans. Tardigrades. Kinorhynchs. PROTOSTOMES. Priapulids. - PowerPoint PPT Presentation
Citation preview
Gene and genome history.
Equipe Evolution Biologique ModélisationUMR 6632
http://www.up.univ-mrs.fr/evol/
• Somes Concepts in evolutionary biology
Informatisation
Metazoan Phylogeny ( Adoutte et al. 2000)Arthropods
Gastrotrichs
Nematodes
Onychophorans
TardigradesKinorhynchs
Priapulids
EC
DY
SO
ZO
AN
S
MolluscsRotifersAnnelidsGnathostomulidsSipunculansNemerteansPogonophoransPlatyhelminthesEntoproctsBryozoansBrachiopodsPhoronids
LO
PH
OT
RO
CH
OZ
OA
NS
VertebratesCephalochordatesUrochordates
HemichordatesEchinoderms
PR
OT
OS
TO
ME
SD
EU
TE
RO
ST
OM
ES
BIL
AT
ER
IA
CtenophoransCnidariansPoriferans
Urbilateria
??
URBILATERIA : The hypothetical Metazoan AncestorGeoffroy de St Hilaire ( XIX th Century)
URBILATERIA Genome evolved by the fixation of :• Nucleotide substitution• Gene loss• Gene shuffling • Genic duplication
Gene duplication Genome region duplication Whole genome duplication Chromosomal rearrangement
……..
Ce que l’on veut
• Retracer l’histoire des gènes en prenant en compte tous les événements génétiques
Lier les mutations à un shift fonctionnel
• Biochimique, transcriptionnel
• Physiologique, anatomique
•Lier les mutations à un shift environnemental
• Survol du génome
• Attention il n’y a pas que les séquences codantes.
5’ 3’
ORF
préARNmStart stop
5‘ UTR 3‘ UTRintron1
exon2
GT GT GT AGAGAG
Site donne
ur
Site accepteu
r
intron2
intron3
exon1
exon3 exon4
épissage
ARNm AAAAAA
Protéine
transcription
traduction
+1Région promotric
e
De l’ADN à la protéine
Phylogénie
A A AB B BC C CD D
Duplication
Spéciation
Construite avec des modèles évolutifs basés sur les positions …
Distance évolutive entre les séquences: détection des orthologues et paralogues
d’autres événements génétiques existent
Seules les mutations ponctuelles sont prises en compte
Les gap sont éliminés
support
• Les autres événements
• Je n’en citerai que quelques uns
• Pour les autres on réfléchira ensemble
5’ 3’
ORF
préARNmstart stop
5‘ UTR 3‘ UTRintron1
exon2
GT GT GT AGAGAG
intron2
intron3
exon1
exon3 exon4
Épissage alternatiftissu
spécifiqueProtéine isoforme2
Protéine isoforme1
GT AGAG
apparition d’un nouveau site accepteur AG
5’ 3’
ORF
préARNmstart stop
5‘ UTR 3‘ UTRintron1
exon2
GT GT GT AGAGAG
intron2
intron3
exon1
exon3 exon4
Perte de l’exon 2
Protéine isoforme2
Protéine isoforme1 ancestrale
Mutation ponctuelle sur site accepteur: perte d’exon
5’ 3’
ORF
préARNmstart stop
5‘ UTR 3‘ UTRintron1
exon2
GT GT GT AGAGAG
intron2
intron3
exon1
exon3 exon4
GT
ou
stop
Perte puis apparition d’un site donneur GT
Élongation d’exon
GT GT GT AGAGAG stop stop
3’
ORF
start stop
5‘ UTR 3‘ UTRintron1
exon2
intron2
intron3
exon1
exon3 exon4
Perte du codon stop
Élongation d’exon
Orthologs and paralogs
A1/2 A3
A
A1 A2 A3 URBILATERIA
A2 A3’ A3”A1
HUMAN multigenic family
A1 A2 A3
DROSOPHILA multigenic family
A1, A2, B ParalogsDuplication
Speciation
• Retracer l’histoire des gènes
• Retracer l’histoire des gènes
•Lier les mutations à un shift fonctionnel
• Biochimique, transcriptionnel
• Physiologique, anatomique
• Retracer l’histoire des gènes en prenant en compte tous les événements précédents
• Lier les mutations à un shift fonctionnel
• Biochimique, transcriptionnel
• Physiologique, anatomique
•Lier les mutations à un shift environnemental
• Reconstruction de l'histoire évolutive d'un gène (ou produit de gène) dans un ensemble d'espèces.
• Évolution du gène dans plusieurs lignées représentée par un arbre phylogénétique.
La phylogénie
Évolution des séquences (ADN ou protéines)
Mutations ponctuelles (substitutions, indels):
Méthodes:
• Distances : mesure de distance ou de similarité afin de regrouper (en anglais : clustering) des séquences proches. (ex: Neighbor Joining: minimise la longueur totale de l’arbre)
Évolution des séquences (ADN ou protéines)
Mutations ponctuelles (substitutions, indels):
Méthodes:
• Distances
• Maximum Parcimonie: basée sur les caractères, recherche du meilleur arbre possible :
Évolution des séquences (ADN ou protéines)
Mutations ponctuelles (substitutions, indels):
Méthodes:
• Distances
• Maximum Parcimonie
• Maximum de Vraisemblance:
Évolution des séquences
Une fois l’arbre phylogénétique obtenu :
Rajouter les autres événements pouvant se produire dans le génomes (duplications, exon shuffling, perte d’exon, élongation des introns, shift transcriptionnel…).
• Comment se fixe les mutations
• Processus populationnel
I
A
B
C
D
Population :
POP 1
POP 1 split in
2 autonomous populations
A
B
C
D
A
B
C
D
POP 1A
POP 1B
Allele A fixation and accumulation of new mutations
A1
A2
B1
B2
Allele B fixation and accumulation of new mutations
From alleles to orthologsPoints mutations
From alleles to orthologspoints mutations
POP 1A
POP 1B
A1
A2
A1
A2
B1
B2
B1
B2
POP 1A1
POP 1A2
POP 1B1
POP 1B2
A11
A12
A21
A22
B11
B12
B21
B22
POP 1B split in
2 autonomous populations
Allele A1 fixation and accumulation of new mutations
POP 1A split in
2 autonomous populations
Allele A2 fixation and accumulation of new mutations
Allele B1 fixation and accumulation of new mutations
Allele B2 fixation and accumulation of new mutations
From alleles to orthologs
A.1.1
A.1.2
A.2.1
A.2.2
B.1.1
B.1.2
B.2.1
B.2.2
Alleles
Alleles
Alleles
Alleles
Orthologs
From Gene History
To Gene Function
• Fonction: une notion imprécise.
• La façon dont les mutations se fixent peuvent renseigner sur la fonction.
Orhologs under purifying selection
A
A
URBILATERIA
Speciation
Purifying Selection
DROSOPHILA
Ancestral Function
HUMAN
Ancestral Function
Purifying Selection
A
• Discussion autour de la notion de fonction ancestrale
Ortholog functional switch
A
A2 A
URBILATERIA
SpeciationPurifying
Selection
DROSOPHILA
Ancestral Function
HUMAN
New Function ?
Positive selectionOr relaxed
Co-ortholog Sub Functionalization
A
A’ A
URBILATERIA
Speciation
Purifying Selection
DROSOPHILA
Ancestral Function
A”
Duplication
HUMAN
Sub-Function
HUMAN
Sub-Function
Co-ortholog Neo Functionalization
A
A A
URBILATERIA
Speciation
Purifying Selection
DROSOPHILA
Ancestral Function
A2
Duplication
HUMAN
Ancestral Function
HUMAN
New Function
Positive or relaxed Positive or relaxed selectionselection
Purifying Selection
Orthology/ Paralogy
Orthologs : 2 genes on different species Which come from a common ancestor and separated by a speciation event.
Paralogs : 2 genes resulting from a duplication event in a genome.
A1 HUMAN
A1 DROSO
A2 HUMAN
A2 DROSO
A3’ HUMAN
A3” HUMAN
A3 DROSO
Co-Orthologues
Duplication
Speciation
A
A1/2
A3
• Evolutionary shift (due to positive or relaxed selection) could be linked to functional shift .
• Detection of Positive selection and functional shift
LIPASES
FERULOYLESTERASES A
LignocellulolyseMetabolisme
Cette famille possède deux types d’activité enzymatique malgrè un pourcentage de similarité de séquences élevé.
Comment expliquer une telle divergence fonctionnelle au sein de cette famille ?&
Quelles sont les forces conduisant à de tels événements ?
Example developed in our team : The lipase esterase
Tests PAML: détection de sélection positive
Sites sous sélection positive et implication fonctionnelle
FaeA Aspergillus niger (1USW)
La mutagénèse dirigée permet de connecter les sites positivement
sélectionnés au changement fonctionnel
Lien entre changements évolutif et fonctionnel
1. Asp71 et Tyr80 dans la région du « clapet » (69-80)
2. Tyr100 et le site catalytique
• Detection of Evolutionary constraint relaxation and functional shift
• (Dykhuizen- Hartl effect" Kimura (1983))
Co-ortholog Neo Functionalization
A
A A
URBILATERIA
Speciation
Purifying Selection
DROSOPHILA
Ancestral Function
A2
Duplication
HUMAN
Ancestral Function
HUMAN
New Function
Purifying Selection
Constitutive proteasome β-subunits replacement after Interferon-γ stimulation
Paralogue = duplicated gene
Constitutive Proteasome Immuno-Proteasome
Paralogue replacement
PSMB8 (LMP 7)
PSMB9 (LMP 2)
PSMB10 (LMP Z)
PSMB5
PSMB6
PSMB7
• New function (specialization) (Specific size protein or peptide degradation – used by MHC system)
• Only found in vertebrates
• Ancestral function : Protein degradation• Present in all Metazoans, therefore
present in Urbilateria (Metazoan ancestor).
Large scale gene duplication in vertebrate lineage
Imm
uno
Pro
teas
ome
Pro
teas
ome
Deu
téro
stom
ata
Pro
tost
omat
a
Ver
tebr
ates
Amniota (Human)
Lisamphibia
Chondrichthyes (shark) Cephalaspidomorphi (lamprey)
Céphalochordata (amphioxus)
Echinodermata
Actinopterygii(Zebrafish)
Urochordata(Ciona)
Insects (Drosophila)
Myxini (Hagfish)
Nématod (c. elegans)
751
>751
564
528450
<833-993
833-993
360
PROTEASOME
PSMB7 Mus PSMB7 Ratt
PSMB7 Bos PSMB7 Homo PSMB7 Gall
PSMB7 Xeno PSMB7 Zebra
PSMB7 Fugu PSMB10 Zebra
PSMB10 Fugu PSMB10 Bos
PSMB10 Mus PSMB10 Homo
PSMB7/10 Bran PSMB7/10 Ci-zeta Cionai
PSMB7/10 BombyxPSMB7/10 Prosbeta2
PSMB7/10 CG18341 Drosophila
62100
100
4495
93
78
599558
88
98100
5280
0.1
**
*
74 99
100*
*69
9995
* *
62
*
*
76
80
**
9578
93
9191
5958
75 *
*Duplication
The study genes and genomes HISTORY.
Help to find evidences for gene FUNCTION.
• On sait « bien modéliser » l’histoire des substitutions mais pas ou peu les autres événements (quelques travaux sur les indels par exemple)
Concepts in evolutionary biology
• Use of the concepts for • Structural and functional annotation.
Structural annotation (deciphering of gene structure). Functional annotation (especially the use of
phylogeny to decipher proteins function).
.
Biochemical and Biological process :
• Experimental approach : RNA Interference Tandem affinity purification and mass spectrometry
• In Silico
FunctionalFunctional annotation annotation
• Functional Annotation
Based on phylogeny. from experimentally annotated genes…
INTERLUDE
• FUNCTION
• A complex concept;
Function Prediction
*Using orthology information (done)
*Using the evolutionary shift Information.
*Function prediction by Integrative phylogenomics (Engelhardt et al
PLOS Computional biology 2005).
Homologs with experimentally known function: how information can be found.
Gene Ontology
MedLine
SwissProt
Textual Information Analysis
G.O. Standard
GenBank
Functional annotationFunctional annotation
• Biological process – biological process to which the gene or gene product contributes. Cell growth and maintenance; pyrimidine metabolism; …
• Molecular function – biochemical activity, including specific binding to ligands or structures, of a gene product. Enzyme, transporter; Toll receptor ligand, …
• Cellular component – place in the cell where a gene product is active. Cytoplasm, ribosome, …
. Plus others classifications to develop:In particular evolutionary based ontology
Functional annotationFunctional annotation
Gene Ontology Classification
Small fraction correspond to known, well-characterized proteins.
If the function is unknown : Phylogenetic analysis :
Functional prediction:
Using orthology information
Using the evolutionary shift information
by integrative Phylogenomics
Tumor necrosis factor family Phylogenetic tree :Orthologs identification
GgaTNFSF10DreTNFSF10
HsaTNFSF10PolTNFSF11
HsaTNFSF11XlaTNFSF11
GgaTNFSF5
HsaTNFSF5BboTNFSF5
MmuTNFSF2HsaTNFSF2
MmuTNFSF1HsaTNFSF1
MmuTNFSF15
HsaTNFSF15HsaTNFSF14MmuTNFSF14
HsaTNFSF6RnoTNFSF6
HsaTNFSF13MmuTNFSF6
GgaTNFSF13
PolTNFSF13MmuTNFSF7HsaTNFSF7
HsaTNFSF8MmuTNFSF8
HsaTNFSF9MmuTNFSF9
EIGER (DmeTNF)
9996
73
7879
95
9999
79
MmuTNFSF598
96
99
99
99
99
88
99
69
74
55
5897
9968
99
99
0,2
DF1
DF2
DF3
Trends in Immunology (July 2003)
Atherosclerotic plaque
formation
ALPS - LPR/GLD
Lympho proliferative syndrome
Small fraction correspond to known, well-characterized proteins.
If the function is unknown : Phylogenetic analysis :
Gene function prediction:
Using orthology information Using the evolutionary shift
information by integrative Phylogenomics
Un exemple de reconstruction phylogénétique
Recherche données fonctionnelles (expérimentales)
Intégration du shift évolutif pour l’annotation
evolutionary biology concepts for genome annotation
Further reading
Concepts, hypothesis and test.
Danchin E.G.J, et al. The Major Histocompatibiliy Complex Origin Immunological reviews. 2004;198(1):216-232.
Levasseur A, Danchin E, Orlando L, Bailly X, Pontarotti P. Conceptual bases for quantifying the role of the environment on genes evolution: the participation of positive selection and neutral evolution Biological review 2007
Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology BMC Evol Biol. 2006 Nov 8;6:92 BMC Evol Biol. 2006 Nov 8;6:92
Concepts for applied evolution Danchin E.G.J, Levasseur A, Lopez-Rascol V, Gouret P, Pontarotti P. The use of evolutionary biology
concepts for genome annotation. J. Exp. Zoology Part B: Mol. and Dev. Evol. 2007 Jan 15;308(1):26-36.
Informatisation des concepts et connaissances
• Phylogénie
• Détection des gènes orthologues et paralogues
• Détection de changements évolutifs
• Prévision de fonctions
FIGENIX est une plate-forme logicielle multi-utilisateur dédiée aux taches d'annotation structurales et fonctionnelles:
- Prédictions de gènes pour de grandes séquences d'ADN
- Construction d'arbres phylogénétiques robustes
- Détection automatique d'orthologues et de paralogues
- Recherche automatique de données fonctionnelles sur les gènes disponibles à partir de bases de données « Web »
- Filtrage et construction de bases de données protéiques (contigage d'EST)
- Processus chainés(ex: Prédiction de gènes suivie d'études phylogénétiques
pour chacun)
ETAPES DU PIPELINE de Phylogénie (1)
EnsemblNR…
Séquence protéique codée par un gène putatif
BLAST + filtrage
MUSCLE + purification
+ correction de biais
Alignement multiple
Conservation « repeats »
monophylétiques
Alignement « repeats » fusionnés
Test de composition par TREEPuzzle pour
élim séq trop divergentes
Construction Arbre de la Vie
PFAM
Recherche de domaines par HmmPFAM
Création domaine « FIGENIX » (correctDomains)
Conservation alignement complet
Existence « repeats »?
N
O
Arbre de référence
Enumération domaines
Détection « groupes de paralogie » + élim sites qui évol trop vites (« test de Gu »)
Élim séq >30% « gaps »
Élim domaines les + non congruents détectés par HomPart de PAUP
Test de saturation
NJ Parcimonie Maximum de vraisemblance
Comparaison topologies par tests Templeton-Hasegawa
Topologies congruentes?
Arbre NJ Arbre consensus
Détection orthologuesI
recherche de fonctions
ETAPES DU PIPELINE de phylogénie (2)
arbre arbre arbre
Construction Arbre de la Vie
Arbre de référence
ON
Architecture de FIGENIX
RDBMS
Expert SystemGenomic
Data Annotation Engine
Web Server
Persistence Layer
RepositoryLoad Balancing, Security, ...
Archiver
Request
Data exchange
MGIAgent
GOAgent
ESTAgent
Functional Collector Agent
- plate-forme Intranet/Extranet
-architecture 3 tiers (interface web/ serveurs “métier” / base de données)
1)
Further reading:about concepts informatisation
• Gouret et al.FIGENIX: intelligent automation of genomic annotation: expertise integration in a new software platform. BMC Bioinformatics. 2005 Aug 5;6:198
• Balandraud et al. A rigorous method for multigenic families' functional annotation: the peptidyl arginine deiminase (PADs) proteins family example BMC Genomics 2005, 6:153
Further reading on FIGENIX utilisation
• Danchin et al . Eleven ancestral gene families lost in mammals and vertebrates while otherwise universally conserved in animals BMC Evolutionary Biology 2006, 6:5
• Paillisson et al . Bromodomain testis-specific protein is expressed in mouse oocyte and evolves faster than its ubiquitously expressed paralogs BRD2, -3 and -4. Genomics. 2007
• Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology 2007 Jan 15;308(1):26-36. Pierre et al. Structural characterization, genomic organization and phylogenic analysis of the eutherian Ndg1/DPPA5/ECAT1/COEP. Genomics 2007
Next
• Phylogenomics (genome Evolution)
• Phylopostgenomics (evolutionary system biology)
• - phylotranscriptomics
• - phylointeractomics
…..
C.A.S.S.I.O.P.E
• Clever Agent System for Synteeny Inheritance and Other Phenomena in Evolution
• C.A.S.S.I.O.P.E permet de trouver des régions conservées entre les génomes.
Connaissances/concepts
Observation : il existe des régions de synténies conservées entre espèce.
Explication /concept : ces régions proviennent d’une région ancestrale qui a évoluée de manière indépendante après spéciation dans chaque lignée, mais pas assez pour perdre toute trace de conservation. A partir de cette connaissance et de cette prédiction que découle un ensemble de réflexion qui indique que les analyses des synténies conservées et la reconstruction de régions ancestrales sont intéressantes, d’un point de vu appliqué : assistance au clonage positionnel et d’un point de vue conceptuel : compréhension de l’évolution des génomes.
1/ des relations d’orthologie
2/ le regroupement des gènes orthologues doit être improbable sous l’hypothèse du hasard (le regroupement doit être significatif).
• Formalisation de la question biologique• Comment mettre en évidence les synténies
conservées ?• C’est aussi à ce moment que la conceptualisation prend
toute sa place• Si les synténies conservées proviennent vraiment d’une
région ancestrale, les gènes dans ces régions doivent avoir
• ll faut donc avoir des programmes qui soient capables de mettre en évidence les relations d’orthologie, et de trouver des clusters significatifs et les intégrer dans des ystèmes informatiques
NCBI by Entrez Utilities
JENA library API
OMIMdiseases
Ensembl by ENSJ API
Sequences +Localization
+QTL, ...
OrthologsDetection
Phylogeny Tasks
JADEmulti-agents framework
PhyloGenomicsOntology
POSTGRESQLRDBMS
BEANgenerator
plugin
ProtégéGUI
Questionsin SL language
C.A.S.S.I.O.P.E Clever Agent System for Synteny Inheritance and Other Phenomena in Evolution
OWL
ACL/SL
ACL/SL
ExpertSystem
RMI
Data fromWeb databases
OntologyPersistance
ACL/SL
ACL/SL
ACL/SL
• Bioanalyse• Recherche automatique de synténies
conservées.• Dans le futur reconstruction et évolution de
régions génomique• Nouvelle connaissance et nouveaux
concepts• Application directe : • aide au clonage positionnel• Concepts/connaissance:• Mise en évidence de regroupement fonctionnel
C.A.S.S.I.O.P.E.
• Toward the ancestral genome reconstruction
Toward the ancestral genome reconstruction
Annexe
Structural annotation
Genome nucleotide-level Annotation :
• Mapping• Finding genomic landmarks
• Gene finding and protein prediction• Non-coding RNAs and regulatory regions• Identifying repetitive elements• Mapping segmental duplications• Mapping variations (SNP, microsatellites,
….)
Structural annotationStructural annotation
Available tools
Ab initio :• Genscan• Fgenesh• Genie• Etc …
Similarity Based :• Genewise• Sim4• Est2genome• Figenix
Based on statistical signals within the DNA. Coding propensity (hexamer signals).Splice Site Signals.Strengths :
Easy and quick to run. Only need DNA as input.
Weakness : High false positive rate.
Alignement programs that know about gene structure.Very accurate with strong sequence similaritiesStrengths : Accurate.Weakness : Need strong similarities, slow to run.
Structural annotationStructural annotationState of the Art
DM SD A D D D DA A DAA D A+
DA A A
• Structural Annotation
combining together a statistical and homologous approach (similarities with known proteins). The process automation resulted in an expert system based on biological inference rules using gene history and ab-initio program. But yet not completely evolutionary biology based
« FIGENIX SOFTWARE PLATFORM » Annotating method Structural annotationStructural annotation
segment ADN
protéine A(meilleur hit région 1) protéine B
(meilleur hit région 2)
région 1 région 2
hsp: A1 hsp: A2
hsp: A3
hsp: B1
hsp:B2
Protein = amino acid sequence
Gene = nucleotidic sequence
mRNA = nucleotidic sequence
P
Transcription
Traduction
Figenix : 87%Figenix : 87%
Genscan : 31%
HMMGene : 38%
Sequence
Protein
Validation of structural annotationValidation of structural annotation
The platform performances were validated on standard dataset (HMR195) see Guigò et al, 2000; Rogic et al, 2001.
0.87
0.38
0.31
CORRECT PROTEIN
PREDICTION
0.220.650.800.55Genscan
0.050.950.920.91Figenix
0.150.780.810.75Hmmgen
OVER PREDICTION
Terminal
(55)
Internal
(186)
Initial
(55)
EXON TYPEPROGRAMS
Accuracy versus Exon Type and Prediction
The Mouse and Rat sequence from the HMR195 dataset was used on the human division of swissprot.
Structural annotationStructural annotation
• The next step for structural annotation :
• Is to take into account the gene evolutionary history