View
233
Download
0
Category
Preview:
Citation preview
Universiteacute de Provence
Master 2 Professionnel
Informatique Avanceacutee et Applications parcours Base de Donneacutees Avanceacutees
Anneacutee 2008-2009
Rapport de Stage
Application de la meacutethode ABC pour la
deacutetermination de lrsquoeacutetat geacuteneacutetique de reproduction
chez les fleurs de type Oenothera
Par Simon MOREacute
Maicirctre de Stage Etienne PARDOUX
Responsables du Master Ceacutecile CAPPONI et Denis LUGIEZ
1
Remerciements
Tout drsquoabord je tiens agrave remercier Etienne Pardoux qui a accepteacute drsquoencadrer un eacutetudiant en
informatique ce qui ne doit pas ecirctre eacutevident pour un matheacutematicien
Je remercie toute lrsquoeacutequipe EBM et notamment le 3egraveme eacutetage pour son accueil chaleureux
Je remercie tout particuliegraverement Manuela Royer et Olivier Chabrol pour leurs conseils aviseacutes
de matheacutematiciens et informaticiens expeacuterimenteacutes
Je remercie Margart Evans et Michael Blum drsquoavoir prit de leur temps pour me permettre
drsquoavancer
Je remercie Marie-Christine Roubaud qui mrsquoa permis en maicirctrise de faire mes premiers pas
dans le monde de la pluridisciplinariteacute bio-info-maths
Enfin je remercie Ceacutecile Capponi de mrsquoavoir accepteacute au sein du Master I2A parcours BDA
malgreacute mon parcours laquo original raquo
Pour finir je remercie tous les eacutetudiants de BDA avec (gracircce agrave) qui jrsquoai passeacute sans doute ma
meilleure anneacutee universitaire
2
Sommaire
REMERCIEMENTS 1
SOMMAIRE 2
INTRODUCTION 3
1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4
11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5
2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6
21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9
3 DEROULEMENT DU STAGE 12
31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13
331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23
CONCLUSION 26
BIBLIOGRAPHIE ET WEBOGRAPHIE 28
3
Introduction
Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en
entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de
la Recherche Scientifique soit un organisme de recherche public En effet le monde de la
recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus
mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si
possible la biologie
Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du
LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de
reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout
de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un
programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur
(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode
matheacutematique ABC
Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet
du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que
mrsquoa apporteacute cette expeacuterience professionnelle
4
1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS
11 Preacutesentation et historique du CNRS
Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le
plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement
public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle
administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche
Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute
des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le
CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la
recherche fondamentale
En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14
400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel
est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce
son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de
service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes
eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de
rechercheraquo
Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts
ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon
le classement mondial laquo Webometrics raquo
12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes
Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute
dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et
Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et
Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
1
Remerciements
Tout drsquoabord je tiens agrave remercier Etienne Pardoux qui a accepteacute drsquoencadrer un eacutetudiant en
informatique ce qui ne doit pas ecirctre eacutevident pour un matheacutematicien
Je remercie toute lrsquoeacutequipe EBM et notamment le 3egraveme eacutetage pour son accueil chaleureux
Je remercie tout particuliegraverement Manuela Royer et Olivier Chabrol pour leurs conseils aviseacutes
de matheacutematiciens et informaticiens expeacuterimenteacutes
Je remercie Margart Evans et Michael Blum drsquoavoir prit de leur temps pour me permettre
drsquoavancer
Je remercie Marie-Christine Roubaud qui mrsquoa permis en maicirctrise de faire mes premiers pas
dans le monde de la pluridisciplinariteacute bio-info-maths
Enfin je remercie Ceacutecile Capponi de mrsquoavoir accepteacute au sein du Master I2A parcours BDA
malgreacute mon parcours laquo original raquo
Pour finir je remercie tous les eacutetudiants de BDA avec (gracircce agrave) qui jrsquoai passeacute sans doute ma
meilleure anneacutee universitaire
2
Sommaire
REMERCIEMENTS 1
SOMMAIRE 2
INTRODUCTION 3
1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4
11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5
2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6
21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9
3 DEROULEMENT DU STAGE 12
31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13
331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23
CONCLUSION 26
BIBLIOGRAPHIE ET WEBOGRAPHIE 28
3
Introduction
Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en
entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de
la Recherche Scientifique soit un organisme de recherche public En effet le monde de la
recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus
mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si
possible la biologie
Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du
LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de
reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout
de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un
programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur
(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode
matheacutematique ABC
Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet
du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que
mrsquoa apporteacute cette expeacuterience professionnelle
4
1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS
11 Preacutesentation et historique du CNRS
Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le
plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement
public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle
administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche
Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute
des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le
CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la
recherche fondamentale
En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14
400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel
est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce
son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de
service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes
eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de
rechercheraquo
Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts
ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon
le classement mondial laquo Webometrics raquo
12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes
Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute
dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et
Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et
Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
2
Sommaire
REMERCIEMENTS 1
SOMMAIRE 2
INTRODUCTION 3
1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4
11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5
2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6
21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9
3 DEROULEMENT DU STAGE 12
31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13
331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23
CONCLUSION 26
BIBLIOGRAPHIE ET WEBOGRAPHIE 28
3
Introduction
Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en
entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de
la Recherche Scientifique soit un organisme de recherche public En effet le monde de la
recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus
mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si
possible la biologie
Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du
LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de
reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout
de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un
programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur
(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode
matheacutematique ABC
Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet
du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que
mrsquoa apporteacute cette expeacuterience professionnelle
4
1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS
11 Preacutesentation et historique du CNRS
Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le
plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement
public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle
administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche
Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute
des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le
CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la
recherche fondamentale
En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14
400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel
est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce
son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de
service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes
eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de
rechercheraquo
Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts
ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon
le classement mondial laquo Webometrics raquo
12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes
Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute
dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et
Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et
Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
3
Introduction
Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en
entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de
la Recherche Scientifique soit un organisme de recherche public En effet le monde de la
recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus
mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si
possible la biologie
Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du
LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de
reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout
de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un
programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur
(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode
matheacutematique ABC
Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet
du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que
mrsquoa apporteacute cette expeacuterience professionnelle
4
1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS
11 Preacutesentation et historique du CNRS
Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le
plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement
public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle
administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche
Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute
des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le
CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la
recherche fondamentale
En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14
400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel
est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce
son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de
service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes
eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de
rechercheraquo
Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts
ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon
le classement mondial laquo Webometrics raquo
12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes
Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute
dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et
Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et
Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
4
1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS
11 Preacutesentation et historique du CNRS
Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le
plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement
public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle
administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche
Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute
des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le
CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la
recherche fondamentale
En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14
400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel
est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce
son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de
service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes
eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de
rechercheraquo
Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts
ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon
le classement mondial laquo Webometrics raquo
12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes
Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute
dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et
Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et
Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
5
Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La
diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont
actives
13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation
Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et
de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre
en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du
vivant
Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les
modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des
domaines varieacutes incluant par exemple la meacutedecine et lagronomie
Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des
universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3
Etudiants en thegravese titulaires de bourses du ministegravere
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
6
2 Le stage inteacutegreacute au travail de lrsquoeacutequipe
21 Vocabulaire
Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage
Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les
organismes vivants posseacutedant en commun certains caractegraveres (morphologiques
physiologiques geacuteneacutetiques etc) bien deacutefinis
Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des
organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus
utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement
agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On
repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute
des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les
ancecirctres communs des taxons la longueur des branches repreacutesente la distance
geacuteneacutetique (temporelle) entre taxons
Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les
informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution
Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un
changement dans lrsquoeacutevolution et un changement de caractegravere
Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles
ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le
plein soleil et un sol sableux bien draineacute
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
7
22 Eacutevolution geacuteneacutetique et eacutevolution environnementale
Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et
freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats
naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
8
Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science
lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes
eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi
est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent
23 Thegraveme geacuteneacuteral du stage
Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian
Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister
dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire
- Etat Clonage La fleur peut se reproduire elle-mecircme
Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage
seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent
sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs
entre elles On peut supposer sur larbre que
1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)
1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa et qui deacutependent de la tempeacuterature
Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres
1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee
agrave une valeur extrecircme
1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la
tempeacuterature
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
9
24 La meacutethode Approximate Bayesian Computation (ABC)
Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les
estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des
lois de probabiliteacute de ces observations
Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information
a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)
Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les
observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut
utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a
posteriori qui contiendra donc toute information sur θ
Regravegle de Bayes
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
10
Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les
paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre
est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des
variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme
donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P
(D = d |θ)
On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes
1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a
priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode
controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une
ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme
pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ
Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la
probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation
Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes
successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des
valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de
statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la
distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a
posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux
statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des
donneacutees observeacutees
Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre
danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de
calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations
correspondantes
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
11
La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des
estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de
prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre
meacutethode ne peut faire pour linstant
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
12
3 Deacuteroulement du stage
31 Adaptation et compreacutehension
Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave
Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement
connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa
eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement
travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres
raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute
encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour
lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect
informatique
Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des
populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe
biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la
Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute
agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)
traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans
chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de
lrsquoOenothera
La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de
comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St
Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques
Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de
mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture
une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour
savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux
eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du
problegraveme que jrsquoallais traiter durant mon stage
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
13
Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du
laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des
recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe
Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela
Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants
- Comment simuler la tempeacuterature
- La meacutethode ABC
32 Planification
Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le
projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer
A Etude des donneacutees
B Simulations de la tempeacuterature et tests
C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests
D Simulations en parcourant un arbre phylogeacuteneacutetique et tests
E Simulations de parcours drsquoarbre en variant les paramegravetres et tests
F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la
loi des paramegravetres
33 Deacutevelopper
Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles
avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours
possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai
eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc
commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
14
Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la
simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien
deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect
drsquoutilisation etou modification du programme par une autre personne les commentaires ont
une grande importance je me suis donc appliqueacute agrave commenter tout le code
Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de
classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes
Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet
lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement
et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests
agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de
grandeur en nombres de variables sont tregraves grands
331 Simulation de tempeacuterature
La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est
drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de
tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel
Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce
modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct
court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un
mouvement brownien (un processus stochastique)
Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop
brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant
comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des
observations
Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la
tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR
sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
15
Voici un exemple de simulation de tempeacuteratures
et lrsquoanalyse reacutealiseacutee avec le logiciel R
Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des
valeurs sont autour de la moyenne
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
16
Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une
simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous
ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures
pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le
climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones
geacuteographiques et donc avec diffeacuterents climats
Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en
compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est
difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les
reacutesultats finaux
332 Simulation des eacutetats de reproduction de la plante
Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats
- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se
reproduire noteacute 0
- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1
Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1
De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage
et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson
dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc
toujours une valeur supeacuterieure agrave la preacuteceacutedente
Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature
Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela
nous consideacuterons que la tempeacuterature agrave deux Etats
- Tempeacuterature extrecircme
- Tempeacuterature tempeacutereacutee
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
17
Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a
et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit
supeacuterieur agrave b
Nous avons donc trois processus de sauts
Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme
Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat
Clonage vers Etat Normal
Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat
Normal vers Etat Clonage
Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1
La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme
On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction
normal et tempeacuterature tempeacutereacutee
Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la
valeur du couple (EY)
Etat E = 0 Etat E = 1
Tempeacuterature Y =
0 Processus (α) Processus (β)
Tempeacuterature Y =
1 Processus (β) Processus (α)
La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature
Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α
Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
18
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
19
333 Parcours de lrsquoarbre
Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante
speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-
atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en
Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface
graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine
nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)
figure forester 1
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
20
figure forester2
Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus
etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire
eXtended)
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
21
Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre
phylogeacuteneacutetique eacutecrit en NHX
(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-
4)0001311)0002625
(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-
4how0008155)0001749amb0009904)16E-
4(((lat0006297runc0006297)00pal0006297)336E-
4tri0006633)0003431)0001213)109E-
4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00
Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des
informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les
informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de
documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le
code
334 Les donneacutees
Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre
phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un
arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la
plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille
Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature
extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et
les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion
est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique
Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel
ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des
tempeacuteratures
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
22
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
23
Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de
la tempeacuterature
Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat
geacuteneacutetique
335 Comparaison simulation ndash observation
Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple
Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille
observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee
alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc
comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)
Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations
reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous
avons donc gardeacute un peu plus de 1 des simulations
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
24
Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec
diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β
1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]
et donc α lt β
2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]
3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]
et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β
Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de
meilleurs reacutesultats
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
25
Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui
correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre
Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures
simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on
en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori
Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend
des taux de similariteacute eacuteleveacutes
Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats
En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque
fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est
assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats
obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une
similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de
maniegravere sure
Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison
des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
26
Conclusion
Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si
possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours
Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le
parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert
lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai
compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme
si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans
ce domaine Crsquoest aujourdrsquohui chose faite
En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de
passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps
Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais
ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant
le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible
ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais
Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se
comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves
Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont
crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa
eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests
unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le
stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon
ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer
une exeacutecution qui dure 6h ou plus
Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra
mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
27
Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble
et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela
neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail
mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement
du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement
et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche
publique et de continuer dans la voix de la pluridisciplinariteacute
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
28
Bibliographie et Webographie
[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr
Recommended