40
STAGE D’APPLICATION EN STATISTIQUE Structure d’accueil : Inserm UMR 1048 I2MC Thème du stage : Analyse de données de puces à ADN Tutrices de stage : Nathalie Viguerie et Nathalie Villa-Vialaneix Lieu de stage : 1 avenue Jean Pouhès Ville : Toulouse Pays : France LEFORT Gaëlle

LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

STAGE D’APPLICATION EN STATISTIQUE

Structure d’accueil : Inserm UMR 1048 – I2MC

Thème du stage : Analyse de données de puces à ADN

Tutrices de stage : Nathalie Viguerie et Nathalie Villa-Vialaneix

Lieu de stage : 1 avenue Jean Pouhès

Ville : Toulouse Pays : France

LEFORT Gaëlle

Page 2: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

2

Ensai 2e année

Page 3: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Année scolaire 2013-2014

Stage 2e année

Analyse et normalisation de données biopucesRecherche de gènes différentiellement exprimés entre deux groupes de personnes

Tutrices Élève

Nathalie Viguerie Gaëlle LefortNathalie Villa-Vialaneix

Page 4: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

2

Ensai 2e année

Page 5: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Table des matières

Introduction 1

1 L’Inserm, l’I2MC et l’équipe 4 21.1 L’Institut national de la santé et de la recherche médicale (Inserm) . . . . . . . . . . . . . . . . . 21.2 L’Institut des Maladies Métaboliques et Cardiovasculaires (I2MC) . . . . . . . . . . . . . . . . . 21.3 Le Laboratoire de recherche sur les obésités (équipe 4) . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Quelques notions de biologie 32.1 L’ADN et l’ARNm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 L’expression des gènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 La technologie biopuce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Les données de biopuces étudiées 63.1 Le projet DiOGenes (Diet, Obesity and Genes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2 Les données initiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 Apurement des données 74.1 Normalisation des biopuces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1.1 Normalisation intra-lame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.1.2 Normalisation inter-lames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2 Gestion des transcrits doublons et des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . 8

5 Identification et suppression des effets latents 105.1 Des effets liées au centre d’appartenance et au critère de sélection des individus . . . . . . . . . . 10

5.1.1 Qu’est-ce que l’Analyse en Composantes Principales . . . . . . . . . . . . . . . . . . . . . 105.1.2 Quatre dimensions nécessaires pour résumer l’information . . . . . . . . . . . . . . . . . . 105.1.3 Identification des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.2 Suppression des effets trouvés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

6 Plusieurs méthodes utilisées pour le recherche de gènes différentiellement exprimés 136.1 Des tests ANOVA pour trouver des gènes différentiellement exprimés entre les groupes . . . . . . 13

6.1.1 Qu’est-ce qu’une ANOVA (ANalysis Of VAriance) et pourquoi corriger les p-valeurs . . . 136.1.2 Plus de 250 transcrits trouvés grâce aux ANOVA . . . . . . . . . . . . . . . . . . . . . . . 14

6.2 La méthode FAMT pour trouver et corriger les effets latents avant de chercher les gènes différen-tiellement exprimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156.2.1 Qu’est-ce que la méthode FAMT (Factor Analysis for Multiple Testing) . . . . . . . . . . 156.2.2 Près de 700 transcrits différentiellement exprimés . . . . . . . . . . . . . . . . . . . . . . . 15

Conclusion 16

Annexes 17

i

Page 6: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

ii

Ensai 2e année

Page 7: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Introduction

À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 anset plus étaient en surpoids et 11 % étaient obèses 1. L’obésité représentant une menace grandissante pour lasanté des populations dans un nombre croissant de pays, elle a été reconnue comme une maladie dés 1997 parl’Organisation Mondiale de la Santé.

Cette maladie est caractérisée par un excès de graisse dans le tissus adipeux qui peut entraîner de graveproblème de santé comme l’hypertension, le diabète ou encore des cancers. Les causes peuvent être aussi bienenvironnementales que génétiques [1]. La maladie se développant très rapidement plusieurs projet de recherche,comme le projet européen DiOGenes 2, sont mis en place pour trouver des solutions pour aider les personnes ensurpoids voire obèses.

A l’Institut des Maladies Métaboliques et Cardiovasulaires (I2MC), où j’ai effectué mon stage de deuxième annéede l’Ensai, plusieurs équipes de recherche se penchent sur ce sujet. Durant mon stage, j’ai travaillé, pendantdeux mois, dans l’une de ces équipes sur les facteurs génétiques de l’obésité, plus particulièrement, l’expressiondes gènes de personnes ayant effectuées un régime.

Effectivement, dans le cadre du projet DiOGenes, quelques centaines de personnes ont réalisé un régime strictpendant huit semaines avant de le continuer plus librement pendant six mois. Au début et à la fin de ceprotocole, elles ont subit une biopsie pour que l’on puisse mesurer l’expression de plusieurs milliers de leursgènes. En conséquence, il est possible aux biologistes et aux statisticiens de trouver les gènes différentiellementexprimés entre deux groupes d’individus n’ayant pas réagi de la même manière au régime pour permettre, parexemple, d’adapter les régimes à chaque individu. Dans ce contexte, j’ai analysé les expressions des gènes deplusieurs échantillons d’individus pour rechercher des gènes différentiellement exprimés entre deux groupes.

Existe-t-il des différences dans l’expression des gènes entre les personnes à forte perte de poids,de tour de taille, ou de HOMA 3 et celle dont ces critères n’ont pas ou peu variés avant et aprèsleur régime ?

J’ai commencé ce rapport en décrivant l’I2MC et en présentant quelques notions de biologies nécessaires à lacompréhension du sujet. Ensuite, j’ai détaillé le type de données utilisées dans cette étude et expliqué toutle travail d’apurements et de suppression des effets latents. La dernière partie est consacré à la recherche degènes différentiellement exprimés à l’aide de diverses méthodes statistiques telles que les ANOVA ou les forêtsaléatoires.

1. D’après les estimations mondiales de l’Organisation Mondiale de la Santé (OMS) pour 2008 - Aide-mémoire N◦311, Mai 20142. http://www.diogenes-eu.org/3. Mesure de la résistance à l’insuline, indicateur d’une prédisposition au diabète.

1

Page 8: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 1 L’Inserm, l’I2MC et l’équipe 4

J’ai passé semaines comme stagiaire à l’Institut des Maladies Métaboliques et Cardiovasculaire (I2MC) dansle Laboratoire de recherche sur les obésités. Cet institut fait partie de l’Institut national de la santé et de larecherche médicale (Inserm) et est situé sur le site hospitalier de Rangueil à Toulouse.

1.1 L’Institut national de la santé et de la recherche médicale (In-serm)

L’institut national de la santé et de la recherche médicale est un établissement public français de recherche,créé en 1964. Il est entièrement dédié à la santé humaine et donc placé sous la double tutelle du ministère de laSanté et du ministère de la Recherche.

Depuis avril 2009, il compose l’Aviesan (Alliance nationale pour les sciences de la vie et de la santé) avec lesgrands acteurs de la recherche biomédicale en France (huit grands établissements publics comme le CNRS,l’INRIA ou Institut Pasteur, auxquels s’associent les universités et les CHU). Cette alliance a pour but decoordonner les équipes et les programmes de la recherche biomédicale en France.

L’Inserm a depuis lors pour mission l’étude de la santé humaine avec pour vocation d’investir le champ dela recherche biomédicale fondamentale et appliquée, dans les domaines de la biologie cellulaire, la biologiemoléculaire, la génétique, la physiologie, l’épidémiologie...

De plus, l’Inserm joue un rôle de première importance dans la construction de l’espace européen de la re-cherche et conforte sa position à l’international par d’étroites collaborations (équipes à l’étranger et laboratoiresinternationaux associés).

Il est structuré en unités de recherche de tailles variées, le plus souvent insérées au sein d’UFR de médecine,d’hôpitaux, et d’universités.

1.2 L’Institut des Maladies Métaboliques et Cardiovasculaires (I2MC)

L’Institut des Maladies Métaboliques et Cardiovasculaires a été créé le 1er janvier 2011 par l’Inserm et l’UniversitéPaul Sabatier à Toulouse. Il est située sur le site hospitalo-universitaire de Rangueil.

Actuellement, l’Institut est constitué de 13 équipes de recherche, développées autour de trois thèmes :

– Intestins, Tissu Adipeux, Obésité et Diabète ;

– Thrombose, Athérosclérose et Vaisseaux ;

– Cœur et Rein.

Au total, plus de 280 personnes (chercheurs, médecins, ingénieurs, techniciens, étudiants, postdoctorants etadministratifs) travaillent à l’I2MC.

1.3 Le Laboratoire de recherche sur les obésités (équipe 4)

Le Laboratoire de recherche sur les obésités fait partie de l’I2MC et s’inscrit dans l’axe de recherche sur lesintestins, le tissu adipeux, l’obésité et le diabète. Il explore de nouveaux aspects du métabolisme des acides grasdans les cellules adipeuses et musculaires et étudie les relations entre voies métaboliques et voies inflammatoiresdans le tissu adipeux. expliquer ? ?

Les résultats des projets peuvent contribuer, entre autre, au développement d’une nouvelle classification desréponses aux régimes hypocaloriques et aux programmes d’activité physique ou aux recommandations indi-viduelles pour les programmes de perte de poids avec une combinaison appropriée de restriction calorique etd’exercice physique.

2

Page 9: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 2 Quelques notions de biologie

si plus de place cette partie part en annexe. Ne pas oublier de rajouter des trucs dans la partie suivante le caséchéantPour cette étude, des données issues de puces à ADN (biopuces) ont été analysées. Pour bien comprendre leurfonctionnement, il est nécessaire de s’approprier quelques notions de biologie.

2.1 L’ADN et l’ARNm

L’acide désoxyribonucléique (ADN) est une molécule, présente dans toutes les cellules vivantes, qui renfermel’ensemble des informations nécessaires au développement et au fonctionnement d’un organisme. Il porte l’in-formation génétique (génotype) et constitue le génome des êtres vivants.

La structure standard de l’ADN est une double-hélice, composée de deux brins complémentaires (image 2.1).Chaque brin d’ADN est constitué d’un enchaînement de nucléotides. On trouve quatre nucléotides différentsdans l’ADN, notés A, G, C et T, du nom des bases correspondantes. Ces nucléotides se regroupent par pairesspéciales : A avec T, T avec A, C avec G et G avec C. Aucune autre paire n’est possible (sauf dans le cas demutations génétiques).

Image 2.1 – Structure d’une molécule d’ADNSource : l’image provient de Wikimedia Commons et est attribuable à MesserWoland

L’ADN est à l’origine de la synthèse des protéines, par l’intermédiaire de l’acide ribonucléique messager (ARNm)qui est une copie transitoire d’une portion de l’ADN correspondant à un ou plusieurs gènes.

La synthèse des protéines se fait en plusieurs étapes (image 2.2) :

1. La transcription, qui est le transfert de l’information génétique de l’ADN vers une autre molécule, l’ARN.

2. La traduction, qui est un transfert d’information depuis l’ARN vers les protéines.

3. L’activité des protéines.

Image 2.2 – Étapes de la synthèse des protéinesSource : l’image provient de Wikimedia Commons et est attribuable à Toony

L’activité des protéines détermine l’activité des cellules, qui vont ensuite déterminer le fonctionnement desorganes et de l’organisme. Pour cette étude, on ne va s’intéresser qu’à la transcription.

3

Page 10: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

4 Partie 2. Quelques notions de biologie

2.2 L’expression des gènes

L’expression des gènes désigne l’ensemble des processus biochimiques par lesquels l’information héréditairestockée dans un gène est lue pour aboutir à la fabrication de molécules qui auront un rôle actif dans le fonc-tionnement cellulaire, comme les protéines ou les ARN.Même si toutes les cellules d’un organisme partagent le même génome, certains gènes ne sont exprimés que danscertaines cellules, à certaines périodes de la vie de l’organisme ou sous certaines conditions. La régulation del’expression génique est donc le mécanisme fondamental permettant la différenciation cellulaire, la morphogenèseet l’adaptabilité d’un organisme vivant à son environnement.Par exemple, les multiples couleurs d’un chat (image 2.3) sont le résultat de différents niveau d’expression desgènes responsable de la pigmentation à plusieurs endroit de sa peau.

Image 2.3 – Exemple d’expression génique pour la couleur d’un chatSource : l’image provient de Wikimedia Commons et est attribuable à Sannse

Mesurer l’expression des gènes est une part importante de beaucoup de recherches en sciences de la vie. Pouvoirquantifier le niveau d’expression d’un gène particulier dans une cellule, un tissu ou un organisme peut apporterbeaucoup d’informations sur le fonctionnement de la cellule. Cela peut, par exemple, permettre de déterminerle susceptibilité d’un individu à un cancer ou de trouver si une bactérie est résistante à un médicament.Pour mesurer l’expression des gènes, on va quantifier le niveau d’ARNm. Pour cela il existe plusieurs méthodes :Northern blot, RT-PCR, RNAseq et les puces à ADN (biopuces).Dans cette étude, les données utilisées sont issues de biopuces. Les autres méthodes ne seront pas expliquées ici.

2.3 La technologie biopuce

Une biopuce, ou puce à ADN, est un ensemble de molécules d’ADN fixées en rangées ordonnées sur une petitesurface qui peut être du verre, du silicium ou du plastique (image 2.4) qui repose sur une lame. Dans le cadrede cette étude, on compte quatre puces par lames.Cette biotechnologie récente permet d’analyser le niveau d’expression des gènes (transcrits) dans une cellule,un tissu, un organe, ou un organisme, à un moment donné et dans un état donné par rapport à un échantillonde référence.

Image 2.4 – Fragment de biopuceSource : l’image provient de Wikimedia Commons et est attribuable à Mangapoco

Le principe de la puce à ADN repose sur la propriété que possède l’ADN dénaturé de reformer spontanémentsa double hélice lorsqu’il est porté face à un brin complémentaire (réaction d’hybridation). Les quatre basesazotées de l’ADN (A, G, C, T) ont en effet la particularité de s’unir deux à deux. Par exemple, si un patientest porteur d’une maladie, les brins extraits de l’ARN d’un patient (et rétrotranscrits en ADN), vont s’hybrideravec les brins d’ADN synthétiques représentatifs de la maladie.

Pour mesurer l’expression des gènes, on commence par créer une plaque contenant de l’ADN connu, avec ungène sur chaque « sonde » (image 2.5). Les sondes sont complexes : les ADN complémentaires créés à partir del’ARNm de la cellule à étudier sont tagués par fluorescence ou radioactivement.

Ensai 2e année

Page 11: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

2.3. La technologie biopuce 5

Ensuite, on met en contact les sondes (taguées en vert ou rouge) et la plaque. Si les brins d’ADN sont identiques,ils s’associeront, et le sonde sera plus ou moins fluorescente selon la quantité de brins présents dans la sondecomplexe.

Enfin, on récupère comme information, pour chaque gène, la mesure de son expression à travers la quantité defluorescence émise par chaque « sonde ».

On utilisera toujours un échantillon de référence qui sera tagué en vert contre un échantillon de l’individu donton souhaite étudier l’expression des gènes qui le sera en rouge. On aura donc une sur-expression du gène chezle patient si le sonde est rouge et une sous-expression si elle est verte.

Pour les puces utilisée dans cette études, deux sondes peuvent correspondre à deux variantes de transcrits d’unseul et même gène. C’est pour cela que dans la suite le terme transcrit sera utilisé à la place de gène sauf lorsquele gène n’a qu’un seul transcrit.

Image 2.5 – Principe de la puce à ADNSource : l’image provient de la page de Stéphane Le Crom et Philippe Marc sur le site de laplate-forme transcriptome de l’ENS

Stage 2A 2013-2014

Page 12: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 3 Les données de biopuces étudiées

Les données que j’ai eu à étudier durant ce stage ont été collectées grâce à la technologie biopuces dans le cadredu projet DiOGenes.

3.1 Le projet DiOGenes (Diet, Obesity and Genes)

Le projet DiOGenes est un projet de recherche clinique européen multicentrique dont un des buts est d’iden-tifier et de caractériser des interactions gènes - nutriments associées aux variations pondérales, des marqueursmoléculaires de l’intervention diététique et des gènes prédicteurs des variations de poids.

Il est basé sur une intervention diététique, contrôlée et randomisée, visant à analyser, entre autres, les effets dedifférents régimes sur le maintien du poids lors de la phase de régime puis de stabilisation. Pour chacune desphases, différentes données ont pu être obtenues : des données dites cliniques, des données d’expression géniqueet des taux d’acides gras dans le tissu adipeux.

Au départ, 568 patients obèses ont été recrutés et ont initié un régime basse calorie durant huit semaines (phasede restriction). À la fin de cette première phase, les patients dont le poids a diminué d’au moins 8 % pouvaientcontinuer le protocole, et étaient randomisés dans une des cinq branches de régime « ad libitum » (i.e., lespatients pouvaient manger autant qu’ils le voulaient), pendant 6 mois (phase de stabilisation). Cette phase estune phase de suivi pondéral où les patients ont reçu une éducation diététique et suivent le régime chez eux [1].

Au début de l’étude et à la fin de chaque phase, les patients ont été pesés, mesurés, la masse grasse a étéquantifiée, des prélèvements sanguins et urinaires ont été effectués ainsi que des biopsies de tissu adipeux souscutané abdominal, des enquêtes diététiques et des questionnaires sur l’activité physique ont été réalisés.

Les échantillons de tissu adipeux prélevé sont été utilisés pour quantifier l’expression des gènes à l’aide de latechnologie biopuce.

3.2 Les données initiales

Les données étudiées dans la suite correspondent à la collecte d’expression de gènes au début de l’étude (CID1)et à la fin de la phase de stabilisation (CID3) pour :

– les 11 individus de l’expérience qui ont la diminution la plus importante de poids (weight) entre CID1et CID3 et les 11 individus qui reprennent le poids perdu durant la phase de restriction (stabilisation dupoids entre CID1 et CID3) ;

– les 2×11 individus correspondant aux variations les plus importantes (stabilisation et diminution) de tourde taille (waist) ;

– les 2× 11 individus correspondant aux variations les plus importantes de HOMA 1.

Certains individus sont présents pour plusieurs critères (graphique ??), il n’y a donc pas 66 patients maisseulement 52 patients (soit 104 biopuces, une pour CID1 et une pour CID3).Les données sont composées de l’expression de plusieurs milliers de gènes (les variables) pour les 52 patients enCID1 et CID3. Ce qui correspond aux tailles typiques de données issues de biopuces.

Elles sont fournies dans des fichiers texte où un fichier correspond à une biopuce. Dans ces fichiers, on trouve,entre autre, l’identifiant des sondes, leurs positions sur la puce, si elles sont ou non des sondes de contrôle, lamesure de l’intensité en rouge et en vert de chacune et le nom du gène correspondant.

De plus, des données concernant les patients comme leur sexe ou le centre où ils ont réalisé l’étude clinique sontdisponibles. Ces données sont utilisée pour identifier d’éventuels effets latents dû au protocole expérimental.

Enfin, on dispose de plusieurs variables indiquant le ou les critères d’inclusion dans l’étude (HOMA, poids et/outour de taille) ainsi que le groupe auquel appartient l’individu (diminution ou stabilisation du critère).

1. HOMA (HOmeostasis Model Assessment - Insulin Resistance) : mesure de la résistance à l’insuline, indicateur d’une prédis-position au diabète.

6

Page 13: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 4 Apurement des données

Les données de biopuces doivent toujours être normalisées pour les rendre plus homogènes avant de pouvoir êtreutilisées dans des traitements statistiques. De plus, certains sondes d’une même biopuce sont identiques, il fautdonc traiter et supprimer les doublons.Pour manipuler ce type de données et réaliser ces traitements, on utilise le logiciel et plus particulièrementle package limma de Bioconductor.

4.1 Normalisation des biopuces

Il est nécessaire de normaliser les données de biopuces pour corriger les différences systématiques entre lesmesures qui peuvent être induites par des biais d’expérimentation dus à la technologie et aux différentes mani-pulations. L’objectif de cette normalisation est d’identifier des sources parasites de variations des expressions.Parmi ces sources, on cible plus précisément l’hétérogénéité du bruit de fond et l’hétérogénéité du signal.

L’hétérogénéité du bruit de fond Si le bruit de fond présente des variations très différentes d’une puceà une autre, ou très structurées spatialement sur une puce, alors on peut être amené à corriger le signal parsoustraction du bruit de fond. Cette soustraction est réalisé directement par le logiciel Mapix qui quantifiel’expression des gènes.

L’hétérogénéité du signal De la même manière, le principe d’invariance d’une très grande majorité desexpressions géniques d’une puce à une autre doit se traduire par une répartition comparable des valeurs dessignaux entre les différentes puces. Si des différences marquées existent, il est judicieux d’aligner les quantilesde chaque puce à la même valeur. On parle de normalisation inter-lames.D’autre part, il arrive que le fluorochrome soit lui-même source de variation du signal. Cet effet du fluorochromedépend même parfois de la valeur d’expression et de la structure de la puce (partitionnement en blocs d’aiguilles).Pour corriger cet effet, on réalise une normalisation intra-lame.

4.1.1 Normalisation intra-lame

L’hétérogénéité des signaux mesurés sur une puce est souvent attribuée à des variations uniquement liées auxfluorochromes. Cette différence entre les signaux est décelable sur le nuage dont les points, représentant dessondes, ont pour abscisses les moyennes entre les logarithmes des signaux verts et rouges (dites valeurs A) etpour ordonnées les différences entre logarithmes des signaux verts et rouges (dites valeurs M). Ce graphique,dit graphe MA, est obtenu par la fonction plotMA.

M = logR

Get A = log

√RG (4.1)

La fonction normalizeWithinArrays corrige cette hétérogénéité en ajustant un modèle non-paramétrique parune méthode de régression locale (dite méthode loess).

La modélisation se fait par régression locale : on retient seulement les points proches du point où l’on chercheà faire une prédiction. La distance est prise en compte avec une fonction de poids cubique, comme cela avaitinitialement proposé par William Cleveland (fonction Lowess, LOcally WEighted Scatterplot Smoothing).

Plus que la forme des poids, c’est la fenêtre définissant la distance du voisinage qui est importante. Autrementdit, plus la fenêtre est grande, plus on prend en compte de voisins, et donc plus la fonction sera lisse (maisbaisée). En revanche, avec une petite fenêtre, on suit les variations au plus près, la courbe est moins régulière(plus de variance), mais localement on peut penser avoir un biais plus faible. La fenêtre utilisée ici sera la fenêtrepar défaut c’est-à-dire 0,3.Quelque soit la biopuce, la normalisation intra-lame est faite sur un nuage de points ayant la même forme cequi entraîne une même forme de nuage normalisé (graphique 4.1).

7

Page 14: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

8 Partie 4. Apurement des données

Graphique 4.1 – Effet d’une normalisation intra-lames (courbe de régression loess)Source : biopuce 1 de la lame 443

4.1.2 Normalisation inter-lames

Après normalisation intra-lame des valeurs M, les distributions des intensités rouges et vertes devraient êtreessentiellement les mêmes pour chaque puce. Cependant, il peut être observé une grande variabilité. La fonctionnormalizeBetweenArrays permet de normaliser les distributions d’intensité en alignant les quantiles de A entreles différentes puces (graphique 4.2).

Graphique 4.2 – Effet d’une normalisation intra-lames pour l’intensité en rougeSource : lame 443

4.2 Gestion des transcrits doublons et des valeurs manquantes

Lors de la lecture des données, il est possible d’appliquer un filtre aux sondes pour les pondérer par 0 ou 1. Cefiltre permet de pondéré par 0 les sondes qui sont des sondes de contrôles et celles dont l’intensité en vert ourouge est insuffisante. Les sondes de contrôle sont supprimées et celle pour lesquelles l’intensité est insuffisantesont considérées comme des valeurs manquantes.Malgré cela, les données ne sont pas encore nettoyées. Certaines sondes sont présentes plusieurs fois et peuventreprésentées le même transcrit. Il est aussi possible pour certains transcrits d’avoir beaucoup de valeurs man-quantes.

On ne travaille plus ici sur les données brutes de biopuces mais sur un tableau dont les lignes sont les transcrits,les colonnes les biopuces et les valeurs les différences des logarithmes (en base 2) des intensités de rouge et devert.

On utilise, généralement, les valeurs en logarithme en base 2 car la plupart des intensité en vert et en rougesont très faibles. Il n’est pas judicieux de travailler sur les données brutes car celles-ci ont une distribution trèsasymétrique. Une transformation en logarithme en base 2 va permettre d’obtenir une distribution qui soit plusproche d’une distribution normale, en la recentrant et en la rendant symétrique (graphique 4.3).

Ensai 2e année

Page 15: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

4.2. Gestion des transcrits doublons et des valeurs manquantes 9

Graphique 4.3 – Effet d’une tranformation logarithmique en base 2 sur l’intensité rouged’une biopuceSource : biopuce 1 de la lame 443

Transcrits doublons Les transcrits présents plusieurs fois sur une même biopuce sont moyennés pour n’ap-paraître qu’une seule fois. On utilise comme identifiant des transcrits leur nom qui commence généralement par« NM_ ». Celui ci est différent du nom des gènes aussi appelé symbole.

Valeurs manquantes Seulement 45 % des transcrits ont moins de 20 % de valeurs manquantes. Pour beau-coup on dépasse les 80 % de valeurs manquantes. On ne va garder pour la suite que les transcrits ayant moins de20 % de valeurs manquantes. Ce qui en fait environ 12 000 sur les 45 000 sondes présentent sur chaque biopuces.

Il est maintenant possible d’utiliser les données pour différentes analyses statistiques.La normalisation est importante et similaire quelque soit les données de biopuces traitées. Pour per-mettre à des biologistes de refaire ces normalisations et les autres traitements ultérieurement, j’airéalisé un script R détaillé expliquant les différents traitements sur les données de cette étude (annexeA.1).Cette étape de nettoyage des données a été une partie importante du début de mon stage. Le butayant été de réaliser un script permettant de reproduire ces traitements sur n’importe quel jeu dedonnées mais aussi de réfléchir aux traitements à réaliser. Par exemple, quelle méthode utiliser pourla normalisation intra-lame ou comment regrouper les transcrits (par l’identifiant de la sonde, le nomdu transcrit ou le nom du gène).

Des données prêtes à être analysées

Stage 2A 2013-2014

Page 16: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 5 Identification et suppression deseffets latents

Avant de regarder les gènes différentiellement exprimés entre les deux groupes (stabilisation ou diminution ducritère d’inclusion dans l’étude), il faut regarder si d’autres facteurs expérimentaux influent. Pour cela, on peutréaliser une Analyse en Composantes Principales où les biopuces sont les individus et les transcrits les variables.Ensuite, il ne reste plus qu’à colorer les points du graphique des individus en fonction d’un critère comme lesexe de l’individu ou son centre d’appartenance. Si on observe des points atypiques ou des groupes suivants lescouleurs alors ce facteur aura un effet.

5.1 Des effets liées au centre d’appartenance et au critère de sélectiondes individus

Plusieurs ACP ont été réalisées : une générale sur toutes les biopuces et trois autres sur des sous-groupescorrespondant aux différents types de variations (poids, tour de taille et HOMA).L’ACP sur toutes les biopuces est celle qui apporte le plus d’informations dans le sens où on les retrouvepartiellement dans les ACP sur les petits échantillons. C’est celle-ci que l’on va détailler dans la suite. Lesdétails de la mise en œuvre et des résultats de toutes les ACP sont fournis dans l’annexe A.2.

5.1.1 Qu’est-ce que l’Analyse en Composantes Principales

Objectif L’ACP a pour but de synthétiser de manière la plus pertinente possible les données initiales pourpouvoir ensuite les représenter graphiquement sur un nombre réduit de dimensions. Si on souhaite étudier lesvariables deux à deux la représentation graphique est possible. Ici, on voudrait observer toutes les biopuces dansun plan comprenant l’ensemble des gènes. L’ACP permet cette visualisation.

En quoi elle consiste C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettrede réaliser ce résumé pertinent, car on analyse essentiellement la dispersion des données considérées.On utilise la matrice des corrélations à la place de celle des variances-covariances lorsque l’on effectue une ACPnormée (i.e., les variables ont été centrées et réduites au préalable). Cela permet d’homogénéiser les variablespour ne pas avoir de problèmes liés à des unités de mesure différentes. C’est la méthode qui sera utilisée pourcette étude.D’un point de vue mathématique, l’ACP est un changement de base. On passe d’une représentation dans labase canonique des variables initiales à une représentation dans la base des facteurs définis par les vecteurspropres de la matrice des corrélations. Cela va permettre de réaliser les graphiques désirés dans un espace depetite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration globale desindividus selon l’ensemble des variables initiales (c’est à dire en choisissant les facteurs de manière à maximiserla dispersion du nuage de points projeté).C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données analysées.

Mise en œuvre sur R Elle est très simple à mettre en œuvre sur grâce à la fonction PCA du packageFactoMineR.Cependant, avant de réaliser une ACP, on doit imputer les valeurs manquantes. Pour ce faire, j’ai utilisé laméthode des k plus proches voisins (ici,k a été fixé à 3) grâce à la fonction impute.knn du package imputede Bioconductor. La méthode des k plus proches voisins va rechercher, pour un individu contenant des valeursmanquantes, les k invididus les plus proches du jeu de données sur les variables non manquantes. Les valeursmanquantes sont alors imputées de la valeur moyenne de la variable considérée pour les k voisins les plus proches.

5.1.2 Quatre dimensions nécessaires pour résumer l’information

Avant d’interpréter les résultats de l’ACP donné par le logiciel, il faut choisir le nombre de facteurs à retenir.Il existe plusieurs méthodes que l’on peut combiner pour trouver ce nombre. La plus couramment répandue est

10

Page 17: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

5.2. Suppression des effets trouvés 11

celle de la recherche d’un coude sur l’éboulis des valeurs propres (graphique 5.1).

Graphique 5.1 – Éboulis des valeurs de l’ACP réalisée sur toutes les biopucesSource : données nettoyées de toutes les biopuces

Un coude est visible au niveau de la deuxième et le suivant, moins marqué, au niveau de la quatrième. Uneformalisation de ce critère est le Scree-test de Catell. On calcule les différences secondes des valeurs propresjusqu’à ce que le signe change, ce qui se produit ici entre la deuxième et la troisième valeur propre.Il est aussi possible de sélectionner les axes jusqu’à obtenir un pourcentage de l’inertie totale fixé a priori,généralement 80 %. Avec ce critère, on devrait interpréter 44 axes ce qui beaucoup trop. Seulement quatre axesseront donc retenus pour essayer d’identifier des effets.

5.1.3 Identification des effets

L’ACP réalisée nous permet de représenter les données dans un espace de faible dimension pour en observer lastructure et détecter des effets expérimentaux non souhaités (points atypiques, groupe d’individus et individusaux mêmes caractéristiques répartis au même endroit du plan).Grâce à l’ajout de différentes couleurs selon les modalités de diverses caractéristiques des individus, plusieurseffets ont pu être identifiés (graphique 5.2).Sur la première dimension, on observe cinq individus atypiques qui appartiennent tous au centre 3. Aprèsdiscussion avec les biologiste, nous avons décidé de supprimer tous les individus de ce centre, soit cinq individus,car cela ne déséquilibrait pas les trois critères HOMA, poids et tour de taille ni les groupes forte perte etstabilisation.Sur la seconde dimension, les individus sont regroupés en deux groupes bien séparés. Cette séparation peut êtreexpliquée par les trois critères d’inclusion des individus (HOMA, poids et tour de taille). En effet, quasimenttous les individus sélectionnés pour des fortes variations de HOMA sont du coté positif de l’axe au contraire deceux sélectionnés pour des fortes variations de poids et/ou de tour de taille. Cet effet n’est pas problématiquepour la suite de l’étude car toutes les analyses seront menées par critères d’inclusion.Enfin, on observe un effet du sexe de l’individu sur la dimension 3 et un effet du centre d’appartenance sur leplan 1-3 que l’on va corriger après avoir refait la normalisation inter-lames sans les individus du centre 3.

5.2 Suppression des effets trouvés

Pour supprimer les effets Sexe et Centre, des normalisations par la médianes et par les quantiles vont êtreutilisées.L’effet du sexe de l’individu étant très léger, un alignement des médianes dans les deux groupes homme et femmeest suffisant. On commence par calculer les médianes pour chaque sexe sur tous les gènes puis on la soustrait àl’expression des gènes des individus correspondants.L’alignement des quantiles pour supprimer l’effet Centre ajuste, quant à lui, tous les quantiles des divers groupes.Elle peut être réalisée avec le package preprocessCore et sa fonction normalize.quantiles.in.blocks [2].Une nouvelle ACP permet de voir que les effets Sexe et Centre ont été supprimés (annexe A.3).

Stage 2A 2013-2014

Page 18: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

12 Partie 5. Identification et suppression des effets latents

Graphique 5.2 – Représentation des individus dans plusieurs plan selon plusieurscaractéristiquesSource : données nettoyées de toutes les biopuces

Après avoir supprimer les individus du centre 3 qui étaient atypiques au niveau des gènes, il a étépossible de supprimer les effets Sexe et Centre identifiés.Cependant, cela ne veut pas dire que tous les effets latents existants ont pu être identifiés. Pourapprofondir cette partie, on utilisera dans la suite la méthode FAMT (Factor Analysis for MultipleTesting) qui permet de supprimer des effets latents non observés pour ensuite rechercher des gènesdifférentiellement exprimés entre deux groupes. Mais avant cela, on va réaliser des tests ANOVA(ANalysis Of VAriance) avec correction de tests multiples pour tenter d’identifier directement cesgènes sur les données corrigées issues du travail décrit dans cette partie.

Des effets latents identifiés et supprimés

Ensai 2e année

Page 19: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Partie 6 Plusieurs méthodes utilisées pourle recherche de gènes différentiel-lement exprimés

Pour rechercher les gènes différentiellement exprimés entre les deux groupes (stabilisation ou diminution ducritère HOMA, poids ou tour de taille) ou ceux permettant de bien prédire celui-ci, on va utiliser plusieursméthodes : des ANOVA suivie de correction de tests multiples, la méthode FAMT (Factor Analysis for MultipleTesting) et les fôrets aléatoires.A partir de maintenant, on n’utilisera plus les données totales mais des sous-populations selon le critère d’in-clusion dans l’étude (HOMA, poids ou tour de taille) et le temps de la mesure. Pour chaque critère, on vaétudier séparément les données à CID1, celles à CID3 et les taux d’évolution entre CID1 et CID3. On va donctravailler sur 9 jeux de données différents en parallèle. Puis, pour chaque jeu de données, on mettra en communles résultats obtenus par les différentes méthodes.

Dans la suite de ce rapport, seuls les résultats obtenus sur les individus sélectionnés pour leur variation de poidsà CID3 seront présentés. Pour les autres jeux de données les résultats, moins probants, sont mis en annexe.

6.1 Des tests ANOVA pour trouver des gènes différentiellement ex-primés entre les groupes

Dans un premier temps, on cherche les gènes dont l’expression à CID3 est significativement différente selon quel’individu diminue ou stabilise son poids. Plusieurs milliers d’ANOVA sur tous les gènes ont donc été réaliséessur les données corrigées précédemment. Lorsque plusieurs tests sont réalisé en parallèle, il est nécessaire decorriger les p-valeurs obtenues pour pouvoir les interpréter.

6.1.1 Qu’est-ce qu’une ANOVA (ANalysis Of VAriance) et pourquoi corriger lesp-valeurs

Objectif L’analyse de la variance permet de mettre en évidence si une variable numérique a des valeurssignificativement différentes selon plusieurs catégories. C’est une généralisation d’un test de Student d’égalitédes moyennes lorsqu’il y a plus de deux catégories :

H0 : les moyennes sont égalescontre

H1 : au moins l’une des moyennes est différente

Hypothèses Deux hypothèses sont nécessaires pour que le test soit valide. Il faut, d’une part, que la variablenumérique suive une loi normale ce qui peut-être testé à l’aide d’un test de Shapiro-Wilk ou d’un test deKolmogorov-Smirnov. Le test de Shapiro-Wilk peut être considéré comme plus puissant sur des échantillonsplus petits [3]. Cependant les p-valeurs des deux tests étant très différentes pour les données étudiées, les deuxseront ajoutées aux résultats produits.D’autre part, il faut que les variances des deux groupes soit égales. Le test de Bartlett est utilisé pour testercette hypothèse.

Correction de tests multiples Lorsque plusieurs tests statistiques sont réalisés simultanément, le risqueglobal d’erreur de première espèce s’accroît. La répétition à chaque test du risque d’obtenir un résultat significatifaugmente le risque global de conclure à tort à une différence significative entre les groupes. Le risque alpha globalde conclure à tort à l’efficacité à l’issu de cet essai n’est plus de 5 % (même si c’est le seuil retenu pour chaquetest) mais il est bien supérieur. Pour corriger cela, il est possible d’utiliser plusieurs méthodes comme celle deBonferroni ou de Benjamini & Hochberg. Dans la suite, la méthode de Benjamini & Hochberg sera utilisée [4].

13

Page 20: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

14 Partie 6. Plusieurs méthodes utilisées pour le recherche de gènes différentiellement exprimés

Cette méthode contrôle le taux de faux positifs ce qui est plus puissant que le contrôle de l’erreur de premièreespèce réalisé par la correction de Bonferroni.

Mise en œuvre sur R La fonction oneway.test permet de réaliser une ANOVA et d’en récupérer la p-valeur. L’avantage de cette fonction par rapport aux autres implémentées sous R est qu’elle permet de gérer lecas où les variances ne sont pas égales en réalisant un test de Welch. Pour tester l’égalité des variances, on peututiliser la fonction bartlett.test. Au contraire, la normalité des données ne peut pas être gérer directementpar ce test et donc la p-valeur associée au test ANOVA sera toujours accompagnée de celle associée à un testde normalité (fonctions shapiro.test et/ou ks.test). Pour corriger les p-valeurs, il suffit de les passer enparamètre de la fonction p.adjust et de spécifier la méthode de correction utilisée ("BH").

6.1.2 Plus de 250 transcrits trouvés grâce aux ANOVA

Les tests ANOVA réalisés sur tous les gènes donnent 256 p-valeurs corrigées inférieures au seuil de 5 % (graphique6.1). Pour ces transcrits, l’expression des patients du groupe 1 qui diminue leur poids est donc significativementdifférentes de ceux du groupe 2 qui le stabilise entre CID1 et CID3.

Graphique 6.1 – P-valeurs corrigées ou non obtenues par des ANOVA entre les transcritset le type de variation du poids (diminution ou stabilisation)Source : données nettoyées des individus à fortes variations de poids à CID3

La manière la plus courante de représenter les expressions des gènes pour un ou plusieurs groupe est l’utilisationde boîtes à moustache. Elles sont généralement réalisées pour les p-valeurs les plus faibles. L’idéal est de trouverdes transcrits dont les boîtes à moustache ne se chevauchent pas.Par exemple, le transcrit NM_001025195 qui a la plus faible p-valeur corrigée (0,002) est dans ce cas (graphique6.2). Il est l’un des transcrits du gène CES1, l’autre (NM_001266) a une p-valeur de 0,018. Pour ces deuxtranscrits, les tests de Kolmogorov-Smirnov rejettent la normalité alors que ceux de shpiro-Wilk l’acceptentavec un p-valeur environ égale à 0,15. Il faut donc être prudent lorsque l’on interprète les résultats de cesANOVA.

Graphique 6.2 – Boîtes à moustache de l’expression des transcrits du gène CES1 selon letype de variationsSource : données nettoyées des individus à fortes variations de poids à CID3

Ensai 2e année

Page 21: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

6.2. La méthode FAMT pour trouver et corriger les effets latents avant de chercher les gènes différentiellementexprimés 15

6.2 La méthode FAMT pour trouver et corriger les effets latents avantde chercher les gènes différentiellement exprimés

Dans la partie précédente, l’objectif était d’identifier et de supprimer des effets latents. Certains effets commecelui du centre ou du sexe ont pu être corrigés. Cependant d’autres ne peuvent pas être identifié grâce à uneACP mais la méthode FAMT permet de résoudre ce problème. De plus, des tests sont effectués pour rechercherles gènes différentiellement exprimés sur les données corrigées comme pour les ANOVA.

6.2.1 Qu’est-ce que la méthode FAMT (Factor Analysis for Multiple Testing)

Objectif La méthode d’analyse en facteur pour les tests multiples a pour but de sélectionner les gènes diffé-rentiellement exprimés entre deux groupes d’individus lorsque la structure de corrélation entre les expressionsdes gènes est forte [5].

En quoi elle consiste

Hypothèse Comme pour les ANOVA, les hypothèses d’égalité des variances et de normalité des donnéesdoivent être vérifiées pour que le résultat du test soit valide.

Mise en œuvre sur R imputation, FAMT différentes étapes

6.2.2 Près de 700 transcrits différentiellement exprimés

Stage 2A 2013-2014

Page 22: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Conclusion

A faire (guide des stage Ensai) : La suite du rapport décrira la mission, les méthodes statistiques mobilisées, lesprincipaux résultats et leur utilisation future au sein de la structure d’accueil. Dans une dernière partie, vousdevrez préciser jusqu’où les objectifs qui avaient motivé l’étude ont été atteints et les réponses qu’elle a per-mises. Il convient également d’indiquer si des prolongements ou des progrès pourraient être faits et d’en donnerles directions (enrichissement). D’une manière générale, votre contribution personnelle doit être parfaitementidentifiable. Les aspects techniques et méthodologiques doivent être présentés avec soin, de façon à ce que le jurypuisse s’assurer de l’opportunité et de la qualité du travail effectué. Vous vous attacherez en outre à traduirevos résultats en propositions d’actions ou en préconisations pour la structure qui vous accueille. Il faut penserque la conclusion s’adresse aux destinataires finaux qui attendent de vous à ce stade une aide à sa décision.

16

Page 23: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Annexes

A Scripts en RMarkdown réalisés 18A.1 Normalisation et apurements des données (fichier Normalisation.Rmd) . . . . . . . . . . . . . . . 18A.2 Résumé des effets trouvés avec des ACP sur les données avec le centre 3 (fichier ACPResumeA-

vecC3.Rmd) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24A.3 Correction des effets trouvés avec des ACP après élimination du centre 3 (extrait du fichier

ACPResume.Rmd) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

17

Page 24: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Annexe A Scripts en RMarkdown réalisés

Pour permettre à d’autres personnes, statisticiens ou non, d’utiliser mon travail pour des études similaires, j’aiproduit des fichiers en RMarkdown avec le package knitr de et RStudio.On peut grâce à cela produire, assez facilement, des documents html contenant du texte simple mais aussi ducode R et des graphiques. Lors de la compilation le code R sera exécuté pour donner des résultats numériquesou des graphiques qui seront directement intégrés au fichier html.L’avantage des fichiers réalisés en RMarkdown est que l’on va obtenir le code R, les résultats ou graphiques etles commentaires sur un document structuré simple à réalisé, le langage Markdown étant facile d’utilisation.Il est aussi possible d’obtenir des fichiers écrits en LATEX que j’utiliserais ici pour pouvoir ne prendre que certainsextraits des fichiers que j’ai réalisé durant mon stage.

A.1 Normalisation et apurements des données (fichier Normalisa-tion.Rmd)

Gaëlle LefortPremière version : 10 juin 2014Dernière mise à jour : 24 juin 2014

Ce script explique les différentes étapes de la normalisation et du nettoyage de données debiopuces.Il peut être executé avec R version 3.1.0 en utilisant le package suivant :

– limma version 3.20.4 pour manipuler et normaliser les données de biopuce (Bioconductor).

Importation du package :

# Décommenter pour installer limma...# source("http://bioconductor.org/biocLite.R")# biocLite("limma")library(limma)

A.1.1 Données

Protocole expérimental : dans le cadre du projet DiOGenes, des individus obèses ont effectué un régime.Pendant les 8 premières semaines (phase de restriction), le régime était un régime basse calorie. Ensuite, pendant6 mois (phase de stabilisation), les patients dont le poids a diminué d’au moins 8% pouvaient continuer leprotocole, et étaient randomisés dans une des cinq branches de régime « ad libitum ».Biopuces réalisées : des biopuces ont été réalisées pour collecter l’expression des gènes :

– les 11 individus de l’expérience qui ont la diminution la plus importante de poids (weight) entre CID1 etCID3 et les 11 individus qui reprennent le poids perdu durant la phase de restriction (stabilisation) ;

– les 2×11 individus correspondant aux variations les plus importantes (stabilisation et diminution) de tourde taille (waist) ;

– les 2× 11 individus correspondant aux variations les plus importantes de HOMA.

Certains individus sont présents pour plusieurs critères, il y a donc seulement 52 patients (soit 104 biopuces,une pour CID1 et une pour CID3).Convention de nommage des fichiers :DIOGENES-[Date]-[Heure]-[Numéro de lame]-[Numéro de bloc].txt

18

Page 25: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.1. Normalisation et apurements des données (fichier Normalisation.Rmd) 19

A.1.2 Importation des données

Les données sont au format texte (.txt) avec 1 fichier par individu et par CID. Pour faciliter l’importation, ilssont tous dans un même dossier.

cheminImport <- "C:/Documents and Settings/roussel.04PC14/My Documents/Gaëlle/0. Données/Données de départ/Toutes les lames"

cheminExport <- "C:/Documents and Settings/roussel.04PC14/My Documents/Gaëlle/0. Données/Données normalisées/"

cheminCorresp <- "C:/Documents and Settings/roussel.04PC14/My Documents/Gaëlle/Protocole/"

Configuration de l’importation

Pour faciliter la lecture dans les fichiers qui seront créés ensuite, on peut donner des noms aux différentesbiopuces. Si on ne souhaite pas le faire, les noms seront ceux des fichiers texte. Ici j’ai choisi de prendre les 3derniers chiffres du numéro de lame et le numéro du bloc sur la lame pour obtenir un nom du type « L[n◦ delame].b[n◦ du bloc]». Ces données sont extraites à partir d’une expression régulière basée sur le nom du fichierpour limiter les risques d’erreur.

files <- dir(path=cheminImport, pattern="/*.txt")

allB <- unlist(lapply(regmatches(files,regexec("_(b[1-4])",files)), function(u)u[2]))

allL <- paste0("L",substr(unlist(lapply(regmatches(files,

regexec("_([0-9]*)_",files)),function(u) u[2])), 10, 12))

nomLame <- paste(allL, allB, sep = ".")

Ensuite, il faut créer la fonction de filtre nécessaire à l’importation. Un seuil de 1.2 a été choisi par rapport àdes expériences similaires menées à l’Inserm.

# Fonction de filtragemyfun <- function(x,threshold=1.2) {

okred<-x[,"F635 Median"]/x[,"B635 Median"] > thresholdokgreen<-x[,"F532 Median"]/x[,"B532 Median"] > thresholdokFlag<-(x[,"Flags"]>=0 & x[,"ControlType"]=="false")as.numeric((okgreen | okred) & okFlag)

}

Fait après avoir interprété les résultats du script ACPResume :On a pu voir grâce à l’analyse exploratoire que les individus atypiques venaient exclusivement du centre 3. Onva donc tous les supprimer (5 individus).

# Importation des correspondance lame-individuproto <- read.csv(paste0(cheminCorresp,"corresp.csv"), header=TRUE, sep=",",

dec=".")

# Obtention du tableau (dans l’ordre des fichiers dans le dossier)## contenant les centres de chaque individuscorrespondance <- merge(data.frame(lame=nomLame), proto, by.x="lame",

by.y="Lame_Bloc", sort=FALSE)

# Suppression des fichiers du centre 3centre3 <- correspondance$Centre=="3"files <- files[!centre3]nomLame <- nomLame[!centre3]

Stage 2A 2013-2014

Page 26: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

20 Annexe A. Scripts en RMarkdown réalisés

Importation

Importation des données en spécifiant le nom des fichiers à importer, le chemin où ils se trouvent, leur source,la fonction de filtrage et le nom à attribuer à chaque biopuce :

raw.data.AvecControls <- read.maimages(files, path=cheminImport,source="genepix", wt.fun=myfun,names=nomLame)

Suppression des sondes de contrôle

Pour les analyses ultérieures, on supprime les sondes de contrôle des données. Pour les détecter, on change lefiltre d’importation des données.

# Filtre pour obtenir les sondes de contrôlecontrol <- function(x) {

okred <- TRUEokgreen <- TRUEokFlag <- (x[,"ControlType"]=="false")as.numeric((okgreen | okred) & okFlag)

}

# Importation d’un fichier pour connaître l’emplacement des sondes de contrôleraw.data.Controls <- read.maimages(files[1], path=cheminImport,

source="genepix", wt.fun=control)

# Emplacement des sondes de contrôlecontrol <- raw.data.Controls$weights[,1]==0

# Données sans les sondes de contrôleraw.data <- raw.data.AvecControls[!control,]

Pour le traitement des données filtrées, on choisit ici de les remplacer par des données manquantes.

raw.data$R[raw.data$weights==0] <- NAraw.data$G[raw.data$weights==0] <- NA

On obtient un objet contenant 94 biopuces de 43118 sondes.

A.1.3 Normalisation intra et inter lames

Normalisation intra-lame

On utilise ici la méthode LOESS avec comme paramètre de lissage 0,3 (paramètre par défaut) sans soustrac-tion du bruit de fond (celle-ci a déjà été faite au préalable ; dans le cas contraire, il aurait fallu remplacerbc.method=“none” par “subtract”).

MA <- normalizeWithinArrays(raw.data,method="loess",bc.method="none")

Visualisation d’une normalisation intra-lames avec régression loess sur un bloc :

Ensai 2e année

Page 27: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.1. Normalisation et apurements des données (fichier Normalisation.Rmd) 21

Essai des autres méthodesIci, d’autres méthodes de normalisation (ou d’autres paramètres de lissage) sont testés pour voir si il existe unedifférence avec la méthode de base.

essai1 <- normalizeWithinArrays(raw.data[,34], method="loess", bc.method="none",span=0.3)

essai2 <- normalizeWithinArrays(raw.data[,34], method="loess", bc.method="none",span=0.1)

essai3 <- normalizeWithinArrays(raw.data[,34], method="loess", bc.method="none",span=2)

essai4 <- normalizeWithinArrays(raw.data[,34], method="median",bc.method="none")

essai5 <- normalizeWithinArrays(raw.data.AvecControls[,34],method="printtiploess", bc.method="none")

essai9 <- normalizeWithinArrays(raw.data.AvecControls,weights=raw.data.AvecControls$weights)

essai8 <- normalizeWithinArrays(raw.data.AvecControls[,34],method="robustspline", bc.method="none",df=2)

## Loading required package: MASS## Loading required package: splines

Les méthodes alternatives ne semblent pas donner de meilleurs résultats sur la biopuce considérée. La méthodeinitiale est donc conservée.

Normalisation inter-lames

On utilise pour cette normalisation la méthode “Aquantile” pour aligner les quantiles de A entre les lames.

Stage 2A 2013-2014

Page 28: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

22 Annexe A. Scripts en RMarkdown réalisés

MA <- normalizeBetweenArrays(MA, method="Aquantile")

# Données normaliséesnorm.data <- RG.MA(MA)

Visualisation d’une normalisation inter-lames sur une lame pour le rouge :

A.1.4 Exportation du tableau de données

Avant l’exportation, on supprime les gènes qui n’ont que des valeurs manquantes :

diff <- log2(norm.data$R)-log2(norm.data$G)normdata <- data.frame(ID=norm.data$genes$ID, Name=norm.data$genes$Name, diff)

# Part de gènes avec des valeurs manquantes seulementsum(apply(normdata, 1, function(x) sum(is.na(x))) == ncol(normdata)-2)/nrow(normdata)

## [1] 0.01143

# Suppression de ces gènestoKeep <- which(apply(normdata,1,function(x) sum(is.na(x))) != ncol(normdata)-2)normdata <- normdata[toKeep,]

Exportation des données sous la forme d’un tableau où les lignes sont les sondes, les colonnes les blocs et lesvaleurs les différences des logarithmes (en base 2) des intensités de rouge et de vert.

write.table(normdata, paste0(cheminExport, "normdata.csv"), sep=",", dec=".")

A.1.5 Sondes en double

Certains sondes ont le même nom de gène (NM_. . . ), on les moyenne pour que n’apparaisse qu’une seule foischaque nom.

# Vecteur contenant les noms de manière uniquenom <- as.vector(unique(normdata$Name))

# Fonction permettant de moyenner les colonnes pour un nom donnémoy <- function (x, data) {

colMeans(data[(1:nrow(data))[na.omit(data$Name)==nom[x]], 3:ncol(data)],na.rm=TRUE)

}

Ensai 2e année

Page 29: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.1. Normalisation et apurements des données (fichier Normalisation.Rmd) 23

# Obtention des moyennes pour chaque nomuniqueExp <- t(sapply(1:length(nom), moy, normdata))

# Tableau de données sans doublonsnormdata.sansD <- data.frame(uniqueExp)row.names(normdata.sansD) <- nom

A.1.6 Valeurs manquantes

Certains gènes ont beaucoup de valeurs manquantes ce qui peut poser problème dans les analyses statistiquesultérieures.

par(mfrow=c(1,2))hist(apply(normdata.sansD, 1, function(x) sum(is.na(x))/(ncol(normdata)-2)*100),

freq=FALSE, xlab="Poucentage de valeurs manquantes par gène", main="",cex.lab=0.8, cex.axis=0.7)

hist(colSums(is.na(normdata.sansD))/nrow(normdata.sansD)*100, freq=FALSE,xlab="Pourcentage de valeurs manquantes par individu", main="", cex.lab=0.8,cex.axis=0.7)

Seulement 46% des gènes ont moins de 20% de valeurs manquantes. Pour la suite, on ne va garder que les gènesayant moins de 20% de valeurs manquantes.

normdata.sansM <- normdata.sansD[!apply(normdata.sansD, 1, function(x)sum(is.na(x))) > 20/100*ncol(normdata.sansD),]

Enfin, les expressions normalisées correspondant aux gènes uniques et ayant moins de 20% de valeurs manquantessont exportées :

write.table(normdata.sansM, file=paste0(cheminExport,"cleandata.csv"), sep=",", dec=".")

Stage 2A 2013-2014

Page 30: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

24 Annexe A. Scripts en RMarkdown réalisés

A.2 Résumé des effets trouvés avec des ACP sur les données avec lecentre 3 (fichier ACPResumeAvecC3.Rmd)

Gaëlle LefortPremière version : 12 juin 2014Dernière mise à jour : 23 juin 2014

Ce script explique et résume les différentes étapes de la recherche d’effet liée à des informationssur les biopuces telles que le sexe de l’individus ou son centre d’appartenance grâce à différentesAnalyse en Composantes Principales (ACP).Il peut être executé avec R version 3.1.0 en utilisant les packages suivants :• imput version 1.38.1 pour imputer des données de biopuce (Bioconductor) ;

• FactoMineR version 1.26 pour réaliser une ACP.

Importation des packages :

#Pour l’installation la première fois, décommenter les lignes suivantes#source("http://bioconductor.org/biocLite.R")#biocLite("impute")library(impute)

library(FactoMineR)

A.2.1 Données

Les données utilisées dans ce script sont les données de biopuces nettoyées (suppression des spots de contrôle,normalisation intra et inter lames, gènes en double moyennés, suppression des gènes avec plus de 20% de valeursmanquantes). Pour plus de détails, voir le fichier Normalisation.html.Chemin du répertoire où se trouvent les données nettoyées :

cheminData <- "C:/Documents and Settings/roussel.04PC14/My Documents/Gaëlle/0. Données/Données normalisées/"

Chemin du répertoire où se trouvent les correspondances lame-protocole :

cheminProto <- "C:/Documents and Settings/roussel.04PC14/My Documents/Gaëlle/Protocole/"

A.2.2 Imputation et préparation des données

Les données normalisées sont d’abord importées et les données manquantes imputées par la méthode des plusproches voisins (avec pour nombre de voisins pris en compte dans l’imputation k=3) :

donneesPropre <- read.csv(paste0(cheminData,"cleandataC3.csv"),header=TRUE, sep=",", dec=".")

imput <- impute.knn(as.matrix(donneesPropre), k = 3, rng.seed=1234)dataImput <- imput$datadataImput <- as.data.frame(t(dataImput))

Les données de correspondance lame-protocole sont ensuite importées et les deux tables jointes (données d’ex-pression et données d’informations sur le protocole expérimental) :

Ensai 2e année

Page 31: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.2. Résumé des effets trouvés avec des ACP sur les données avec le centre 3 (fichierACPResumeAvecC3.Rmd) 25

proto <- read.csv(paste0(cheminProto,"corresp.csv"), header=TRUE, sep=",",dec=".")

# On ajoute une colonne contenant le nom des biopuces à la table des donnéesdataImput <- data.frame(dataImput, lame=rownames(dataImput))

# On fait la jointure sur le nom des biopucesdataMerge <- merge(dataImput, proto, by.x="lame", by.y="Lame_Bloc")

# On met le nom de biopuce comme nom de lignerownames(dataMerge) <- dataMerge[,1]dataMerge[,1] <- NULL

A.2.3 Analyse en Composantes Principales (ACP) sur toutes les lames

On peut maintenant réaliser une ACP normée (données centrées et réduites) des données imputées.

resPCA <- PCA(dataMerge[,1:12046], scale.unit=TRUE, graph=FALSE)

Valeurs propres

Pour chercher le nombre de valeurs propres à retenir pour l’interprétation, on va commencer par visualiser legraphique des valeurs propres pour rechercher un coude :

On observe un coude après deux valeurs propres. Ensuite, on regarde l’inertie cumulée des valeurs propres ainsique les différences secondes entre les valeurs propres :

# Tableau des valeurs propresvp <- resPCA$eigvp[1:10,]

## eigenvalue percentage of variance cumulative percentage of variance## comp 1 2758.3 22.898 22.90## comp 2 1199.1 9.954 32.85## comp 3 485.4 4.030 36.88## comp 4 457.6 3.799 40.68## comp 5 385.1 3.197 43.88## comp 6 350.5 2.910 46.79## comp 7 315.2 2.617 49.40

Stage 2A 2013-2014

Page 32: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

26 Annexe A. Scripts en RMarkdown réalisés

## comp 8 286.3 2.376 51.78## comp 9 234.6 1.948 53.73## comp 10 212.4 1.763 55.49

# Scree-test de Catelldiff(diff(vp[,1]))[1:10]

## [1] 845.6125 685.7714 -44.6379 37.9338 -0.7738 6.4197 -22.7456## [8] 29.4004 -4.4260 8.9721

Pour atteindre 80% d’inertie cumulée, il faudrait conserver 44 axes. De plus, les différences secondes entre lesvaleurs propres changent de signe au bout de 2 axes, ce qui donne le résumé suivant pour le choix du nombred’axes à retenir pour l’analyse :• règle du coude : 2 axes (le deuxième coude est à 4 axes) ;

• Scree-test de Catell (différences secondes des inerties jusqu’à ce que le signe change) : 2 axes ;

• inertie cumulée supérieure à 80% : 44 axes.

Pour visualiser s’il y a une différence entre les deux types de lames (effet expérimental), on neva pas regarder sur les 44 axes mais seulement sur les 4 premiers.

2.2 Visualisation des effets

Les graphiques suivants représentent les individus (ici, un individu correspond à un homme ou un femme, dontle transcriptome a été relevé au début de l’étude et 8 mois après) :

Sur le premier axe, on peut voir certains individus atypiques. Sur le second, on voit une séparation gauche-droite. On va essayer d’expliquer ces deux effets avec les variables à disposition sur les biopuces (CID, Centre,Sexe. . . ).

Variables n’expliquant pas les effets Sur les graphiques des individus de l’ACP des 4 premières dimensions,si l’on superpose (grâce à des couleurs différentes) les variables Bain, Diet, Groupe (variation forte ou faibledu critère HOMA, Weight ou Waist), CID, LameSpe (si la lame fait partie de celles hybridées à part), on neremarque aucun effet que ce soit sur les individus atypiques, sur les deux groupes identifiés par l’axe 2 ousimplement un effet de position des groupes de couleur sur l’un des plans.

Ensai 2e année

Page 33: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.2. Résumé des effets trouvés avec des ACP sur les données avec le centre 3 (fichierACPResumeAvecC3.Rmd) 27

CID La figure suivante est la représentation des individus sur les différents plans de l’ACP avec une couleurpour les individus au début de l’étude (CID1 en noir) et une autre pour ceux à la fin de la phase de stabilisation(CID3 en vert) : on observe un très léger effet du temps de la mesure sur la dimension 3 :

Sexe La figure suivante est la représentation des individus sur les différents plans de l’ACP avec une couleurpour les femmes (rouge) et une autre pour les hommes (noir) : on observe un léger effet du sexe (les hommessont concentrés sur une partie des deux plans factoriels).

Centre La figure suivante est la représentation des individus sur les différents plans de l’ACP avec une couleurpar centre : les individus atypiques que l’on cherchait à identifier, sur la dimension 1, appartiennent tous aucentre 3 ; de plus, les autres centres sont plus ou moins regroupés par couleurs.

Stage 2A 2013-2014

Page 34: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

28 Annexe A. Scripts en RMarkdown réalisés

HOMA La figure suivante est la représentation des individus sur les différents plans de l’ACP avec en rougeles individus pour lesquels le HOMA est extrême (plus forte ou plus faible évolution) : les deux groupes quel’on distingue sur la dimension 2 peuvent s’expliquer avec le critère HOMA. En effet, la majorité des individusde droite ont été selectionnés entre autre pour des variations de HOMA importantes au contraire de ceux degauche.

Tous les critères La figure suivante est la représentation des individus sur les différents plans avec une couleurpar combinaison de critères d’inclusion à l’étude (par exemple HOMA, HOMA et Weight, Waist et Weight ou les3) : 5 biopuces “HOMA” sont mélangées avec des biopuces “non HOMA”. 2 sont des biopuces ayant les 3 critères,1 correspond à un individu sélectionné pour les critères HOMA et poids et les deux dernières correspondent àdes individus atypiques sur la dimension 1 et viennent du centre 3.

Ensai 2e année

Page 35: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.2. Résumé des effets trouvés avec des ACP sur les données avec le centre 3 (fichierACPResumeAvecC3.Rmd) 29

Conclusion

En ce qui concerne les CID, l’effet est très faible et il est, de plus, attendu (ce n’est pas un effet expérimentalmais un effet recherché).

⇒ L’effet ne sera pas corrigé.

Pour le sexe, la dimension 3 sépare legèrement les hommes et les femmes.⇒ Pour corriger ce petit effet, on alignera les médianes des distributions des expressions

parmi les hommes et parmi les femmes.

Le centre 3 pose problème dans le sens où la totalité des individus atypiques viennent de ce centre. De plus, lamajorité des individus de ce centre sont atypiques ou sur les bord du nuage. De plus, on observe un effet desautres centres surtout sur le plan 1-3.

⇒ En ce qui concerne le centre 3, on va le supprimer totalement avant de refaire tournerles ACP. Pour les autres, on alignera les quantiles.

La séparation "HOMA”/"non HOMA” est flagrante sur la dimension 2.⇒ Dans la suite de l’étude les analyses seront effectuée sur les sous-groupes par critères.

Cette séparation ne devrait donc pas poser de problèmes.

A.2.4 Résultats d’ACP sur des sous-groupes

Cette partie effectue les ACP séparées sur les trois études différentes (variations extrêmes de HOMA, poids ettour de taille, respectivement).Les trois variables HOMA, Weight et Waist valent 2 si l’individus à une variation extrême du critère et 1 sinon.Elles ont été réalisées pour approfondir les résultats précédents (voir ACPDetails.html) où les sous-groupescorrespondent aux différents critères d’inclusion dans l’étude (HOMA, Weight et Waist).Pour ces ACP, on retrouve les mêmes effets du centre et du HOMA plus spécialement. Cependant un individuatypique de l’ACP avec les individus “HOMA” (L440.b2) n’est pas présent dans les individus atypiques de l’ACPglobal. Cet individu n’appartient pas non plus au centre 3 mais au centre 7.

Visualisation des effets les plus importants Les effets sur les CID et le sexe de l’individu sont plus visiblessur les graphiques avec toutes les lames, au contraire de l’effet du Centre à cause du nombre plus important deses modalités.

Stage 2A 2013-2014

Page 36: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

30 Annexe A. Scripts en RMarkdown réalisés

Ensai 2e année

Page 37: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.3. Correction des effets trouvés avec des ACP après élimination du centre 3 (extrait du fichierACPResume.Rmd) 31

A.3 Correction des effets trouvés avec des ACP après élimination ducentre 3 (extrait du fichier ACPResume.Rmd)

Gaëlle LefortPremière version : 12 juin 2014Dernière mise à jour : 25 juin 2014

A.3.1 Correction de l’effet Sexe par alignement de la médiane

On va d’abord joindre les données nettoyées non imputées avec les informations sur les individus pour obtenirle sexe.

# Transposition du tableau de donnéesdonneesPropre <- as.data.frame(t(donneesPropre))

# On ajoute une colonne contenant le nom des biopuces à la table des donnéesdonneesPropre <- data.frame(donneesPropre, lame=rownames(donneesPropre))

# On ne garde que le sexe et le centre pour la correction suivante# les autres information ne sont pas utilesprotoUtile <- subset(proto, select=c(Lame_Bloc,Sexe,Centre))

# On fait la jointure sur le nom des biopucesdataMergeCorr <- merge(donneesPropre, protoUtile, by.x="lame", by.y="Lame_Bloc")

# On met le nom de biopuce comme nom de lignerownames(dataMergeCorr) <- dataMergeCorr[,1]dataMergeCorr[,1] <- NULL

On calcule la médiane pour chaque groupe (homme et femme) puis on soustrait la médiane aux individuscoresspondants.

# Médiane pour les hommeshomme <- as.matrix(dataMergeCorr[dataMergeCorr$Sexe=="1",

1:(ncol(dataMergeCorr)-2)])medH <- median(homme, na.rm=TRUE)hommeCorr <- as.data.frame(homme-medH)

# Mediane pour les femmesfemme <- as.matrix(dataMergeCorr[dataMergeCorr$Sexe=="2",

1:(ncol(dataMergeCorr)-2)])medF <- median(femme, na.rm=TRUE)femmeCorr <- as.data.frame(femme-medF)

On aligne la médiane des sexes homme et femme pour tous les gènes.

# On concatène le tableau des hommes et celui des femmesalignSexe <- rbind(hommeCorr, femmeCorr)

# Tableau de données aligné avec le sexedataCorrSexe <- data.frame(alignSexe,

Centre=c(dataMergeCorr[dataMergeCorr$Sexe=="1","Centre"],dataMergeCorr[dataMergeCorr$Sexe=="2","Centre"]))

Stage 2A 2013-2014

Page 38: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

32 Annexe A. Scripts en RMarkdown réalisés

A.3.2 Correction de l’effet Centre par alignement des quantiles

On va aligner les quantiles globaux par centre gràce à une fonction existante du package preprocessCore :

# Vecteur des centresblocks <- as.factor(dataCorrSexe$Centre)

# Matrice imputées des gènes à corrigerimputCorrection <- impute.knn(as.matrix(alignSexe), k=3, rng.seed=5678)aCorr <- imputCorrection$data

# Correction par alignement des quantilesdataCorrCentreImput <- as.data.frame(normalize.quantiles.in.blocks(aCorr, blocks))

# On remet les valeurs manquantes du départ dans une nouvelle table#pour pouvoir ce servir de celle avec les données imputées pour une nouvelle ACPdataCorrCentre <- dataCorrCentreImputdataCorrCentre[is.na(alignSexe)] <- NA

# Ajout des noms de lignes et de colonnes au tableau finalcolnames(dataCorrCentre) <- colnames(alignSexe)rownames(dataCorrCentre) <- rownames(alignSexe)

Exportation du tableau des données où les effets Sexe et Centre ont été corrigés.

write.table(dataCorrCentre,paste0(cheminData,"corrdata.csv"), sep=",", dec=".")

A.3.3 Vérification de la normalisation par une nouvelle ACP

Pour vérifier que l’on n’a plus d’effet centre et sexe, on va refaire tourner une ACP sur les données imputéesobtenues après les 2 corrections.

resPCA <- PCA(dataCorrCentre, scale.unit=TRUE, graph=FALSE)

Ensai 2e année

Page 39: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

A.3. Correction des effets trouvés avec des ACP après élimination du centre 3 (extrait du fichierACPResume.Rmd) 33

On peut voir sur ces graphiques que les normalisations ont permis de supprimer les effets dus au sexe et aucentre d’appartenance de l’individu.

Stage 2A 2013-2014

Page 40: LEFORT Gaëlle - NV² · 2020-07-06 · Introduction À l’échelle mondiale, le nombre de cas d’obésité a doublé depuis 1980 : 35 % des adultes âgés de 20 ans et plus étaient

Bibliographie

[1] Viguerie N., Montastier E., Maoret J., Roussel B., Combes M., Valle C., Villa-Vialaneix N., Iacovoni J.,Martinez J., Holst C., Astrup A., Vidal H., Clément K., Hager J., Saris W., et Langin D., Determinantsof human adipose tissue gene expression : impact of diet, sex, metabolic status and cis genetic regulation,PLoS Genetics, 2012.

[2] Bolstad, B. M., Irizarry R. A., Astrand, M, and Speed, T. P., A Comparison of Normalization Methods forHigh Density Oligonucleotide Array Data Based on Bias and Variance. Bioinformatics 19(2), pp 185-193,2003.

[3] Razali N.M, Wah Y. B., Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lillefors and Anderson-Darling tests, Journal of Statistical Modeling and Analytics Vol.2 No.1, 21-33, 2011

[4] Benjamini Y., Hochberg Y., Controlling the false discovery rate : a practical and powerful approach tomultiple testing J. Royal Stat. Soc. B, 85, 289-300, 1995.

[5] Causeur D., Friguet C., Houee-Bigot M., Kloareg M., Factor Analysis for Multiple Testing (FAMT) : AnR package for large-scale significance testing under dependence, Journal of Statistical Software, May 2011

34