Découverte de e-dépendances fonctionnelles : Application à des données de biopuces
Alexandre Aussem, Jean-Marc Petit
LIMOS, Clermont-Ferrand
BDA 2002, Evry
Plan
Les biopuces Intérêts Données produites Analyse des données de biopuces
Techniques non supervisées classiques Les DFs sur des données de biopuces
Relaxation de la satisfaction des DFs Un nouveau problème d’inférence Adaptation d’un cadre conçu pour les DFs
Premiers résultats expérimentaux Conclusion et perspectives
Notions de biologie
Génome : ensemble de tous les gènes humains Présent dans toute cellule humaine
Transcriptome : sous ensemble de gènes actifs dans une cellule, i.e. les gènes qui sont transcrits en ARN messager (ARNm) dans une cellule Expression d‘un gène = transcription du gène
en ARNm Protéome : sous ensemble de protéines
dans une cellule, i.e. de ARNm qui sont traduits en protéines
Qu’est qu’une biopuce ?
Dispositif pour mesurer le transcriptome d’une cellule Donne les gènes qui s’expriment dans un
type cellulaire donné Intérêts des biopuces
Permet de mesurer le transcriptome de différents types de cellule
Permet de trouver des différences dans le profile d‘expression
e.g. trouver des gènes sur ou sous exprimés dans des cellules tumorales vs cellules normales
Exemple : 8 gènes, 6 expériences
YHR051W YKL181W YHR124W YHL020C YGR072W YGR145W YGR218W YGL041C
Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06
Exp2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23
Exp3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20
Exp4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01
Exp5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01
Exp6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19
Les données issues des biopuces
Tableaux à 2 dimensions : gènes x expériences
Beaucoup de gènes (jusqu’à 30 000)Peu d’expérience (quelques
centaines) Valeurs réelles uniquement Données bruitées, comportant des
valeurs nulles, peu fiables
Analyse des données de biopuces
Peut être vu comme un problème de découverte de connaissance dans les données
Quelles techniques de fouille de données utiliser ? Techniques supervisées
E.g. prédire le comportement d’un gène avec un arbre de décision
Techniques non supervisées E.g. regroupement, règles d’association
Ce que souhaite les biologistes ? Très ouverts Les implications entre gènes frappent leur bon sens,
e.g. : Si G1 et G3 sont sur exprimés alors G2 l’est aussi
Les problèmes posés pour déterminer des implications
Si implication = règles d’association Discrétisation des données
Transformation des données dans {0,1} Le nombre de gènes augmentent
Si implication = dépendances fonctionnelles Pas besoin de discrétiser Hélas, chaque gène est une clé
Idée de base
Considérer les DFs comme une connaissance sur les données Au même titre que les règles d’association …
Prendre en compte les caractéristiques des données de biopuces Relaxer la définition de la satisfaction d’une DF
=> e-DF Adapter un cadre d’inférence au problème
de fouille de données sous jacent
Relaxer la définition de la satisfaction d’une DF
Rappel :
On relaxe l’égalité, on obtient les e-DFs
[B]t[B]Y tB[A] t[A]X tA
r,ttYXr
2121
21
alors si
ssi
ε[B]t[B]tYB ε[A]t[A]tX A
r,ttYXr
2121
21
alors si
ssi
Exemples avec un seuil à 0.05
543
71
GGG
GG
G0 G1 G2 G3 G4 G5 G6 G7
Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06
Exp2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23
Exp3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20
Exp4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01
Exp5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01
Exp6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19
et beaucoup d’autres …
5453 et avec GGGG
G1 détermine G7
-0,30
-0,20
-0,10
0,00
0,10
0,20
0,30
0,40
G1
G7
Exp1 Exp2 Exp3 Exp4 Exp5 Exp6
Entre l’expérience 3 et 6, le niveau d’expression de G1 et G7 est le même.Ailleurs, les couples ne vérifient pas la condition
G3, G4 déterminent G5
-1,40
-1,20
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
G3
G4
G5
Exp1 Exp2 Exp3 Exp4 Exp5 Exp6
Entre l’expérience 2 et 5, le niveau d’expression de G3, G4 et G5 est le même.Entre l’expérience 1 et 3, G4 ne varie pas alors que G5 varieEntre l’expérience 3 et 6, G3 ne varie pas alors que G5 varie
Une nouvelle tâche d’inférence
« Etant donnés une relation à valeurs réelles r et un seuil e, déterminer les DFs e-satisfaites dans r »
Peut on utiliser les techniques développées pour l’inférence des DFs ?
Opérateur de fermeture
Soient G un ensemble fini de gènes et r une relation
On définit .r+ une application sur P(G)
comme :
.r+ est un opérateur de fermeture sur P(G)
pour r Bonne nouvelle
AXrGAX r
Opérateur de fermeture, fermés et implications
Équivalence entre un système de fermeture et des implications Des algorithmes existent pour passer de l’un à
l’autre Les ensembles en accord sont inclus dans
les fermés Il suffit de calculer ces fermés particuliers puis
d’utiliser une technique d’inférence classique les ensembles en accord
Comment calculer une représentation des fermés ?
Pour deux tuples t1 et t2, on peut calculer le fermé correspondant, i.e. l’ensemble des gènes qui varient dans la limite du seuil e
Pour une relation r, on calcule p(p-1)/2 fermés
][][ tq),( 2121 AtAtGAttag
Exemple avec un seuil à 0.05
G0 G1 G2 G3 G4 G5 G6 G7
1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06
2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23
3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20
4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01
5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01
6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19
Agree ={
{} {G3} {G4} {G6} {G2,G7} {G3,G4,G5} {G4,G7} {G0} {G1,G3,G7} {G0,G4}
}
Exemple pour G7• e-DF exclues : {G3,G4,G5} {G6} {G0,G4}• e-DF : {G7} {G5,G6} {G4,G6} {G3,G6} {G2} {G1} {G0,G6} {G0,G5} {G0,G3}
Couverture canonique
Des ensembles en accord, déduire la plus petite famille génératrice GEN (inf-irréductible)
Pour un gène G donné Déterminer les éléments de GEN qui ne
contiennent pas G Calculer l’ensemble des parties
gauches minimales qui détermine G Exponentiel en le nombre de gènes
YXrAGenYGeneXrAlhs
,),(min),(
Premiers résultats expérimentaux
Test sur des données issues du Web Données de la levure Sélection de 180 gènes, 50 expériences Beaucoup de règles de la forme Beaucoup de clés
Validation en cours, pas encore de résultats concrets Partenaire : LOM, Laboratoire du centre anti-
cancéreux de Clermont-Ferrand Etape difficile liée en partie au domaine traitée
G0
Conclusion et Perspectives
Premier bilan A partir d’une nouvelle application
Nouvelle mesure de l’interaction des gènes Évite la discrétisation des données
Définition d’un nouveau problème de fouille Justification et mise en œuvre d’une technique
d’inférence Difficile d’interpréter simplement la K extraite
Travail en cours Validation avec des experts Autres définitions de la satisfaction d’une DF pour mieux
prendre en compte les besoins des biologistes Classement des règles extraites