Upload
lunete-hardouin
View
107
Download
1
Embed Size (px)
Citation preview
BIOSIRISBIOSIRIS
Science Park Crealys - CassiopéeScience Park Crealys - Cassiopée
30 rue Phocas Lejeune – Bte 1730 rue Phocas Lejeune – Bte 17
5032 Gembloux5032 Gembloux
BelgiqueBelgique
- - www.biosiris.com - -
- Guillaume ASSET -- Guillaume ASSET -
PLANPLAN
Veille technologiqueVeille technologique– Prédiction de sites de Prédiction de sites de
clivage protéolytiqueclivage protéolytique– TangoTango
Prédicteur d’activité Prédicteur d’activité membranairemembranaire
Travail réalisé dans le Travail réalisé dans le cadre du cadre du Master (II) Master (II) ChemoInformatiqueChemoInformatique
2005-20062005-2006
ULP, Faculté de chimieULP, Faculté de chimie1 rue Blaise Pascal1 rue Blaise Pascal
67070 Strasbourg Cedex67070 Strasbourg Cedex
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :
Rupture des liaisons peptidiques entre AA par des Rupture des liaisons peptidiques entre AA par des enzymes, les enzymes, les protéases protéases (ou (ou peptidasespeptidases))
1) Predicteurs de clivage 1) Predicteurs de clivage protéolytiqueprotéolytique
Modification de la structureModification de la structure
Perte / Modification d’activité de la protéinePerte / Modification d’activité de la protéine
A prendre en compte dans l’étude A prendre en compte dans l’étude exhaustive d’une protéine et de ses exhaustive d’une protéine et de ses
potentialitéspotentialités(environ 8000 études par an)(environ 8000 études par an)
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :1) Predicteurs de clivage 1) Predicteurs de clivage protéolytiqueprotéolytique
3 prédicteurs de sites de clivage 3 prédicteurs de sites de clivage sur Internetsur Internet
SHUBOS PepCutterSHUBOS PepCutter www.shu.ac.uk/schools/sci/biomed/bioinformatics/pepcut010.htmwww.shu.ac.uk/schools/sci/biomed/bioinformatics/pepcut010.htm
ExPASy PeptideCutterExPASy PeptideCutter www.expasy.org/tools/peptidecutter/www.expasy.org/tools/peptidecutter/
PROLYSIS CutterPROLYSIS Cutter www.delphi.phys.univ-tours.frProlysis/cutter.htmlwww.delphi.phys.univ-tours.frProlysis/cutter.html
a. a. SHUBOS PepCutterSHUBOS PepCutter
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :1) Predicteurs de clivage 1) Predicteurs de clivage protéolytiqueprotéolytique
séquenceséquence
FASTAFASTA
recherche recherche
de motif AAde motif AA
découpagedécoupage
QAKEPCVESLVSQYFQTVTDYGKDLMEKVKSPELQAEAKSYFEKS…
Trypsine : KTrypsine : K
(lysine)(lysine)
QAK // EPCVESLVSQYFQTVTDYGK //DLMEK // VK // SPELQAEAK // SYFEK // S…
11 motifs implémentés + possibilité de paramétrer le sien11 motifs implémentés + possibilité de paramétrer le sien Algorithme simpliste aux sources inconnuesAlgorithme simpliste aux sources inconnues
b. b. ExPASy PeptideCutterExPASy PeptideCutter
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :1) Predicteurs de clivage 1) Predicteurs de clivage protéolytiqueprotéolytique
Pas de protection par Pas de protection par copyrightcopyright Formats d’entrée : FASTA, Formats d’entrée : FASTA,
Swiss-Prot, TrEMBLSwiss-Prot, TrEMBL 32 protéases implémentées32 protéases implémentées Tient compte des positions
relatives des AA voisinsScheter & Berger, « On The Size Of The Active Site In Proteases », Biochem. Biophys. Res. Commun., 1967-68
Paramètres optionnels de classement de résultats
Sources bibliographiques Sources bibliographiques mentionnéesmentionnées
Pas de motif personnalisé--
++
c. c. PROLYSIS CutterPROLYSIS Cutter
Format d’entrée : FASTA Tient compte des positions
relatives des AA voisinsScheter & Berger, « On The Size Of The Active Site In Proteases », Biochem. Biophys. Res. Commun., 1967-68
Paramètres optionnels de classement de résultats
Paramètres optionnels d’état Paramètres optionnels d’état des résidus et du C/N-terminaldes résidus et du C/N-terminal
Protection par copyright 11 protéases seulement Pas de motif personnalisé Sources bibliographiques non
mentionnées
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :1) Predicteurs de clivage 1) Predicteurs de clivage protéolytiqueprotéolytique
Problèmes rencontrés avec ces algorithmes :Problèmes rencontrés avec ces algorithmes :
- Analyse séquentielle- Analyse séquentielle aucune implication des structures secondaire et tertiaire : pas de aucune implication des structures secondaire et tertiaire : pas de
prise en compte de l’accessibilité des résidus, etc.prise en compte de l’accessibilité des résidus, etc.
- Aucune estimation fiable- Aucune estimation fiable pas de moyen efficace d’évaluer les probabilités de clivage et donc de pas de moyen efficace d’évaluer les probabilités de clivage et donc de
fournir une analyse précisefournir une analyse précise
Très bons outils pour le chercheur, mais lesTrès bons outils pour le chercheur, mais les performances ne sont pas assez performances ne sont pas assez
satisfaisantes satisfaisantes pour intégrer l’un d’eux dans pour intégrer l’un d’eux dans Protein Protein
InvestigatorInvestigatorTMTM
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
- Algorithme de prédiction de Algorithme de prédiction de zones d’agrégationzones d’agrégation
(feuillet (feuillet ββ, coude , coude ββ, hélice , hélice αα, , agrégation agrégation ββ))
- Format d’entrée : FASTA- Format d’entrée : FASTA
- Plusieurs paramètres pris en Plusieurs paramètres pris en comptecompte
(pH, T, force ionique, [TFE], stabilité de la protéine, (pH, T, force ionique, [TFE], stabilité de la protéine, protection protection
des C/N terminaux)des C/N terminaux)
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
AVGIVGAMFLGFLGAAGSTMGAVSLT…
sequence
pro
babili
té
TANGOTANGOAgregation Agregation ββ
Corrélations entre les résultats de TANGOTANGO
(pour les agrégations β) et ceux de la méthode des
Peptides ObliquesPeptides Obliques développée au CBMN
Centre de Biophysique Moléculaire NumériqueFaculté Universitaire de Sciences Agronomiques
5030 GemblouxBelgique
L’influence des paramètres initiaux(force ionique, concentration en
TFE…) a des effets négligeables sur lesrésultats de Tango (tant que
nous nous contentons des résultats qualitatifs).
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
Les peptides obliquesLes peptides obliques**::
** Brasseur R, « Tilted peptides : a motif for membrane destabilization (Hypothesis) », Molecular Membrane Biology, 2000, 17, 31-40
ZoneZone
hydrophobhydrophobee
ZoneZone
hydrophobehydrophobe
ParallélismeParallélisme : :
stabilitéstabilité
OblicitéOblicité : :
Destabilisation de la membrane :Destabilisation de la membrane :
permet les processi permet les processi membranairesmembranaires
ProtéineProtéine
BicouchBicouchee
lipidiqulipidiquee
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
Détection automatique des PO (Z-Prot)Détection automatique des PO (Z-Prot) : :
séquenceséquence
FASTAFASTApeptides de 11 à 18 résiduspeptides de 11 à 18 résidus
structurés en hélice structurés en hélice αα
analyseanalyse
HCAHCA
Hydrophobie Hydrophobie
moyenne moyenne positivepositive
RapportRapport
pho/phi>0.4pho/phi>0.4
minimisation deminimisation de
l’énergie,l’énergie,
modélisationmodélisation
Angle oblique Angle oblique
entre 30° et entre 30° et 60°60°
calcul de l’interaction calcul de l’interaction
par hypermatrice par hypermatrice **
** Brasseur & Ruysschaert, 1986
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
1 15 29 43 57 71 85 99 113
127
141
155
169
183
197
211
225
239
253
267
281
295
309
323
337
Z-PROT
TANGO
XP
Exemple pour HIV-1Exemple pour HIV-1 : :
Corrélations qualitatives entre lesprédictions de Tango, les scores
de Z-Prot, et les résultats expérimentaux :
Utilisation comme critère discriminant pour
augmenter le taux de confiance de Z-Prot?
VEILLE TECHNOLOGIQUE :VEILLE TECHNOLOGIQUE :2) Algorithme 2) Algorithme TangoTango
Etude portant sur 10 protéines avec résultats exp.Etude portant sur 10 protéines avec résultats exp. Prédictions de Z-ProtPrédictions de Z-Prot Calculs de TangoCalculs de Tango Comparaison avec Comparaison avec
exp.exp.37.5%37.5%Des domaines communs Des domaines communs
àà
Tango et Z-Prot sont Tango et Z-Prot sont des POdes PO
48%48%Des PO sont détectés Des PO sont détectés
par par
Tango et Z-Prot à la foisTango et Z-Prot à la fois
Il reste encore trop de faux positifs (62.5%)Il reste encore trop de faux positifs (62.5%)pour que les résultats de Z-Prot soient assezpour que les résultats de Z-Prot soient assez
fiables pour l’intégrer dans fiables pour l’intégrer dans Protein Protein InvestigatorInvestigatorTMTM
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
Nécessité d’améliorer le pouvoir prédicteur de Z-Nécessité d’améliorer le pouvoir prédicteur de Z-ProtProt
- Seulement 10 protéines pour lesquelles les résultats Seulement 10 protéines pour lesquelles les résultats expérimentaux sont connusexpérimentaux sont connus
- Banque de données petiteBanque de données petite
Module EN AVALEN AVAL de Z-Prot
- diminuer le taux de faux positifs
- augmenter ainsi la fiabilité du programme
Application EN PARALLELEEN PARALLELE à Z-Prot
- prédicteur autonome- résultats croisés avec ceux
obtenus par Z-Prot
2 optiques étudiées2 optiques étudiées
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
Données initialesDonnées initiales : :- 10 protéines (10² à 1010 protéines (10² à 1033
résidus)résidus)- Paramètres par défaut de Paramètres par défaut de
Z-ProtZ-Prot- Total de Total de 1375 peptides 1375 peptides
reconnus comme reconnus comme obliquesobliques
I. EN AVAL DE Z-PROTI. EN AVAL DE Z-PROT
Descripteurs disponiblesDescripteurs disponibles : :- HydrophobicitéHydrophobicité- Energie minimumEnergie minimum- Pénétration Pénétration
membranairemembranaire- Angle de pénétrationAngle de pénétration
Critère d’activité (par Critère d’activité (par peptide)peptide) : :
- 1 si oblique exp.1 si oblique exp.- 0 sinon0 sinon
RégressionRégression
linéaire multiplelinéaire multiple
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
I. EN AVAL DE Z-PROTI. EN AVAL DE Z-PROT
)²(
)²(²
,
YYYY
Ri
icalc
)²()²(
1²,
YYYY
Qi
icalci
1)²( ,
kNYY
sicalci
Coefficient de corrélation carré
R²>0.6
Coefficient de validation croiséeQ²>0.5
Écart type (RMS, root mean square)
+ Application des tests de Golbraikh & Tropsha
Critères statistiques de sélection d’un modèle QSARCritères statistiques de sélection d’un modèle QSAR : :
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
I. EN AVAL DE Z-PROTI. EN AVAL DE Z-PROT
Calculs préalables : aperçu par protéine
R² < 0.38 0.17 < RMS < 0.47
Très insuffisant !
Calcul sur le jeu total :
R = 0.190R² = 0.033RMS = 0.48Q² = 0.036
MODELE NON MODELE NON EXPLOITABLE !EXPLOITABLE !
Golbraikh-Tropsha : [(R²-R0²)/R²] > 2986
[(R²-R’0²)/R²] = 0 k = 0.4434 k’ = 1
ExplicationsExplications : :- trop peu de descripteurs disponibles avec le fichier de sortie de Z-Prottrop peu de descripteurs disponibles avec le fichier de sortie de Z-Prot- Pas assez de données initialesPas assez de données initiales
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROTDonnées initialesDonnées initiales : :- 10 protéines (10² à 1010 protéines (10² à 1033 résidus) résidus)- Total de Total de 1375 peptides 1375 peptides
reconnus comme obliquesreconnus comme obliques
Descripteurs disponiblesDescripteurs disponibles : :- Surface standard A0Surface standard A0- Surface accessible ASurface accessible A- Rapport (A0-A)/A0Rapport (A0-A)/A0- Distance entre les barycentres phi et Distance entre les barycentres phi et
phopho- Gradient d’hydrophobicitéGradient d’hydrophobicité- Entropie de la Entropie de la side chainside chain- Entropie du Entropie du backbonebackbone- Entropie (Entropie (side chainside chain + + backbonebackbone))- Charge effectiveCharge effective- Volume de Van der WaalsVolume de Van der Waals Forme normale et
logarithmique 2 fonctions de Jähnig **
** Jähnig F. « Structure predictions of membrane proteins are not that bad », TIBS, 1990, 15, 93-95
38 descripteurs physico-38 descripteurs physico-chimiqueschimiques
+ nature du résidu+ nature du résidu
Cette fois, on raisonne en terme de Cette fois, on raisonne en terme de résidusrésidus et non en terme de et non en terme de peptides, pour déterminer les peptides, pour déterminer les domainesdomaines présentant une présentant une activité avec la membrane activité avec la membrane cellulairecellulaire
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
Fonctions de JähnigFonctions de Jähnig : contributions des voisins : contributions des voisins
H7H7
residuresidu
I-3I-3
I-2I-2
I-1I-1
II
I+1I+1
I+2I+2
I+3I+3
coefficientcoefficient
11
11
11
11
11
11
11
HAHA
residuresidu
I-8I-8
I-7I-7
I-6I-6
I-5I-5
I-4I-4
coeff.coeff.
11
11
00
0.250.25
11
residuresidu
I-3I-3
I-2I-2
I-1I-1
II
I+1I+1
I+2I+2
I+3I+3
coeff.coeff.
0.750.75
00
0.50.5
11
0.50.5
00
0.750.75
residuresidu
I+4I+4
I+5I+5
I+6I+6
I+7I+7
I+8I+8
coeff.coeff.
11
0.250.25
00
11
11
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
3346 résidus3346 résidus- 316316 positifs positifs- 30303030 négatifs négatifs
Rapport Rapport 1/101/10 : peu idéal : peu idéal
PréparationPréparation
de 3 jeux de 3 jeux
de donnéesde donnéesPARTIEL ‘B’PARTIEL ‘B’ (1200) : 300 positifs + 900 négatifs (1200) : 300 positifs + 900 négatifs
COMPLETCOMPLET (3346) : 316 positifs + 3030 négatifs (3346) : 316 positifs + 3030 négatifs
PARTIEL ‘A’PARTIEL ‘A’ (600) : 300 positifs + 300 négatifs (600) : 300 positifs + 300 négatifs
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
DONNEESDONNEES
Analyse statistique via SASAnalyse statistique via SAS- régression logistiquerégression logistique- Tri des descripteurs (Fischer)Tri des descripteurs (Fischer)- ModélisationModélisation
- Pour chaque peptide, probabilité (0 à 1) Pour chaque peptide, probabilité (0 à 1) d’activité oblique.d’activité oblique.
- Seuil décisionnel ajustable (défaut : 0.5)Seuil décisionnel ajustable (défaut : 0.5)
Fonction logit(x)Fonction logit(x)P = eP = exx /(1+e /(1+exx))
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
Modélisation du jeu totalModélisation du jeu total : :
Critère de Corrélation de Critère de Corrélation de MatthewsMatthews
- Sensitivité extrêmement faible Sensitivité extrêmement faible (à 0.5, le prédicteur rate 92% des sites pour lesquel il a été conçu)
- Coefficient de MatthewsCoefficient de Matthews** de 0.223 au mieux de 0.223 au mieux(modèle pertinent à partir de 0.4)
** Matthews B.W., « Comparison of predicted and observed secondary structure of t4 phage lysozyme », Biochim. Biophys. Acta, 1975, 405, 442-451
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
Modèle du jeu total appliqué aux deux jeux partielsModèle du jeu total appliqué aux deux jeux partiels : :
- Les performances augmentent avec la proportion de positifs dans le jeuLes performances augmentent avec la proportion de positifs dans le jeu- Ces tests sont faits à titre indicatif (peu de données initiales faussent le pouvoir Ces tests sont faits à titre indicatif (peu de données initiales faussent le pouvoir
prédicteur)prédicteur)
PREDICTEUR D’ACTIVITE PREDICTEUR D’ACTIVITE MEMBRANAIREMEMBRANAIRE
II. EN PARALLELE A Z-PROTII. EN PARALLELE A Z-PROT
Modèle réalisé à partir du jeu de 600 résidusModèle réalisé à partir du jeu de 600 résidus : :
- Modèle sensiblement différent du précédent : plus adapté à ce jeu précisModèle sensiblement différent du précédent : plus adapté à ce jeu précis- Performances de l’ordre du modèle précédent appliqué à ce jeu de données tout Performances de l’ordre du modèle précédent appliqué à ce jeu de données tout
en étant meilleuresen étant meilleures
CONCLUSIONSCONCLUSIONS
La base de données relatives aux peptides obliques n’est La base de données relatives aux peptides obliques n’est pas assez vastepas assez vaste pour obtenir une corrélation entre pour obtenir une corrélation entre résultats théoriques et expérimentaux. Une analyse résultats théoriques et expérimentaux. Une analyse totalement automatique totalement automatique n’est pas possible pour l’instantn’est pas possible pour l’instant..
Même s’ils sont insuffisants dans le cadre du service Même s’ils sont insuffisants dans le cadre du service Protein InvestigatorProtein InvestigatorTMTM, les résultats prouvent que la , les résultats prouvent que la méthode employée est appropriée, et l’approche méthode employée est appropriée, et l’approche exploitable.exploitable.