Upload
nicodeme-soulier
View
105
Download
0
Embed Size (px)
Citation preview
Recherche de similarité de séquences à grande
échelleS. Penel, P. Calvat, Y. Cardenas
LBBE, CCIN2P3Calculs “BLAST” intensifs sur la Calculs “BLAST” intensifs sur la
plateforme plateforme TIDRATIDRA - -
TTraitement de données et raitement de données et IInformatique nformatique DDistribuée en istribuée en RRhône-hône-AAlpes.lpes.
Contexte biologiqueContexte biologique
Bases de données dédiées à la phylogénomique
HOVERGEN ( vertébrés), HOGENOM( génome complets), etc.
Principe : pour chaque base de données:Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul d’alignement et d’arbre phylogénétique pour chaque famille
Généralisation Création d’une base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases
Calcul de similarité sur toutes les séquences de protéine :
BLAST de 8,000,000 x 8,000,000 séquences
Technologie grille et Technologie grille et services associésservices associés
RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)
7000 coeurs (cpu)7000 coeurs (cpu) 300 To de stockage300 To de stockage 5 Noeuds5 Noeuds
• LAPP (Annecy)LAPP (Annecy)• LPSC (Grenoble)LPSC (Grenoble)• IPNL (Lyon)IPNL (Lyon)• IBCP (Lyon)IBCP (Lyon)• CC-IN2P3 ( Lyon)CC-IN2P3 ( Lyon)
Technologie grille et Technologie grille et services associésservices associés
RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)
Middleware:Middleware:• Job management : gLite, LRMSJob management : gLite, LRMS• Stockage : iRODS, SRMStockage : iRODS, SRM• Utilisateur : JSAGA Utilisateur : JSAGA
implemtantation SAGAimplemtantation SAGA
vo.rhone-alpes.idgrilles.frvo.rhone-alpes.idgrilles.fr
RessourcesRessources
SE/SRM
SE/SRM
SE/SRM
SE/SRM
CE/WN
CE/WNCE/WNSE/SRM
CE/WN
CE/WN
UI
SE/SRM
WN
WN
WN
SE/SRM
Control et Load balancingControl et Load balancing WMS
SE/SRM
SE/SRM
WN
UI
SE/SRM
WN
WN
WN
SE/SRM
Stokage distribuée et catalogue Stokage distribuée et catalogue
global de Donnéesglobal de Données LFC
SE/SRMSE/SRM
WN
Job
Job
Job
Job
UI
WN
WN
WN
Optimisation de calculOptimisation de calcul Serveur MyProxy
WN
Job
Job
JobJob
Client
WN
WN
WN
Gestion et stokage centralisé avec Gestion et stokage centralisé avec IRODSIRODS
IRODS cluster
WN
Job
Job
JobJob
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégieProgramme BLAST 2.2.17
options standards
Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines
Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA
30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire
Tache unitaire : blast d’un fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences.
Une tache unitaire représente un temps de calcul assez court.
Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégie
1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération d’une nouvelle liste de fichier à traiter 4 - Retour au point 1
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégie
StratégieStratégie1
100
200
300
400
1
100
200
300
400
1
100
200
300
400
première production
1
100
200
300
400
deuxième production
StratégieStratégie Déroulement d’un job numéro N:
Récupération de différents outils via lcg-cp:outils iRODSoutils pour l’estimation du temps de calculoutils pour la gestion des proxy
Renouvellement du proxy Lancement de l’application:
Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle:
Traite le fichier i, copie le résultat via iRODSTant que 95% du temps maximum n’est pas atteint, passe au fichier suivant
Post traitement: envoi de mail, copie des logs via iRODS
Résultats (en cours)Résultats (en cours)
1 200 jobs paramétriques1 200 jobs paramétriques 5 280 millions d’heures S12K5 280 millions d’heures S12K jobs de 20hjobs de 20h Calcul en 1 semaine au lieu de Calcul en 1 semaine au lieu de
8 ans8 ans