Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Introduction à la bioinformatique
Céline Brochier-Armanet
Université Claude Bernard, Lyon 1
Laboratoire de Biométrie et Biologie Evolutive (UMR 5558)
Lectures recommandées
• Bioinformatique – Cours et cas pratiques (Deléage & Gouy 2013) -
Dunod
Qu’est-ce que la Bioinformatique?
• Application des techniques de l’information à la gestion et l’analyse
des données biologiques
• Discipline de la biologie faisant appel à d’autres disciplines
scientifiques (statistiques, mathématiques, physique… informatique)
Bases de
données
Modèles/Méthodes
Logiciels
Expérimentation
biologique
Modélisation
Simulations
Développement
méthodologique
Traitements
bioinformatiques
Analyse
des données
Hypothèses
Les deux grands volets de la
bioinformatique
• Représentation, stockage, distribution des données
format de données, schéma des bases de données, outils d’interrogation, interfaces…
• Analyse des données collectées: Utilisation de l’information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le ‘fonctionnement d’un organisme’ à partir de l’information contenue dans son génome
Recherche de fonction de gènes par comparaison de séquences
Décomposition de structures 3D pour comprendre comment les protéines se replient
Modélisation des interactions entre molécules…
…
Recherche d’informations
• Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile…
• Moteurs de recherche pour les bases de données publiques : entrez, SRS…
• Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d’opérateurs logiques
– AND (et), OR (ou), NOT (sauf)
• Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches
– Utilisation de ( ) pour des requêtes plus complexes
• ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4
– Utilisation de « » ex. « structure protéique »
Systèmes d’interrogation des bases de
données publiques
• Chaque banque de séquences possède son propre
système d’interrogation: SRS, ENTREZ, ACNUC,
DBGET
• Chaque système utilise une syntaxe particulière pour les
requêtes
– Étiquettes
– Connecteurs logiques
– Caractères de substitution…
Consultez Les Notices Explicatives
NCBI : National Center for Biotechnology
Information
Organisation du NCBI
ENTREZ : Recherche d’information au NCBI
ENTREZ : Recherche générale
• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)
ENTREZ : Exemple d’application
• Recherchez tous les articles scientifiques traitant de
potentiel électrostatique pour des molécules protéiques
en ne ciblant que les références de deux auteurs: Barry
Honig et Andrew McCammon
ENTREZ: Choix de la base de données
• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
=> 0 résultat
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
=> 0 résultat
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
Interprétation de la recherche
Une bonne recherche
Limitation de la recherche
Historique des recherches
Pôle BioInformatique Lyonnais
Pôle BioInformatique Lyonnais
Pôle BioInformatique Lyonnais
Banques/bases de données majeures en
biologie
• Hors série annuel de la
revue NAR (Nucleic
Acid Research
http://nar.oxfordjournal
s.org/)
Recense l’actualité
relative aux bases /
banques de données
(créations, mises à
jour, etc.)
http://nar.oxfordjournals.org/
Banques/bases de données
majeures en biologie
Sujet Source
Bibliographie PubMed
Séquences nucléiques Genbank (NCBI), EMBL (EBI),
refSEQ
Banques de génomes Entrez Génome (NCBI), TIGR
Séquences protéiques Swiss-prot, Genpep, Trembl, PIR,
refSEQ
Structures protéiques Protein Data Base (PDB)
Modifications post-traductionnelles RESID
Information biochimique et biophysique ENZYME, BIND
Voies métaboliques KEGG, PathDB, WIT
Microarray Gene Expression Links
2D-page SWISS-2DPAGE
Séquences biologiques
• La séquence est l’élément central autour duquel la plupart
des banques de données sont organisées
• Elles ont été compilées très tôt dans des banques de
données– 1965 : Margaret Dayhoff publie l’Atlas of Protein Sequences qui contient 50
entrées
– 1978 : Dernière impression de l’Atlas of Protein Sequences
– Après 1978 : disponibles sous forme électronique
Banques de séquences
généralistes spécialisées
• Banques de données généralistes : correspondent à une collecte
des données la plus exhaustive possible et offrent un ensemble
hétérogène d’informations
• Banques ou bases de données spécialistes : correspondent à des
données plus homogènes établies autour d’une thématique et qui
offrent une valeur ajoutée à partir d’une technique particulière ou
d’un intérêt suscité par un groupe d’individus
Banques de séquences généralistes
• Très riches
– Grand nombre de séquences accessibles
– Grande diversité des organismes représentés
• Peu/pas de contrôles sur la qualité des entrées
– Les auteurs sont responsables des entrées !
Nombreux Problèmes/Erreurs
• Qualité des informations non homogènes Variabilité des connaissances sur les séquences, de la minutie des auteurs.
• Erreurs dans les séquences (contaminations, séquençage, méthodologie).
• Biais d’échantillonnage taxonomique, des types de séquences, forte redondance.
Banques généralistes de séquences
nucléotidiques
• EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l’European MolecularBiology Organisation, diffusée par l’EBI
• Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI)
• DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics)
• Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes
« The DDBJ/EMBL/Genbank Feature Table Definition »
European Nucleotide Archive / European
Molecular Biology Lab
UniProt : Universal Protein Resource
Recherche d’une séquence dans Swiss-Prot
• Recherchez la séquence ayant comme identifiant P04118 dans la
banque Swiss-Prot
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Exemple d’entrée Swiss-Prot
Banques protéiques spécialisées
• Motifs
• Alignements
• Classification structurale
• Familles de protéines
• Interaction
• Enzymes
• Modifications protéiques post-traductionnelles
• Pathologies
• Gels bidimensionnels
• Bases protéiques sur l’interaction et la thermodynamique des
protéines
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Interpro: protein sequence analysis & classification
Interpro: objectifs
Interpro: version 46.0
Familles Domaines SitesRepeats
Interpro: consortium
Interpro: construction
ProtBD
ProtBD
ProtBD
Interpro: contenu
Interpro: entrées
Interpro: informations annexes
Interpro: organisation hiérarchique des familles
Interpro: interrogation
Protéine déjà incluse dans interpro => réponse rapide
Protéine non incluse dans interpro => recherche de signatures avec interproscan
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Ensembl : Base de données de génomes
complets de vertébrés (et autres eucaryotes)
Ensembl : L’exemple de la colipase humaine
Ensembl : l’exemple de la colipase humaine
Ensembl : Le gène de la colipase humaine
Ensembl : Transcrits & vairants de la
colipase humaine
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Quelle est sa distribution taxonomique?
Homologues de la colipase humaine
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-ilde transcrits connus?
• A-t-elle des homologues connus?
Quelle est sa distribution taxonomique?
Homologie ou similarité ?
• Deux séquences sont dites
homologues si elles possèdent
un ancêtre commun
• L’existence d’un ancêtre
commun est inférée (dans la
majorité des cas) à partir de la
similarité partagée par les
séquences
ATTENTION: Homologie Similarité
• L’homologie n’est pas quantifiable
– On est pas à 50% ou à 75% homologue
– On est homologue ou on ne l’est pas
Raisonnement binaire
• La similarité est quantifiable
– On peut dire de deux séquences qu’elles sont similaires à 50%
ou 75%
Séquences biologiques : Homologie ou
similarité ?
• Deux séquences sont dites homologues si elles possèdent un ancêtre commun
• L’existence d’un ancêtre commun est inférée à partir de la similarité
• Seuil pour les protéines :30 % d’identité sur une longueur de 100 AA homologie entre les séquences
©Guy Perrière
Similarité sans homologie (1)
• La similarité n’est pas toujours due à de l’homologie
– Convergence ou simple hasard pour de courtes séquences
(quelques résidus)
Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%)
Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60
[Bos taurus]
EI+ H +YTC CGK+ +++R + + CGSC
SprT family protein
[Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138
©Guy Perrière
Similarité sans homologie (2)
• Existence de régions de faible complexité (régions riches en quelques aa.,
cas de la fibroïne [GSGAGA]n) :
• Présentes dans 40 % des protéines.
• Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,
Ser, Glu et Gln).
>gi|8572061|gb|AAF76983.1|AF226688_1 fibroin heavy chain Fib-H [Bombyx mori]
MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV
EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG
AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA
GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG
AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA
GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG
PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA
… 25 LIGNES
AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG
AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP
AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY
GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG
SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG
PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR
RNVRKNCGIPRRQLVVKFRALPCVNC
©Guy Perrière
Homologie sans similarité
• Globine alpha humaine vs myoglobine humaine
Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%)
Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54
M LS + V WGKV A +G E L R+F P T F F D S
Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60
Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114
+K HG V AL + + L+ HA K ++ + +S C++ L +
Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120
Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142
P +F +++ K L + S Y+
Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148
Homologie: Orthologie
• Définition «gènes présents dans des organismes différents, ayant évolué à partir d’un même gène ancestral suite à des événements de spéciation»
=> La fonction est souventconservée au cours de l’évolution des orthologues
Homologie : Paralogie
• Définition « gènes issus
d’événements de duplication
au sein d’un génome»
=> La fonction d’un ou des
paralogues peut changer au
cours de l’évolution
(spécialisation, nouvelle
fonction)
Homologie : Xénologie
• Définition « gènes ayant été acquis par transfert horizontal »
Ancêtre
tem
ps
Evolution
spéciation
Oiseaux Mammifères
Poulet Homme
Evolution
@Daniel Gauteret
Evolution d’un gène au cours de l’évolution
Apparition de nouveaux gènes par
duplication
Ancêtre
tem
ps
Duplication
Evolution
Spéciation
Oiseaux Mammifères
Poulet Homme
Evolution
@Daniel Gauteret
???
Poulet Homme
???
@Daniel Gauteret
Application
Recherche d’homologues dans les banques
de séquences
• Recherche par similarité de séquence
Comparaison d’une séquence d’intérêt à chaque séquence contenue dans la base de données
BLAST
• Recherche à l’aide de profils
Construction d’un profil par comparaison de séquences homologues
Comparaison du profil à chaque séquence de la base de données
HMMer, PSI-BLAST
Séquence banque
Séquence requête
Longueur du mot = w
Score ≥ T
Mot
Extension du
segment similaire
Séquence banque
Séquence requête
HSP : High Scoring Pair
Score
Extension du segment
Extension stoppée quand :
- la fin d’une des deux séquences est atteinte
- score ≤ 0
- score ≤ score_max - xT
Score max.
x
BLAST : principe général
©Guy Perrière
S L A A L L N K C K T P Q G Q R L V N Q W
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P H G 13
P M G 13
P S G 13
P Q A 12
P Q N 12
...
Liste
de mots
voisins
Score seuil T = 13
Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345
+ L A + + L + T P G R + + + W
Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310
(P, P) = 7
(Q, R) = 1
(G, G) = 6x
T
Exemple
©Guy Perrière
Versions de BLAST
• blastp : protéine vs.protéine.
• blastn : utile pour le non-codant.
• blastx : séquences co-dantes non identifiées.
• tblastn : homologues dans un génome non complètement annoté.
Nucléique
Protéique
Nucléique
Protéiqueblastp
blastnT
Banque
tblastxT
T
Séquence
©Guy Perrière
Évaluation statistique
©Guy Perrière
• Similarités détectées :
– Relations significatives.
– Similarités dues au hasard.
• Fonction de score :
– Mesure sous la forme :
• D’une espérance mathématique (E-value).
• Valeur en bits.
– Basée sur une distribution calculée à partir séquences non homologues.
– Les scores dépendent de la taille de la banque.
E-value, bits et similarité
• Soit E, l’espérance mathématique d’avoir une similarité ≥ au score S observé :
E = Kmn e–S
Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente.
• Le score en bits S' est donné par :
S' = [S – log(K)] / log(2)
• La relation entre E et S' est donc donnée par :
E = mn 2–S'
©Guy Perrière
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)
Recherche par Blast au NCBI
Choix des paramètres
Choix des paramètres
Choix des paramètres avancés
Résultats du BLAST : Entête
Résultats du BLAST : Reformater les
résultats
Résultats du BLAST : Domaines conservés
Résultats du BLAST : Vue graphique
Résultats du BLAST : Descriptions
Résultats du BLAST : Alignements locaux
Résultats du BLAST : Alignements locaux
Taxonomy report
Recherche par profil
• Refaire l’analyse en utilisant PSI-BLAST (NCBI)
• Refaire l’analyse en utilisant HMMER (http://hmmer.org/)
HMMer
HMMer
HMMer
HMMer
HMMer
HMMer
HMMer
Construction d’une phylogénie des
homologues de la colipase humaine
• Logiciel SeaView
• Ouvrir le fichier
Construction d’une phylogénie des
homologues de la colipase humaine
• Aligner les séquences avec Clustal0
• Éliminer les séquences partielles et les transcrits alternatifs
• Nettoyer l’alignement
• Reconstruire une phylogénie par la méthode du Maximum de Vraisemblance