109
Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie Evolutive (UMR 5558) [email protected]

Introduction à la bioinformatique · 2016. 3. 21. · Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Introduction à la bioinformatique

    Céline Brochier-Armanet

    Université Claude Bernard, Lyon 1

    Laboratoire de Biométrie et Biologie Evolutive (UMR 5558)

    [email protected]

  • Lectures recommandées

    • Bioinformatique – Cours et cas pratiques (Deléage & Gouy 2013) -

    Dunod

  • Qu’est-ce que la Bioinformatique?

    • Application des techniques de l’information à la gestion et l’analyse

    des données biologiques

    • Discipline de la biologie faisant appel à d’autres disciplines

    scientifiques (statistiques, mathématiques, physique… informatique)

    Bases de

    données

    Modèles/Méthodes

    Logiciels

    Expérimentation

    biologique

    Modélisation

    Simulations

    Développement

    méthodologique

    Traitements

    bioinformatiques

    Analyse

    des données

    Hypothèses

  • Les deux grands volets de la

    bioinformatique

    • Représentation, stockage, distribution des données

    format de données, schéma des bases de données, outils d’interrogation, interfaces…

    • Analyse des données collectées: Utilisation de l’information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le ‘fonctionnement d’un organisme’ à partir de l’information contenue dans son génome

    Recherche de fonction de gènes par comparaison de séquences

    Décomposition de structures 3D pour comprendre comment les protéines se replient

    Modélisation des interactions entre molécules…

  • Recherche d’informations

    • Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile…

    • Moteurs de recherche pour les bases de données publiques : entrez, SRS…

    • Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d’opérateurs logiques

    – AND (et), OR (ou), NOT (sauf)

    • Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches

    – Utilisation de ( ) pour des requêtes plus complexes

    • ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4

    – Utilisation de « » ex. « structure protéique »

  • Systèmes d’interrogation des bases de

    données publiques

    • Chaque banque de séquences possède son propre

    système d’interrogation: SRS, ENTREZ, ACNUC,

    DBGET

    • Chaque système utilise une syntaxe particulière pour les

    requêtes

    – Étiquettes

    – Connecteurs logiques

    – Caractères de substitution…

    Consultez Les Notices Explicatives

  • NCBI : National Center for Biotechnology

    Information

  • Organisation du NCBI

  • ENTREZ : Recherche d’information au NCBI

  • ENTREZ : Recherche générale

    • Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)

  • ENTREZ : Exemple d’application

    • Recherchez tous les articles scientifiques traitant de

    potentiel électrostatique pour des molécules protéiques

    en ne ciblant que les références de deux auteurs: Barry

    Honig et Andrew McCammon

  • ENTREZ: Choix de la base de données

    • Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)

  • ENTREZ: Saisie des mots clés

    Recherche des articles scientifiques traitant de potentiel électrostatique

    pour des molécules protéiques en ne ciblant que les références de deux

    auteurs: Barry Honig et Andrew McCammon

    => 0 résultat

  • ENTREZ: Saisie des mots clés

    Recherche des articles scientifiques traitant de potentiel électrostatique

    pour des molécules protéiques en ne ciblant que les références de deux

    auteurs: Barry Honig et Andrew McCammon

    => 0 résultat

  • ENTREZ: Saisie des mots clés

    Recherche des articles scientifiques traitant de potentiel électrostatique

    pour des molécules protéiques en ne ciblant que les références de deux

    auteurs: Barry Honig et Andrew McCammon

  • Interprétation de la recherche

  • Une bonne recherche

  • Limitation de la recherche

  • Historique des recherches

  • Pôle BioInformatique Lyonnais

  • Pôle BioInformatique Lyonnais

  • Pôle BioInformatique Lyonnais

  • Banques/bases de données majeures en

    biologie

    • Hors série annuel de la

    revue NAR (Nucleic

    Acid Research

    http://nar.oxfordjournal

    s.org/)

    Recense l’actualité

    relative aux bases /

    banques de données

    (créations, mises à

    jour, etc.)

    http://nar.oxfordjournals.org/

  • Banques/bases de données

    majeures en biologie

    Sujet Source

    Bibliographie PubMed

    Séquences nucléiques Genbank (NCBI), EMBL (EBI),

    refSEQ

    Banques de génomes Entrez Génome (NCBI), TIGR

    Séquences protéiques Swiss-prot, Genpep, Trembl, PIR,

    refSEQ

    Structures protéiques Protein Data Base (PDB)

    Modifications post-traductionnelles RESID

    Information biochimique et biophysique ENZYME, BIND

    Voies métaboliques KEGG, PathDB, WIT

    Microarray Gene Expression Links

    2D-page SWISS-2DPAGE

  • Séquences biologiques

    • La séquence est l’élément central autour duquel la plupart

    des banques de données sont organisées

    • Elles ont été compilées très tôt dans des banques de

    données– 1965 : Margaret Dayhoff publie l’Atlas of Protein Sequences qui contient 50

    entrées

    – 1978 : Dernière impression de l’Atlas of Protein Sequences

    – Après 1978 : disponibles sous forme électronique

  • Banques de séquences

    généralistes spécialisées

    • Banques de données généralistes : correspondent à une collecte

    des données la plus exhaustive possible et offrent un ensemble

    hétérogène d’informations

    • Banques ou bases de données spécialistes : correspondent à des

    données plus homogènes établies autour d’une thématique et qui

    offrent une valeur ajoutée à partir d’une technique particulière ou

    d’un intérêt suscité par un groupe d’individus

  • Banques de séquences généralistes

    • Très riches

    – Grand nombre de séquences accessibles

    – Grande diversité des organismes représentés

    • Peu/pas de contrôles sur la qualité des entrées

    – Les auteurs sont responsables des entrées !

    Nombreux Problèmes/Erreurs

    • Qualité des informations non homogènes Variabilité des connaissances sur les séquences, de la minutie des auteurs.

    • Erreurs dans les séquences (contaminations, séquençage, méthodologie).

    • Biais d’échantillonnage taxonomique, des types de séquences, forte redondance.

  • Banques généralistes de séquences

    nucléotidiques

    • EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l’European MolecularBiology Organisation, diffusée par l’EBI

    • Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI)

    • DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics)

    • Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes

    « The DDBJ/EMBL/Genbank Feature Table Definition »

  • European Nucleotide Archive / European

    Molecular Biology Lab

  • UniProt : Universal Protein Resource

  • Recherche d’une séquence dans Swiss-Prot

    • Recherchez la séquence ayant comme identifiant P04118 dans la

    banque Swiss-Prot

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Contient-elle des domaines fonctionnels?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Exemple d’entrée Swiss-Prot

  • Banques protéiques spécialisées

    • Motifs

    • Alignements

    • Classification structurale

    • Familles de protéines

    • Interaction

    • Enzymes

    • Modifications protéiques post-traductionnelles

    • Pathologies

    • Gels bidimensionnels

    • Bases protéiques sur l’interaction et la thermodynamique des

    protéines

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Contient-elle des domaines fonctionnels?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

  • Interpro: protein sequence analysis & classification

  • Interpro: objectifs

  • Interpro: version 46.0

    Familles Domaines SitesRepeats

  • Interpro: consortium

  • Interpro: construction

    ProtBD

    ProtBD

    ProtBD

  • Interpro: contenu

  • Interpro: entrées

  • Interpro: informations annexes

  • Interpro: organisation hiérarchique des familles

  • Interpro: interrogation

    Protéine déjà incluse dans interpro => réponse rapide

    Protéine non incluse dans interpro => recherche de signatures avec interproscan

  • Interpro: exemple interrogation

  • Interpro: exemple interrogation

  • Interpro: exemple interrogation

  • Interpro: exemple interrogation

  • Interpro: exemple interrogation

  • Interpro: exemple interrogation

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Contient-elle des domaines fonctionnels?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Contient-elle des domaines fonctionnels?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

  • Ensembl : Base de données de génomes

    complets de vertébrés (et autres eucaryotes)

  • Ensembl : L’exemple de la colipase humaine

  • Ensembl : l’exemple de la colipase humaine

  • Ensembl : Le gène de la colipase humaine

  • Ensembl : Transcrits & vairants de la

    colipase humaine

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

    Quelle est sa distribution taxonomique?

  • Homologues de la colipase humaine

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Contient-elle des domaines fonctionnels?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-ilde transcrits connus?

    • A-t-elle des homologues connus?

    Quelle est sa distribution taxonomique?

  • Homologie ou similarité ?

    • Deux séquences sont dites

    homologues si elles possèdent

    un ancêtre commun

    • L’existence d’un ancêtre

    commun est inférée (dans la

    majorité des cas) à partir de la

    similarité partagée par les

    séquences

  • ATTENTION: Homologie Similarité

    • L’homologie n’est pas quantifiable

    – On est pas à 50% ou à 75% homologue

    – On est homologue ou on ne l’est pas

    Raisonnement binaire

    • La similarité est quantifiable

    – On peut dire de deux séquences qu’elles sont similaires à 50%

    ou 75%

  • Séquences biologiques : Homologie ou

    similarité ?

    • Deux séquences sont dites homologues si elles possèdent un ancêtre commun

    • L’existence d’un ancêtre commun est inférée à partir de la similarité

    • Seuil pour les protéines :30 % d’identité sur une longueur de 100 AA homologie entre les séquences

    ©Guy Perrière

  • Similarité sans homologie (1)

    • La similarité n’est pas toujours due à de l’homologie

    – Convergence ou simple hasard pour de courtes séquences

    (quelques résidus)

    Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%)

    Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60

    [Bos taurus]

    EI+ H +YTC CGK+ +++R + + CGSC

    SprT family protein

    [Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138

    ©Guy Perrière

  • Similarité sans homologie (2)

    • Existence de régions de faible complexité (régions riches en quelques aa.,

    cas de la fibroïne [GSGAGA]n) :

    • Présentes dans 40 % des protéines.

    • Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,

    Ser, Glu et Gln).

    >gi|8572061|gb|AAF76983.1|AF226688_1 fibroin heavy chain Fib-H [Bombyx mori]

    MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV

    EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG

    AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA

    GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG

    AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA

    GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG

    SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG

    PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG

    SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA

    … 25 LIGNES

    AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG

    AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP

    AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY

    GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG

    SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG

    PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR

    RNVRKNCGIPRRQLVVKFRALPCVNC

    ©Guy Perrière

  • Homologie sans similarité

    • Globine alpha humaine vs myoglobine humaine

    Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%)

    Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54

    M LS + V WGKV A +G E L R+F P T F F D S

    Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60

    Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114

    +K HG V AL + + L+ HA K ++ + +S C++ L +

    Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120

    Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142

    P +F +++ K L + S Y+

    Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148

  • Homologie: Orthologie

    • Définition «gènes présents dans des organismes différents, ayant évolué à partir d’un même gène ancestral suite à des événements de spéciation»

    => La fonction est souventconservée au cours de l’évolution des orthologues

  • Homologie : Paralogie

    • Définition « gènes issus

    d’événements de duplication

    au sein d’un génome»

    => La fonction d’un ou des

    paralogues peut changer au

    cours de l’évolution

    (spécialisation, nouvelle

    fonction)

  • Homologie : Xénologie

    • Définition « gènes ayant été acquis par transfert horizontal »

  • Ancêtre

    tem

    ps

    Evolution

    spéciation

    Oiseaux Mammifères

    Poulet Homme

    Evolution

    @Daniel Gauteret

    Evolution d’un gène au cours de l’évolution

  • Apparition de nouveaux gènes par

    duplication

    Ancêtre

    tem

    ps

    Duplication

    Evolution

    Spéciation

    Oiseaux Mammifères

    Poulet Homme

    Evolution

    @Daniel Gauteret

  • ???

    Poulet Homme

    ???

    @Daniel Gauteret

    Application

  • Recherche d’homologues dans les banques

    de séquences

    • Recherche par similarité de séquence

    Comparaison d’une séquence d’intérêt à chaque séquence contenue dans la base de données

    BLAST

    • Recherche à l’aide de profils

    Construction d’un profil par comparaison de séquences homologues

    Comparaison du profil à chaque séquence de la base de données

    HMMer, PSI-BLAST

  • Séquence banque

    Séquence requête

    Longueur du mot = w

    Score ≥ T

    Mot

    Extension du

    segment similaire

    Séquence banque

    Séquence requête

    HSP : High Scoring Pair

    Score

    Extension du segment

    Extension stoppée quand :

    - la fin d’une des deux séquences est atteinte

    - score ≤ 0

    - score ≤ score_max - xT

    Score max.

    x

    BLAST : principe général

    ©Guy Perrière

  • S L A A L L N K C K T P Q G Q R L V N Q W

    P Q G 18

    P E G 15

    P R G 14

    P K G 14

    P N G 13

    P D G 13

    P H G 13

    P M G 13

    P S G 13

    P Q A 12

    P Q N 12

    ...

    Liste

    de mots

    voisins

    Score seuil T = 13

    Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345

    + L A + + L + T P G R + + + W

    Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

    (P, P) = 7

    (Q, R) = 1

    (G, G) = 6x

    T

    Exemple

    ©Guy Perrière

  • Versions de BLAST

    • blastp : protéine vs.protéine.

    • blastn : utile pour le non-codant.

    • blastx : séquences co-dantes non identifiées.

    • tblastn : homologues dans un génome non complètement annoté.

    Nucléique

    Protéique

    Nucléique

    Protéiqueblastp

    blastnT

    Banque

    tblastxT

    T

    Séquence

    ©Guy Perrière

  • Évaluation statistique

    ©Guy Perrière

    • Similarités détectées :

    – Relations significatives.

    – Similarités dues au hasard.

    • Fonction de score :

    – Mesure sous la forme :

    • D’une espérance mathématique (E-value).

    • Valeur en bits.

    – Basée sur une distribution calculée à partir séquences non homologues.

    – Les scores dépendent de la taille de la banque.

  • E-value, bits et similarité

    • Soit E, l’espérance mathématique d’avoir une similarité ≥ au score S observé :

    E = Kmn e–S

    Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente.

    • Le score en bits S' est donné par :

    S' = [S – log(K)] / log(2)

    • La relation entre E et S' est donc donnée par :

    E = mn 2–S'

    ©Guy Perrière

  • Informations relatives à séquence P04118

    • Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

    • De quel organisme provient-elle? Quelle est sa taille?

    • Quand a-t-elle été déposée dans la banque de séquences?

    • Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

    • Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

    • A-t-elle des homologues connus?

    Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)

  • Recherche par Blast au NCBI

  • Choix des paramètres

  • Choix des paramètres

  • Choix des paramètres avancés

  • Résultats du BLAST : Entête

  • Résultats du BLAST : Reformater les

    résultats

  • Résultats du BLAST : Domaines conservés

  • Résultats du BLAST : Vue graphique

  • Résultats du BLAST : Descriptions

  • Résultats du BLAST : Alignements locaux

  • Résultats du BLAST : Alignements locaux

  • Taxonomy report

  • Recherche par profil

    • Refaire l’analyse en utilisant PSI-BLAST (NCBI)

    • Refaire l’analyse en utilisant HMMER (http://hmmer.org/)

  • HMMer

  • HMMer

  • HMMer

  • HMMer

  • HMMer

  • HMMer

  • HMMer

  • Construction d’une phylogénie des

    homologues de la colipase humaine

    • Logiciel SeaView

    • Ouvrir le fichier

  • Construction d’une phylogénie des

    homologues de la colipase humaine

    • Aligner les séquences avec Clustal0

    • Éliminer les séquences partielles et les transcrits alternatifs

    • Nettoyer l’alignement

    • Reconstruire une phylogénie par la méthode du Maximum de Vraisemblance