Identifikation af potentielle microRNA gener ved hj¦lp af komparativ

  • View
    223

  • Download
    3

Embed Size (px)

Text of Identifikation af potentielle microRNA gener ved hj¦lp af komparativ

  • Identifikation af potentielle microRNA gener

    ved hjlp af komparativ genomanalyse

    Per Tfting

    11. juli 2008

    Speciale i softwarekonstruktion

    IT-Vest

    Aarhus Universitet

  • INDHOLD i

    Indhold

    1 Indledning 1

    1.1 Forml . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Specialets opbygning . . . . . . . . . . . . . . . . . . . . . . . 11.3 Hjemmeside for specialet . . . . . . . . . . . . . . . . . . . . . 2

    2 Biologien 3

    2.1 Genomet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Protein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5 DNA replikationen . . . . . . . . . . . . . . . . . . . . . . . . 92.6 Gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.7 Gen ekspression . . . . . . . . . . . . . . . . . . . . . . . . . . 102.8 Funktionelle RNAer . . . . . . . . . . . . . . . . . . . . . . . 112.9 Evolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    3 microRNA 16

    3.1 Opdagelsen af miRNAer . . . . . . . . . . . . . . . . . . . . . 163.2 miRNA genstruktur . . . . . . . . . . . . . . . . . . . . . . . 173.3 miRNA biogenese og funktion . . . . . . . . . . . . . . . . . . 193.4 miRNA identifikation . . . . . . . . . . . . . . . . . . . . . . . 21

    4 Strategien 24

    4.1 Komparativ genomanalyse . . . . . . . . . . . . . . . . . . . . 244.2 Strategien til identifikation af miRNA gener . . . . . . . . . . 254.3 Inputdatasttet . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 miRNAer er konserverede mellem beslgtede arter . . . . . . 27

    4.4.1 Parvis alignment . . . . . . . . . . . . . . . . . . . . . 274.4.2 Dynamisk programmerings algoritmer . . . . . . . . . 294.4.3 Heuristiske algoritmer . . . . . . . . . . . . . . . . . . 304.4.4 Valg af heuristisk lokal alignmentprogram . . . . . . . 314.4.5 BLAT alignments . . . . . . . . . . . . . . . . . . . . . 32

    4.5 Pre-miRNAer danner stabile stem-loop strukturer . . . . . . . 324.5.1 RNA strukturer . . . . . . . . . . . . . . . . . . . . . . 334.5.2 RNA sekundre struktur . . . . . . . . . . . . . . . . 334.5.3 RNA stabilitet . . . . . . . . . . . . . . . . . . . . . . 354.5.4 Bestemmelse af RNA-molekylers sekundre struktur . 364.5.5 RNA-foldnings programmernes njagtighed . . . . . . 374.5.6 Valg af RNA foldnings program . . . . . . . . . . . . . 384.5.7 Sekvens klassifikation . . . . . . . . . . . . . . . . . . . 404.5.8 Multiple alignment . . . . . . . . . . . . . . . . . . . . 41

    4.6 Identifikation af potentielle miRNA gener . . . . . . . . . . . 42

  • INDHOLD ii

    4.7 Support Vektor Maskine . . . . . . . . . . . . . . . . . . . . . 44

    5 Pipelinen 46

    5.1 Forbehandling . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1.1 Download af DNA-sekvenser . . . . . . . . . . . . . . . 475.1.2 Reformatering af FASTA-filer . . . . . . . . . . . . . . 505.1.3 Maskering af DNA-sekvenserne . . . . . . . . . . . . . 525.1.4 Opdeling af lange DNA-sekvenser i kortere sekvenser . 535.1.5 Registrering af DNA-sekvensernes start positioner . . 535.1.6 Valg af scaffolds . . . . . . . . . . . . . . . . . . . . . 53

    5.2 Konserverede DNA-sekvenser . . . . . . . . . . . . . . . . . . 545.2.1 Frste alignment . . . . . . . . . . . . . . . . . . . . . 545.2.2 Resultatet fra frste alignment placeres i database . . 565.2.3 Generering af FASTA-fil . . . . . . . . . . . . . . . . . 575.2.4 Anden alignment . . . . . . . . . . . . . . . . . . . . . 575.2.5 Alignment resultaterne samles og placeres i database . 58

    5.3 Identifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.3.1 Generer DNA-sekvens filer . . . . . . . . . . . . . . . . 615.3.2 Multiple alignment . . . . . . . . . . . . . . . . . . . . 615.3.3 Konverter til ClustalW-format . . . . . . . . . . . . . 615.3.4 ncRNA klassificering . . . . . . . . . . . . . . . . . . . 615.3.5 Identificer potentielle miRNA gener . . . . . . . . . . . 625.3.6 Identifikations resultaterne placeres i database . . . . . 62

    6 Programmerne 63

    6.1 Eksisterende programmer . . . . . . . . . . . . . . . . . . . . 636.2 Nyudviklede programmer . . . . . . . . . . . . . . . . . . . . 63

    6.2.1 Biblioteksmodulerne . . . . . . . . . . . . . . . . . . . 646.3 Pipelineprogrammerne . . . . . . . . . . . . . . . . . . . . . . 64

    6.3.1 Forbehandling . . . . . . . . . . . . . . . . . . . . . . . 656.3.2 Konserverede DNA-sekvenser . . . . . . . . . . . . . . 696.3.3 Identifikation . . . . . . . . . . . . . . . . . . . . . . . 71

    6.4 Hjlpeprogrammer . . . . . . . . . . . . . . . . . . . . . . . . 73

    7 Test 74

    7.1 Valg af testmateriale . . . . . . . . . . . . . . . . . . . . . . . 747.1.1 Valg af arter . . . . . . . . . . . . . . . . . . . . . . . 747.1.2 Valg af kromosomer . . . . . . . . . . . . . . . . . . . 787.1.3 Programmer til valg af testmateriale . . . . . . . . . . 82

    7.2 Test af pipelinen . . . . . . . . . . . . . . . . . . . . . . . . . 857.2.1 Test af BLAT, RNAz og RNAmicro . . . . . . . . . . 917.2.2 Gennemfrsel af testen . . . . . . . . . . . . . . . . . . 937.2.3 Pipelineresultatet . . . . . . . . . . . . . . . . . . . . . 967.2.4 Analyse af pipelineresultatet . . . . . . . . . . . . . . . 102

  • INDHOLD iii

    7.2.5 Nye miRNAer og miRBase release 11.0 . . . . . . . . . 1047.2.6 Potentielle miRNA gener eller falske . . . . . . . . . . 1067.2.7 Programmer til analyse af pipeline . . . . . . . . . . . 108

    8 Konklusion 112

    8.1 Forbedringer til pipelinen . . . . . . . . . . . . . . . . . . . . 113

    A Fil formater 114

    A.1 FASTA-format . . . . . . . . . . . . . . . . . . . . . . . . . . 114A.2 axt-format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114A.3 Clustal-format . . . . . . . . . . . . . . . . . . . . . . . . . . 115

    Litteratur 117

  • FIGURER iv

    Figurer

    1 Et kromosom . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Genomets elementer . . . . . . . . . . . . . . . . . . . . . . . 53 DNA-molekylets struktur . . . . . . . . . . . . . . . . . . . . 64 DNA-molekylets baserpar . . . . . . . . . . . . . . . . . . . . 75 Strukturelle forskelle mellem RNA og DNA . . . . . . . . . . 76 Protein struktur . . . . . . . . . . . . . . . . . . . . . . . . . 87 DNA replikationen . . . . . . . . . . . . . . . . . . . . . . . . 98 Protein syntese . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Gen informations flowet . . . . . . . . . . . . . . . . . . . . . 1310 Mutationstyper . . . . . . . . . . . . . . . . . . . . . . . . . . 1511 Lin-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1712 Pri-miRNA strukturer . . . . . . . . . . . . . . . . . . . . . . 1813 miRNA biogenesis . . . . . . . . . . . . . . . . . . . . . . . . 2014 Pre-miRNA stem-loop strukturer . . . . . . . . . . . . . . . . 2215 Evolution af funktionelle regioner . . . . . . . . . . . . . . . . 2416 Konserverings profil for miRNA gener . . . . . . . . . . . . . 2517 Global- og lokal alignment . . . . . . . . . . . . . . . . . . . . 2818 BLAT 2 perfekt match . . . . . . . . . . . . . . . . . . . . . . 3119 RNA pseudeknot . . . . . . . . . . . . . . . . . . . . . . . . . 3420 RNA sekundre strukturer . . . . . . . . . . . . . . . . . . . 3521 Nearest-neighbor modellen . . . . . . . . . . . . . . . . . . . . 3622 Eksperimentel og mfold foldning af pre-miRNAer . . . . . . . 3923 LAGAN algoritmen . . . . . . . . . . . . . . . . . . . . . . . . 4224 Support Vektor Maskine . . . . . . . . . . . . . . . . . . . . . 4525 Forbehandlings pipeline . . . . . . . . . . . . . . . . . . . . . 4826 Forbehandlings pipeline Scaffolds . . . . . . . . . . . . . . . 4927 Konserverede DNA-sekvenser pipelinen . . . . . . . . . . . . . 5528 De to parvise alignments og den efterflgende korrektion . . . 5829 Identifikations pipelinen . . . . . . . . . . . . . . . . . . . . . 6030 Antal miRNAer hos hvirveldyr . . . . . . . . . . . . . . . . . 7531 Sammenligning af lngder menneske og zebrafisk . . . . . . . 7732 Sammenligning af lngder menneske og rotte . . . . . . . . . 77

  • TABELLER v

    Tabeller

    1 Den genetiske kodetabel . . . . . . . . . . . . . . . . . . . . . 112 Eksisterende programmer . . . . . . . . . . . . . . . . . . . . 633 Databasetabellen scaffolds . . . . . . . . . . . . . . . . . . . . 674 Databasetabellen axtInformation . . . . . . . . . . . . . . . . 705 Databasetabellen tripleInformation . . . . . . . . . . . . . . . 716 Databasetabellen RNAmicroInformation . . . . . . . . . . . . 737 miRNAer menneske . . . . . . . . . . . . . . . . . . . . . . . . 798 miRNAer musen . . . . . . . . . . . . . . . . . . . . . . . . . 809 miRNAer rotten . . . . . . . . . . . . . . . . . . . . . . . . . 8110 Antal flles miRNA familier . . . . . . . . . . . . . . . . . . . 8211 Samlet antal miRNA . . . . . . . . . . . . . . . . . . . . . . . 8212 Databasetabellen chromosomeLength . . . . . . . . . . . . . . 8313 countCommonmiRNAfamilies.pys databasetabelstruktur . . . 8414 DNA-sekvens omrderne for testmaterialet . . . . . . . . . . . 8615 De tre valgte arter . . . . . . . . . . . . . . . . . . . . . . . . 8616 Oversigt over miRNA generne i testen . . . . . . . . . . . . . 8717 Sammenligning af maskeret og ikke maskeret test . . . . . . . 9518 Resultaterne af pipelinetesten detaljeret . . . . . . . . . . . 9719 Samlet resultat for miRNAer . . . . . . . . . . . . . . . . . . 10320 Samlet resultat for pipelinetesten . . . . . . . . . . . . . . . . 10321 Effektiviteten af pipelinen . . . . . . . . . . . . . . . . . . . . 10322 Nye miRNA gener fundet gennem pipelinen . . . . . . . . . . 10523 Ny miRNA gen p376-rno-mir . . . . . . . . . . . . . . . . . . 10524