Alejandro tfm

  • Published on
    29-Jun-2015

  • View
    91

  • Download
    2

Embed Size (px)

Transcript

<ul><li> 1. Escuela Tecnica Superior de Ingeniera Informatica Master Universitario en Logica, Computacion e Inteligencia Artificial Trabajo n de Master: Analisis genomico a traves de herramientas informaticas aplicadas a datos de secuenciacion de nueva generacion Autor: Alejandro Aleman Ramos Tutor: D. Francisco Romero Campero Sevilla, Viernes 1 de Julio de 2011 </li></ul><p> 2. 2 3. El proyecto que aqu presentamos hace una revision exhaustiva de una serie de herramientas que han surgido en el contexto de la secuenciacion de nueva generacion. Para ello se ha dividido dicho proyecto en dos partes claramente diferenciadas. La primera parte trata sobre una revision del software usado. Dentro del software usado podemos destacar herramientas para indexar genomas, busqueda de alineamientos en genomas, herramientas para realizar analisis transcriptomicos cualitativos y herramientas para realizar analisis transcriptomicos cuantitativos. La segunda parte del proyecto se basa en la realizacion de una serie de experimentos donde se muestra la utilizacion de dichas aplicaciones anteriormente mencionadas en la parte primera, as como de los resultados devueltos por dichas aplicaciones 3 4. 4 5. Indice general I Manuales de usuario 13 1. Bowtie 15 1.1. Que es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2. Que no es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Obtener Bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.1. Compilando desde los fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4. El alineador bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4.1. El modo de alineacion -n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4.2. El modo de alineacion -v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.3. Estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.4. Modos de representacion de informes . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.5. Alineamiento de Extremos emparejados . . . . . . . . . . . . . . . . . . . . . . . . 21 1.4.6. Alineacion por Espacio de Colores . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4.7. Optimizacion del rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.8. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.9. Salida por defecto de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.4.10. Salida en formato SAM de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.5. El indexador bowtie-build . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.5.1. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.6. El inspector de ndices bowtie-inspect . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.1. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2. TopHat 37 2.1. Que es TopHat? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2. Que tipo de lecturas podemos usar con TopHat? . . . . . . . . . . . . . . . . . . . . . . . 37 2.3. Como encuentra TopHat las uniones? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5. Obtener e instalar TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.6. Usando el mapeador de uniones TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.3. Opciones Avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.6.4. Suministrando nuestras propias uniones . . . . . . . . . . . . . . . . . . . . . . . . 42 2.6.5. Suministrando nuestas propias inserciones y deleciones . . . . . . . . . . . . . . . . 43 2.6.6. Proporcionando a TopHat un chero de anotaciones . . . . . . . . . . . . . . . . . 43 2.7. Salida de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3. Cuinks 45 3.1. Que es Cuinks? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.1.1. Como ensambla los transcritos Cuinks? . . . . . . . . . . . . . . . . . . . . . . . 45 3.1.2. Como calcula Cuinks la abundancia de transcritos? . . . . . . . . . . . . . . . . 46 3.1.3. Como calcula Cuinks la distribucion de la longitud de los fragmentos? . . . . . 46 3.1.4. Como Cuinks identica y corrige el sesgo de las secuencias? . . . . . . . . . . . 47 3.1.5. Como gestiona Cuinks las lecturas con multiples alineaciones? . . . . . . . . . . 47 5 6. 3.1.6. Como funciona la anotacion de referencia basada en transcritos (RABT)? . . . . 47 3.2. Que es Cudi? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.1. Como prueba Cudi la expresion diferencial y la regulacion? . . . . . . . . . . . 48 3.2.2. Como funciona la normalizacion del cuartil superior? . . . . . . . . . . . . . . . . 50 3.2.3. Como trata Cudi las replicas biologicas? . . . . . . . . . . . . . . . . . . . . . . 50 3.3. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4. Ejecutando Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4.2. Opciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.4.3. Opciones avanzadas de estimacion de la abundancia . . . . . . . . . . . . . . . . . 53 3.4.4. Opciones avanzadas de ensamblaje . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.5. Opciones avanzadas de anotaciones de referencia basada en Transcritos (RABT) . 54 3.4.6. Opciones avanzadas del programa de comportamiento . . . . . . . . . . . . . . . . 55 3.4.7. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.8. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5. Ejecutando Cucompare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.5.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.6. Uniendo ensamblajes con Cumerge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.6.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7. Ejecutando Cudi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.3. Opciones avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.7.4. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.7.5. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.8. Formato de seguimiento FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.9. Biblioteca de Tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4. SAMtools 69 4.1. Que es SAMtools? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2. Comandos y opciones de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 II Casos practicos 75 5. Arabidopsis Thaliana 77 5.1. Genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2. Indexacion del Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3. Experimento SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.2. Ejecucion de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.3. Ejecucion de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.3.4. Ejecucion de Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.3.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.4. Experimento SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4.2. Ejecucion de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.4.3. Ejecucion de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.4.4. Ejecucion de Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6 7. 5.5. Experimento SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.5.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.5.2. Ejecucion de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.5.3. Ejecucion de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.5.4. Ejecucion de Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.5.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Apendices 104 A. Formatos de cheros 107 A.1. SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.1.2. Cabecera del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 A.1.3. Campos obligatorios de la seccion de Alineamientos . . . . . . . . . . . . . . . . . 109 A.1.4. Campos opcionales de la seccion de alineamientos . . . . . . . . . . . . . . . . . . . 112 A.2. BAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 A.3. BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 A.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 A.3.2. Campos obligatorios en el formato BED . . . . . . . . . . . . . . . . . . . . . . . . 114 A.3.3. Campos adicionales u opcionales en el formato BED . . . . . . . . . . . . . . . . . 114 A.3.4. Ejemplo de chero BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 A.4. FASTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 A.4.1. Lnea de cabecera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 A.4.2. Representacion de la secuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 A.5. FASTQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 A.5.1. Formato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 A.6. GFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 A.7. GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 A.7.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 A.7.2. Campos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 A.7.3. Ejemplos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Bibliografa 121 7 8. 8 9. Indice de Figuras 5.1. Detalle de la Arabidopsis Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2. Ficheros del genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3. Detalle del Cromosoma 1 de la A.Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.4. Ficheros del Genoma indexado de la A.Thaliana . . . . . . . . . . . . . . . . . . . . . . . 79 5.5. Graco del tamano de las lecturas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . 80 5.6. Detalle de las lecturas cortas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . 81 5.7. Ficheros creados por Tophat en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 83 5.8. Detalle del chero junctions.bed del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . 83 5.9. Porcentajes de alineamientos en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 84 5.10. Fichero accepted hits.sam del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.11. Fichero genes.fpkm tracking del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 86 5.12. Tiempos ejecucion exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.13. Expresion diferencial en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.14. Detalle de las lecturas cortas del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . 89 5.15. Ficheros creados por Tophat en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 90 5.16. Porcentajes de alineamientos en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 91 5.17. Fichero accepted hits.sam del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.18. Fichero genes.fpkm tracking del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 94 5.19. Tiempos ejecucion exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5.20. Expresion diferencial en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.21. Detalle de las lecturas cortas del exp SRX022366 . . . . . . . . . . . . ....</p>