Alejandro tfm

  • View
    98

  • Download
    2

Embed Size (px)

Text of Alejandro tfm

  • 1. Escuela Tecnica Superior de Ingeniera Informatica Master Universitario en Logica, Computacion e Inteligencia Artificial Trabajo n de Master: Analisis genomico a traves de herramientas informaticas aplicadas a datos de secuenciacion de nueva generacion Autor: Alejandro Aleman Ramos Tutor: D. Francisco Romero Campero Sevilla, Viernes 1 de Julio de 2011

2. 2 3. El proyecto que aqu presentamos hace una revision exhaustiva de una serie de herramientas que han surgido en el contexto de la secuenciacion de nueva generacion. Para ello se ha dividido dicho proyecto en dos partes claramente diferenciadas. La primera parte trata sobre una revision del software usado. Dentro del software usado podemos destacar herramientas para indexar genomas, busqueda de alineamientos en genomas, herramientas para realizar analisis transcriptomicos cualitativos y herramientas para realizar analisis transcriptomicos cuantitativos. La segunda parte del proyecto se basa en la realizacion de una serie de experimentos donde se muestra la utilizacion de dichas aplicaciones anteriormente mencionadas en la parte primera, as como de los resultados devueltos por dichas aplicaciones 3 4. 4 5. Indice general I Manuales de usuario 13 1. Bowtie 15 1.1. Que es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2. Que no es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Obtener Bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.1. Compilando desde los fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4. El alineador bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4.1. El modo de alineacion -n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4.2. El modo de alineacion -v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.3. Estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.4. Modos de representacion de informes . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4.5. Alineamiento de Extremos emparejados . . . . . . . . . . . . . . . . . . . . . . . . 21 1.4.6. Alineacion por Espacio de Colores . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4.7. Optimizacion del rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.8. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.9. Salida por defecto de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.4.10. Salida en formato SAM de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.5. El indexador bowtie-build . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.5.1. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.6. El inspector de ndices bowtie-inspect . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.1. Lnea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2. TopHat 37 2.1. Que es TopHat? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2. Que tipo de lecturas podemos usar con TopHat? . . . . . . . . . . . . . . . . . . . . . . . 37 2.3. Como encuentra TopHat las uniones? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5. Obtener e instalar TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.6. Usando el mapeador de uniones TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.3. Opciones Avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.6.4. Suministrando nuestras propias uniones . . . . . . . . . . . . . . . . . . . . . . . . 42 2.6.5. Suministrando nuestas propias inserciones y deleciones . . . . . . . . . . . . . . . . 43 2.6.6. Proporcionando a TopHat un chero de anotaciones . . . . . . . . . . . . . . . . . 43 2.7. Salida de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3. Cuinks 45 3.1. Que es Cuinks? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.1.1. Como ensambla los transcritos Cuinks? . . . . . . . . . . . . . . . . . . . . . . . 45 3.1.2. Como calcula Cuinks la abundancia de transcritos? . . . . . . . . . . . . . . . . 46 3.1.3. Como calcula Cuinks la distribucion de la longitud de los fragmentos? . . . . . 46 3.1.4. Como Cuinks identica y corrige el sesgo de las secuencias? . . . . . . . . . . . 47 3.1.5. Como gestiona Cuinks las lecturas con multiples alineaciones? . . . . . . . . . . 47 5 6. 3.1.6. Como funciona la anotacion de referencia basada en transcritos (RABT)? . . . . 47 3.2. Que es Cudi? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.1. Como prueba Cudi la expresion diferencial y la regulacion? . . . . . . . . . . . 48 3.2.2. Como funciona la normalizacion del cuartil superior? . . . . . . . . . . . . . . . . 50 3.2.3. Como trata Cudi las replicas biologicas? . . . . . . . . . . . . . . . . . . . . . . 50 3.3. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4. Ejecutando Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4.2. Opciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.4.3. Opciones avanzadas de estimacion de la abundancia . . . . . . . . . . . . . . . . . 53 3.4.4. Opciones avanzadas de ensamblaje . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.5. Opciones avanzadas de anotaciones de referencia basada en Transcritos (RABT) . 54 3.4.6. Opciones avanzadas del programa de comportamiento . . . . . . . . . . . . . . . . 55 3.4.7. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.8. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5. Ejecutando Cucompare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.5.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.6. Uniendo ensamblajes con Cumerge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.6.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7. Ejecutando Cudi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7.3. Opciones avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.7.4. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.7.5. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.8. Formato de seguimiento FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.9. Biblioteca de Tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4. SAMtools 69 4.1. Que es SAMtools? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2. Comandos y opciones de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 II Casos practicos 75 5. Arabidopsis Thaliana 77 5.1. Genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2. Indexacion del Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3. Experimento SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.2. Ejecucion de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.3. Ejecucion de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.3.4. Ejecucion de Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.3.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.4. Experimento SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4.2. Ejecucion de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.4.3. Ejecucion de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.4.4. Ejecucion de Cuinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4.5. Resultados . . . . . . . . . . . . . . .