DISEÑO DE UNA APLICACIÓN PARA EL ANÁLISIS DE MUTACIONES DE ...€¦ · diseÑo de una...

DISEÑO DE UNA APLICACIÓN PARA EL ANÁLISIS DE MUTACIONES DE

RESISTENCIA EN EL RESERVORIO CELULAR DE VIH-1 MEDIANTE

TÉCNICAS DE NGS.

Estudiante: Olalla Sierra Tomillo

MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III

2013-2014

INSTITUTO DE INVESTIGACIÓN DEL HOSPITAL 12 DE OCTUBRE i+12

DIRECTOR DE LA TESIS: DR. RAFAEL DELGADO VÁZQUEZ

CODIRECTOR DE LA TESIS: GONZALO GÓMEZ

MADRID. ENERO DE 2015

DEDICATORIA

A mis padres, por inculcarme que la mejor herencia que se le puede dejar a un hijo

es una buena educación.

En especial a mi madre, que no se encuentra físicamente conmigo pero siempre

estará en mi corazón. Por ser un ejemplo de lucha y superación a través de sacrificios,

amor, constancia y dedicación.

A todas aquellas personas que en lugar de ver un título, una nota, un pago, un

premio; ven la necesidad y el gusto de aprender algo, imaginarlo y hacerlo realidad.

A quién comprende que el conocimiento no se esconde y sabe compartirlo.

AGRADECIMIENTOS

Quisiera agradecer al Dr. Rafael Delgado, director de esta tesis, por darme la oportunidad de realizar este proyecto en su laboratorio. Por su experiencia y sus enseñanzas en el campo de la virología.

Mi más sincero agradecimiento a Gonzalo Gómez, codirector de esta tesis, por sus sabios consejos y por tranquilizarme en los momentos de agobio. Por hacerme comprender que estos son sólo mis primeros pasos como debutante en la materia, que he de coger impulso antes de echar a volar.

Agradecer a mis compañeras del laboratorio de Microbiología Molecular Joanna, Sagrario y Paquita que no sólo me ayudan en algunas actividades sino que me acompañan a diario compartiendo trabajo, buenos y malos momentos.

También agradecer a todos los compañeros del Hospital 12 de Octubre que de alguna manera han formado parte de este trabajo. Una mención especial a David Lora, Santiago Barrio, Daniel Rueda y sobre todo a Aitor Delmiro, por compartir conmigo su tiempo y sus conocimientos, por todos esos momentos de discusiones y la siempre valiosa aportación de ideas.

A la dirección del Máster de Bioinformática y las personas que han hecho posible que haya podido salir este curso adelante. Pero sobre todo a su coordinador, Miguel Ponce de León, sin su amable e incesante ayuda este proyecto no hubiera sido posible.

A todos los profesores del máster, por compartir con nosotros sus conocimientos y hacer posible que de esta nueva hornada salgan algunos futuros bioinformáticos. En especial, al grupo de NGS liderado por David G Pisano, pues todo lo aprendido me ha sido de gran utilidad en este trabajo. Y a ese fantástico y divertido dúo, Eduardo Andrés León y José María Fernández por despertar mi curiosidad e interés por las bases de datos relacionales.

A todos los compañeros del máster, por el excelente ambiente que han creado siempre dentro y fuera del aula con su presencia. En especial, a esa gran tupla de trabajo que formamos, mis amigas y aliadas, Jennifer y Esther, con las que he disfrutado de esta aventura, por estar siempre a mi lado en los momentos más difíciles y por su apoyo incondicional. Y nunca olvidare a Luis, su fuerza, su coraje, su lucha constante, siempre con una sonrisa ante las dificultades y a Juanfran, que aportaba serenidad al grupo.

Casi terminando, no quiero dejar de mencionar a Jaime, mi compañero de batallas en esta y otras guerras. Por compartir conmigo sus conocimientos en programación y enseñarme todo lo que sé de C#. Pero sobre todo, por no perder la paciencia ni la sonrisa ante la incesante oleada de preguntas... dada mi ignorancia en el campo de la informática. Por conseguir con su optimismo que disfrute de todos los momentos, fáciles y difíciles, y por disfrutarlos conmigo. Espero saber compensarlo.

Por último, agradecer a mi familia, a mis padres y hermano, por darme el cariño, la confianza y la seguridad para perseguir siempre mis metas.

OBJETIVOS………………………………………………………………………...7

1. CAPÍTULO 1: ANÁLISIS DEL RESERVORIO CELULAR DEL VIH-1

MEDIANTE UN WORKFLOW ESTÁNDAR

1.1. INTRODUCCIÓN ………………………………………………………..9

1.1.1. EL VIRUS DE LA INMUNODEFICIENCIA HUMANA………9

1.1.2. SECUENCIACIÓN DE NUEVA GENERACIÓN (NGS)……...10

1.2. MATERIAL Y MÉTODOS……………………………………………...15

1.2.1. PACIENTES Y MUESTRAS……………………………………..15

1.2.2. AMPLIFICACIÓN Y SECUENCIACIÓN DE LA

REGIÓN POL……………………………………………………………..15

1.2.3. ANÁLISIS DE LAS SECUENCIAS……………………………..18

1.3. RESULTADOS…………………………………………………………...26

1.4. DISCUSIÓN………………………………………………………………31

2. CAPÍTULO 2: “BIO-SIERRA”. DISEÑO DE UNA APLICACIÓN PARA

ANÁLISIS DE MUTACIONES DE VIH-1

2.1. INTRODUCCIÓN..………………………………………………………34

2.1.1. .NET FRAMEWORK 3.5…………………………………………34

2.1.2. C# (SHARP), EL LEGUAJE PREDILECTO DEL

.NET FRAMEWORK…………………………………………………….35

2.1.3. IDE (INTEGRATED DEVELOPMENT ENVIRONMENT)

PARA .NET………………………………………………………..35

2.1.4. MICROSOFT SQL SERVER…………………………………….36

2.2. MATERIAL Y MÉTODOS……………………………………………...37

2.3. RESULTADOS…………………………………………………………...57

2.4. DISCUSIÓN………………………………………………………………60

REFERENCIAS…………………………………………………………………...62

ANEXO………………………………………………………………………….....65

OBJETIVOS

La finalidad de este trabajo era adquirir experiencia en el análisis de datos

procedentes de secuenciación de nueva generación (NGS) aplicados fundamentalmente

en el diagnóstico y la patogenia de la infección por VIH.

Podemos destacar dos objetivos principales:

1. Estudiar la utilidad de técnicas de secuenciación de nueva generación (NGS)

para detectar mutaciones de resistencia (MR), circulantes y archivadas, en el

ADN de células de sangre periférica.

Objetivos específicos:

� Diseño de un workflow de análisis con herramientas y software

disponibles.

� Desarrollo de scripts para el automatizar algunos pasos.

� Interpretación de los resultados.

2. Desarrollar una herramienta propia especializada para la consulta, visualización

y análisis de variantes de VIH-1 a partir de datos de NGS. Dicho objetivo surge

por la necesidad de poder tratar la inmensa cantidad de datos que las nuevas

tecnologías nos proporcionan. La Biología ya no es una ciencia puramente

experimental, sino que el almacenamiento y la comprensión de la información

están en continuo crecimiento, por ello la necesidad de optimizarlos.

Objetivos específicos:

� Desarrollar la aplicación en su totalidad en leguaje de programación C#

con una interfaz gráfica que facilite la utilización de la herramienta al

usuario.

El desarrollo de estos dos objetivos los describiremos en este trabajo en dos

capítulos independientes.

CAPÍTULO 1:

ANÁLISIS DEL RESERVORIO

CELULAR DEL VIH-1 MEDIANTE

UN WORKFLOW ESTÁNDAR

1.1. INTRODUCCIÓN

Durante su proceso de infección el VIH-1 infecta preferentemente linfocitos T

CD4+ memoria y se integra en su genoma en forma de ADN proviral. La mayoría de las

células muere en un plazo de 24 h como consecuencia de la replicación del virus; sin

embargo, un pequeño número de linfocitos T CD4+ infectados revierte a la situación de

reposo celular para constituir un reservorio latente de larga duración. Este reservorio

latente de VIH-1 se mantiene relativamente estable, sin una reducción significativa a lo

largo de años, incluso en pacientes en tratamiento antirretroviral (TAR) supresor. Todas

las variantes de VIH-1 circulantes que se han producido durante la infección están

potencialmente representadas en el reservorio latente celular como provirus (Finzi D et

al., 1997, Siliciano JD et al., 2004).

El análisis del reservorio celular por técnicas de secuenciación convencional no

permite detectar todas las MR acontecidas durante la evolución de un paciente, debido a

la baja sensibilidad de estas técnicas que informan sólo de la secuencia promedio de

toda la población viral y sólo detecta cambios presentes al menos en un 20-30% de las

secuencias (Palmer S et al., 2005). Durante los últimos años se han ido desarrollando

técnicas más sensibles para identificar variantes minoritarias como la secuenciación de

genomas individuales (SGI) y técnicas de secuenciación de nueva generación (NGS).

1.1.1. EL VIRUS DE LA INMUNODEFICIENCIA HUMANA.

El VIH-1 es el causante de la pandemia mundial conocida como Síndrome de la

Inmunodeficiencia Adquirida (SIDA). La primera evidencia de que el agente etiológico

del SIDA podía ser un retrovirus surgió en 1983 de las investigaciones del grupo

francés de Françoise Barré-Sinoussi y Luc Montagnier al identificar un virus con

actividad retrotranscriptasa en un paciente con síntomas de SIDA (Barre-Sinoussi et al.,

1983). Desde entonces ha sido significativa la investigación hacia la comprensión del

VIH-1, interacciones a niveles celulares del huésped y en el desarrollo de una terapia

antirretroviral eficaz (Marmor et al., 2006).

El VIH-1 pertenece al género lentivirus dentro de la familia Retroviridae, que

incluye otros seis géneros (Murphy et al., 1995). Un carácter diferenciador de este

género lentivirus es que han desarrollado una estrategia que les permite transportar su

genoma en forma de ADN a través de la membrana nuclear de la célula huésped. Esta

característica es responsable de su capacidad única para replicar eficazmente en células

que no se están dividiendo (Zennou et al., 2000).

� Estructura del virión y organización genómica

El virión consiste en una partícula esférica, de aproximadamente 120 nm de

diámetro, constituida por tres capas concéntricas (Fig. 1.1). En la capa interna se

encuentra una estructura cónica conocida como nucleoide o core, constituida por la

proteína de la cápside (p24), contiene dos copias del ARN genómico formando un

complejo ribonucleoproteíco con las enzimas y las proteínas de la nucleocápside. La

capa intermedia está constituida por la proteína matriz (p17). La capa más externa está

constituida por una membrana lipídica derivada de la célula infectada, donde se insertan

espículas constituidas por las glicoproteínas de la envuelta, gp120 y gp41. En la

envuelta existe, además, una gran concentración de proteínas celulares íntimamente

asociadas como la β-2-microglobulina y las cadenas α y β de los antígenos HLA DR, en

una concentración mayor que la de gp120. Esta riqueza de proteínas celulares en la

envuelta viral condiciona aspectos de la patogenia.

El genoma de VIH es un dímero constituido por dos copias de ARN de cadena

sencilla y polaridad positiva (Hu y Temin, 1990) de aproximadamente 9.7 Kb. Las

proteínas del VIH-1 son traducidas a partir de 10 fragmentos de lectura abierta y,

posteriormente, son procesadas por proteasas víricas o celulares, generándose un total

de 15 proteínas víricas (Fig., 1.1). El VIH-1 presenta tres genes estructurales: gag, pol y

El genoma viral, en su forma de provirus, se encuentra flanqueado por

secuencias denominadas LTR (repeticiones terminales largas) que le permiten la

replicación y la integración en el genoma celular. Las LTRs contienen sitios de unión

para proteínas celulares que activan la transcripción y están, a su vez, bajo el control de

señales virales.

Fig. 1.1. Estructura y organización genómica del VIH-1. A) Representación esquemática de un virión. B)

Organización genómica y C) Procesamiento de las proteínas víricas.

� Desarrollo de resistencia a los antirretrovirales

La resistencia a compuestos antirretrovirales (ARV) en el VIH-1 se define como

la presencia de mutaciones en los genes del virus que son diana para los compuestos

(Charpentier et al., 2004), reduciendo la susceptibilidad del virus a los fármacos

comparado con la susceptibilidad del virus sensible.

La principal repercusión clínica de la evolución de las resistencias a drogas

afecta directamente a la elección adecuada del tratamiento antirretroviral (TARV)

(Hirsch et al., 2008).

La aparición de resistencia a los antirretrovirales se explica por tres aspectos

fundamentales de la biología del VIH-1: la elevada población de genomas virales, el

elevado ritmo de replicación del virus durante la infección y la elevada tasa de error de

la transcriptasa reversa (RT) durante la síntesis del ADN proviral.

Estas variantes virales con mutaciones que confieren resistencia a un inhibidor,

adquirirán una ventaja selectiva con respecto a los virus sensibles, al aumentar su

eficacia biológica en presencia del fármaco.

1.1.2. SECUENCIACIÓN DE NUEVA GENERACIÓN (NGS)

Cada vez surgen más tecnologías de secuenciación masiva diferentes. Las

mismas se diferencian en las etapas de amplificación clonal y la secuenciación

propiamente dicha. Todas ellas están sujetas a continúas modificaciones y mejoras,

manteniendo siempre los mismos principios básicos.

En este apartado procederemos a hacer una breve descripción de aquellas

tecnologías que tenemos disponibles en nuestras instalaciones.

� Secuenciación con 454 (Roche)

La muestra de interés de ADN puede ser fragmentada aleatoriamente, o

alternativamente, amplificada vía PCR (amplicones). Los fragmentos resultantes de

tamaño adecuado son desfosforilados y consecuentemente ligados a dos adaptadores (A

y B). Sólo se amplifican fragmentos que contienen adaptador A en un extremo y en el B

del otro. Estos fragmentos constituyen la biblioteca de ADN, los cuales son unidos a

“micro-beads” (bolitas microscópicas) a través de hibridación de primers. Las

condiciones de esta reacción están dadas de forma tal de favorecer la unión de un solo

fragmento de ADN (de la librería) por bolita. Cada “microbead” cubierta con una única

molécula se coloca en una emulsión de agua y aceite, la cual actúa como microrreactor

en donde se encuentra, además de esa única bolita, primers correspondientes y reactivos

para PCR (emPCR o PCR en emulsión). La amplificación por PCR dentro de la

emulsión permite cubrir la totalidad de la bolita con moléculas clonales amplificadas.

Cada bolita, cada microrreactor, contiene un fragmento de ADN particular. Después de

la amplificación se diluye la emulsión y las bolitas son enriquecidas con streptavidina.

Utilizando separación magnética cada bolita se coloca en un microrreactor (pocillos

dentro de una “picotiter plate”). Los fragmentos amplificados son desnaturalizados y

unidos a un primer de secuenciación. La secuenciación ocurre a través de la técnica de

pirosecuenciación, en donde la incorporación de cada nucleótido conlleva la

eliminación de un fosfato. El mismo es convertido en luz por medio de ATP, y la

cantidad de luz es proporcional a la cantidad de bases incorporadas.

(http://www.454.com/)

La mayor ventaja de este método es la longitud de sus “reads” o lecturas

(fragmento secuenciado), ya que logra tamaños de más de 500 bases. La mayor

desventaja del método se debe a la pirosecuenciación, la cual tiene dificultades para

secuenciar homopolímeros, llevando la tasa de error por read hasta un máximo de 1 %.

Estos errores pueden mitigarse parcialmente con mayor cobertura de secuenciación

(más cantidad de reads por base).

Fig. 1.2. Ilustración esquemática de la reacción utilizada en la pirosecuenciación 454. La luz emitida es proporcional al número de nucleótidos incorporados (Izquierda). Ilustración esquemática de la conversión de intensidades de luz a flowgrams (Derecha).

Fig. 1.3. Ilustración de la descripción general de la metodología de secuenciación 454.

� Secuenciación con Ion Torrent (Life Technologies)

La secuenciación del Ion Torrent pertenece a las tecnologías de tercera generación,

surgiendo en el 2010. Como en la tecnología anterior (454) primeramente se fragmenta

la muestra de interés o se amplifica y se agregan los adaptadores de secuencia conocida.

Después, los fragmentos son amplificados mediante PCR de emulsión, como vimos

anteriormente. Para ello, se utilizan también “microbeads”. La biblioteca amplificada es

separada en una placa con alta densidad de pocillos, como en el 454: una única bolita

por pocillo. En el Ion Torrent, estos pocillos están ubicados sobre un semiconductor

sensible a los iones. Durante la extensión catalizada por la polimerasa, un enlace de

hidrógeno se libera como parte de la química normal de incorporación de nucleótidos.

Este ión es detectado por el semiconductor, como un pequeño cambio en el pH. Por lo

tanto, a cada pocillo con la molécula de ADN y la ADN polimerasa se le provee de un

nucleótido cada vez. Si el mismo, es complementario al nucleótido siguiente no

pareado, el mismo se incorpora y un hidrógeno se libera, generando un cambio de pH

que es registrado por el semiconductor. Si el nucleótido no es complementario, la

reacción química no tiene lugar y se lava el remanente. Se pasa al siguiente nucleótido y

este procedimiento se repite tantos ciclos como sea necesario.

Esta tecnología, al igual que el 454, es sensible a los homopolímeros. Si en la

secuencia aparece una serie de nucleótidos repetidos, la incorporación de este

nucleótido llevará a un cambio de pH que será proporcional al cambio individual de pH.

Sin embargo, ya que cada medida individual tiene incertidumbre, muchas veces es

difícil estimar la multiplicidad de la base de forma precisa. Por lo tanto, existe una

tendencia a generar errores en la longitud de los homopolímeros, lo que se traduce en la

consideración de delecciones e inserciones inexistentes.

(http://www.lifetechnologies.com/es/en/home/brands/ion-torrent.html)

Fig.1.4. Esquema general de la secuenciación mediada por pH utilizada por Ion Torrent.

1.2. MATERIAL Y MÉTODOS

1.2.1. PACIENTES Y MUESTRAS:

Las muestras biológicas incluidas en este trabajo han sido, pacientes de la

Unidad VIH-1 del Hospital Universitario 12 de Octubre de Madrid y archivadas en el

biobanco del laboratorio de Microbiología. Las muestras han sido obtenidas bajo

consentimiento informado de acuerdo a un protocolo aprobado por el comité ético de

investigación clínica de la institución.

Se seleccionaron cinco pacientes infectados por VIH y con tratamiento

antirretroviral (TAR). Estos pacientes pertenecían al estudio OK (Only Kaletra

(Lopinavir/ritonavir)) desarrollado simultáneamente en 28 hospitales españoles y que

fue expuesto en el Congreso Mundial del SIDA en Toronto por el Dr. José Ramón

Arribas, uno de los coordinadores del estudio.

El estudio demuestra que el tratamiento de la infección por VIH con el fármaco

Kaletra consigue una eficacia similar que la terapia estándar con un cóctel de 3

medicamentos, compara la monoterapia con la terapia triple compuesta por ese mismo

fármaco más 2 análogos de nucleósidos. Los pacientes entraron en el estudio tras llevar

al menos 6 meses con carga viral indetectable ( >50 cp/ml) y se aleatorizaron a

continuar con esa triple terapia o a recibir solo Kaletra. (Arribas JR et al., 2005,

McKinnon JE et al., 2006, Pulido F, Arribas JR et al., 2008)

Se procesaron diez muestras de sangre completa, 2 muestras por paciente, una

obtenida al inicio de entrar en el estudio y la otra pasados más de diez años.

1.2.2 . AMPLIFICACIÓN Y SECUENCIACIÓN DE LA REGIÓN POL

Se utilizó 1 µg de ADN para realizar Secuenciación Ultra-profunda (UDS)

mediante la plataforma GS Junior (Roche).La extracción del ADN se realizó a partir de

400 µl de sangre completa mediante el QIAamp® DNA Blood Mini Kit (QIAGEN).

Para la primera amplificación, se prepara una mezcla de PCR con las cantidades

finales de los reactivos que se detallan a continuación: añadimos 30µl de DNA (1 µg de

ADN ajustamos el volumen con agua destilada) a una mezcla de 70 µl que contenía 5U

de enzima de Alta fidelidad Taq Platinum ADN polimerasa (Invitrogen) y las

concentraciones finales de los siguientes reactivos: 1x High Fidelity PCR Buffer

(Invitrogen), MgSO4 (2mM), 1849 iniciador externo directo y 3500 iniciador externo

reverso (200 nM cada uno) y 200 µM de dNTPs.

Cuatro µl de cada producto de PCR se utilizaron posteriormente como molde

para hacer una PCR anidada con primers internos utilizando Expand High Fidelity PCR

System (Roche), produciendo una amplificación de 1,5 kb que contiene la región p6 de

gag, pro y los primeros 950 nt de pol.

Esos 4 µl de producto de PCR se añadieron a 36 µl de mezcla de PCR (volumen

final, 40 µl) que contienen 1x Expand High Fidelity Buffer con MgCl2 (1,5 mM), 200

µM de dNTPs, 1870 iniciador interno directo, 3410 iniciador interno reverso (200 nM

cada uno), enzima Expand High Fidelity (2U) y MgCl2 adicional (1 mM).

Tras incubar la reacción durante 3 min a 94ºC; la mezcla de reacción se incuba a

94ºC durante 30 seg, 58ºC durante 30 seg y a 72ºC durante 1 min y 30 seg, repitiendo

los 3 últimos pasos 44 veces; finalmente se realiza una extensión final incubando a 72ºC

durante 10 min y la mezcla se enfría a 4ºC.

Iniciador externo directo 1849 5’ GATGACAGCATGTCAGGGAG 3’

Iniciador externo reverso 3500 5’ CTATTAAGTATTTTGATGGGTCATAA 3’

Iniciador interno directo 1870 5’ GAGTTTTGGCTGAGGCAATGAG 3’

Iniciador interno reverso 3410 5’ CAGTTAGTGGTATTACTTCTGTTAGTGCTT 3’

Tabla 1.1. Iniciadores empleados para amplificar la región p6 de gag, pro y los primeros 950 nt del gen

pol del VIH-1 (Kearney et al., 2008)

Figura 1.5. Representación esquemática de la región del VIH-1 amplificada mediante la utilización de los

iniciadores que se indican en la Tabla 1. En la parte superior de la figura se muestra la organización

genómica del VIH-1; en la parte inferior, la región de p6 de gag, pro y los primeros 950 nt del gen pol del

VIH-1.

Estos productos son nuevamente amplificados en una placa diseñada por Roche

(454 HIV Collaboration Initiative Primers Plate and GS Junior Systen for Roche), que

se divide en cuatro amplicones por muestra con sus correspondientes adaptadores y

MIDs para la detección y secuenciación posterior.

Fig.1.6. Esquema general de la placa utilizada para la amplificación de la PR y RT de VIH.

Fig.1.7. Esquema general de la localización y distribución de los amplicones en el genoma.

Fig.1.8. Ilustración de la estructura de las lecturas.

Iniciador Amplicon A directo 5’ ATCACTCTTTGGCAACGACC 3’

Iniciador Amplicon A reverso 5’ CTTTAATTTTACTGGTACAGTTTCAAT 3’

Iniciador Amplicon B directo 5’ CCTACACCTGTCAACATAATTGG 3’

Iniciador Amplicon B reverso 5’ TGTGGTATTCCTAATTGAACTTCCCA 3’

Iniciador Amplicon C directo 5’ ATTGGGCCTGAAAATCCATACA 3’

Iniciador Amplicon C reverso 5’ GGCTCTAAGATTTTTGTCATGCT 3’

Iniciador Amplicon D directo 5’ CACCAGGGATTAGATATCAGTACAATGT 3’

Iniciador Amplicon D reverso 5’ AACTTCTGTATATCATTGACAGTCCA 3’

Tabla 1.2. Iniciadores empleados para amplificar la región PR y RT del VIH-1 (Roche).

Después de la amplificación se purificaron los fragmentos con AMPure Kit

según el protocolo 454 HIV Collaboration Initiative Protocol for Amplicon Sequencing

of HIV RT and PR Yelow Plate. Posteriormente se corrieron en un del de agarosa (E-Gel

2% agarosa (GP), Invitrogen) para ver la calidad y finalmente se cuantificaron mediante

Picogreen en el 2300 EnSpire Multimode Plate Reader (PerkinElmer). Finalmente se

procedió a la preparación de la librería, haciendo las diluciones y pooles necesarios para

obtener un pool final que purificamos de nuevo con AMPure (protocolo 454 HIV

Collaboration Initiative Primers Plate 454 HIV Collaboration Initiative Protocol for

Amplicon Sequencing of HIV RT and PR Yelow Plate) y del cual añadimos 2 copias o

moléculas por bead (2x106) para la EmPCR. La preparación y amplificación de la

emPCR según directrices del manual de 454 GS. Junior de Roche para librería A

(emPCR Amplification Method Manual-Lib-A).

Por último, se hace la secuenciación siguiendo el manual de secuenciación del

GS. Junior (Sequencing Method Manual).

1.2.3. ANÁLISIS DE LAS SECUENCIAS

Diseñamos un flujo de trabajo o workflow típico para el análisis de variantes de

experimentos de resecuenciación de cualquiera de los equipos que tenemos disponibles

en nuestras instalaciones, evitando por lo tanto utilizar el software de Roche AVA

(Amplicon Variant Analyzer) adaptado únicamente para los datos propios de su

tecnología ya que sólo admite su formato de archivos de salida SFF (Standar flowgram

format).

� Worflow estándar para análisis de variantes.

El worflow constara de una etapa de extracción de datos multiplexados de las

muestras, una de control de calidad de las lecturas y pre-procesado de las mismas, una

etapa de alineamiento y la etapa final de identificación de mutaciones de resistencia.

Fig.1.9. Ilustración del worflow que hemos seguido. Fuente: Propia del autor.

� Dividir los archivos SFF (para datos multiplexados)

Los datos multiplexados contienen 10-12 nt que son etiquetas de secuencias

(MID) y que se utilizan para determinar la fuente de las lecturas. Los MIDs son parte de

los adaptadores utilizados para la preparación de la librería y se añaden entre la Key y

el cebador-molde específico (ver figura 1.8). Los errores de secuenciación pueden

alterar los MIDs y las SFF Tools permiten y reconocen un máximo de dos desajustes o

mismacth.

Utilizamos el siguiente comando para dividir el archivo SFF por etiquetas MID

y generar archivos SFF separados.

$ sfffile –s file.sff

Utilizamos también las SFF Tools para extraer los archivos fasta y de calidad,

empleamos los siguientes comandos.

$ sffinfo –s file.sff > file.fasta

$ sffinfo –q file.sff > file.qual

� Pasamos los archivos FASTA + CALIDAD (QUAL) a un sólo archivo

FastQ.

Utilizamos un script escrito en Python para este paso, con el siguiente comando:

$ python 454tofastq.py namefile

(El script se adjunta en material suplementario)

� Control de calidad (QC) y Pre-procesado

Las tecnologías de secuenciación no son perfectas y el control de calidad (QC)

es un paso esencial para asegurar que los datos utilizados para el análisis no se ven

comprometida de secuencias de baja calidad, artefactos de secuencias...etc, que podrían

conducir a conclusiones erróneas. La forma más fácil de hacer un control de calidad es

mirando resumen estadístico de los datos. Existen diferentes programas que pueden

producir esas estadísticas, nosotros hemos utilizado PRINSEQ.

PRINSEQ es una herramienta de procesamiento de las secuencias que se puede

utilizar para filtrar, formatear y recortar datos de la secuencia genómica y

metagenómica. Genera un resumen estadístico en gráficos y formato tabular que se

puede utilizar para los pasos de control de calidad y ayudar a elegir el procesamiento de

los datos.

PRINSEQ está disponible y escrito en perl (http://prinseq.sourceforge.net,

Schmieder R et al., 2011), es gratuito, rápido y no requiere la instalación de ningún

software (se puede utilizar también usando directamente la versión en página web).

Utilizamos los siguientes comandos:

Datos brutos sin filtrar:

$perl prinseq-lite.pl -verbose -fastq file.fastq -graph_data filename.gd -out_good null -out_bad null

$perl prinseq-graphs.pl -i filename.gd -png_all -o filename

$perl prinseq-graphs.pl -i filename.gd -html_all -o filename

Con esto generamos los gráficos con las estadísticas, si lo sacamos en formato

png sólo tenemos las imágenes de los gráficos pero el formato html nos da también un

resumen tabulado. Una vez que hemos visto la calidad de nuestras secuencias

procedemos a hacer un pre-procesamiento.

Pre-procesamos y filtramos los datos:

$perl prinseq-lite.pl -verbose -fastq file.fastq -out_good filename_filter -out_bad filename_no_pass -min_len

340 -trim_qual_right 25 -trim_qual_left 30 -trim_qual_type mean -trim_qual_rule lt

Filtramos por una longitud mínima de secuencia de 340 nucleótidos y cortamos

los extremos 5’ y 3’ que no tengan una calidad media mínima de 25 y 30

respectivamente.

$perl prinseq-lite.pl -verbose -fastq file_filter.fastq -graph_data file_filter.gd -out_good null -out_bad null

$perl prinseq-graphs.pl -i file_filter.gd -png_all -o file_filter

$perl prinseq-graphs.pl -i file_filter.gd -html_all -o file_filter

Volvemos a generar los gráficos con las estadísticas pero esta vez de los datos

filtrados.

� Alineamiento.

Hacemos el alineamiento de las lecturas con InDelFixer que es un alineador

sensible para datos 454, Illumina y PacBio, empleando un alineamiento local con el

algoritmo de Smith-Waterman contra una referencia.

Es una aplicación java que como hemos mencionado alinea datos de Next-

Generation Sequencing (NGS) frente a una referencia eliminando indeles que provocan

cambios en el marco de lectura. (https://github.com/armintoepfer/InDelFixer).

Utilizamos el siguiente comando:

$ java -jar InDelFixer.jar -i file.fastq -g referenceGenome.fasta

Esto nos da como resultado un archivo de salida que se llama por defecto

reads.sam, para pasar el formato .sam al formato binario .bam que es el que usaremos

posteriormente con DeepChek, utilizamos picard-tools-1.98.

� Picard-tools

Son un conjunto de herramientas en java de línea de comandos para la

manipulación de datos y formatos de alto rendimiento de secuenciación. Nosotros las

utilizamos para pasar el formato .sam a .bam y ordenarlo en un solo paso.

$ java -Xmx2g -jar ‘/opt/picard-tools-1.98/SortSam.jar INPUT= reads.sam OUTPUT= sortedreads.bam SORT_ORDER= unsorted

� Detección de mutaciones con Deepcheck

DeepChek ® -HIV es una plataforma de genotipado y presentación de informes

dedicada a la gestión de datos NGS (Next-Generation Sequencing) aplicados a ARN y

ADN del VIH a partir de muestras clínicas.

Ofrece virólogos y expertos en enfermedades infecciosas de un entorno fácil de

usar para procesar y gestionar datos de NGS. El software genera informes integrales

para poblaciones virales con el genotipado y una caracterización de sensibilidad a los

medicamentos, gracias a una serie de pautas de expertos actualizados regularmente

(Stanford HIVdb, Rega Institute, ANRS, RIS, etc ...).

Dentro de la aplicación seleccionamos el sistema experto que se ha desarrollado

con el fin de comprobar la calidad de los datos introducidos y asegurar que los

resultados dados son relevantes y significativos.

El sistema experto comprobará si la cobertura de los datos de secuenciación ultra

profunda que se procesan es suficiente para producir una información significativa.

Compara posición por posición (codón por codón) si el número de lecturas es

suficiente para cubrir la posición (por defecto 500 lecturas mínimo por posición son

requeridas para producir información significativa al 1%).

La aplicación da como resultado un informe en PDF con los resultados de los

datos que han pasado los filtros de calidad y un archivo .csv con la información de los

filtros de calidad.

En la sección Sistema Experto del informe DeepChek, la cobertura se muestra

gráficamente para cada proteína y una tabla resumen con el número mínimo de lecturas

requeridas para que la información sea significativa para cada umbral seleccionado:

Fig. 1.10. Gráfica que muestra la Cobertura y la tabla resumen con el número mínimo de lecturas.

(AZUL) La Cobertura Total: Número de lecturas que cubren correctamente la posición de aminoácidos.

(ROJO) La cobertura “Forward”: Número de lecturas directas que cubren correctamente la posición de

aminoácidos. (VERDE) La cobertura “Reverse”: Número de lecturas inversas que cubren correctamente

la posición de aminoácidos.

Cuando las posiciones son identificadas como no adecuadamente cubiertas por

un umbral específico son validados por el Sistema Experto y las mutaciones se

mostrarán en la sección "Análisis de mutaciones" del informe, pero la posición se verá

claramente etiquetada como "Low Coverage".

Fig. 1.11. Ejemplo de parte de un informe dónde se muestra el análisis de mutaciones.

Además, cuando al menos una mutación (que pasa la validación Sistema

Experto) se define como una posición "Low Coverage" por un umbral específico,

ninguna interpretación se da para los medicamentos relacionados con la proteína en esa

posición.

Y la interpretación de resistencias en ese caso no está determinada y se muestra

una mención "no concluyente" en lugar de la evaluación de la resistencia.

Fig. 1.12. Ejemplo de parte de un informe dónde se muestra la resistencia a las drogas según el umbral.

El Sistema Experto realiza varios tipos de controles de calidad basados en

normas que han sido definidos por los expertos en VIH y bioinformática.

Entre los diferentes algoritmos de control de calidad, el informe muestra una tabla

resumen por cada proteína analizada con el número de mutaciones descartadas y la

razón de exclusión:

a) Las mutaciones o variantes con muy baja prevalencia (“noisy mutations

filtering”).

b) Las mutaciones o variantes con lecturas desequilibradas en ambos sentidos

(“Forward/Reserve unbalanced frecuency”).

Fig. 1.13. Ejemplo de parte de un informe dónde se muestra las mutaciones descartadas en cada proteína.

Obviamente, las mutaciones descartadas no se tienen en cuenta durante el

proceso de determinación de resistencia a los medicamentos.

1.3. RESULTADOS

La etapa de control de calidad a menudo muestra que los datos deben ser pre-

procesados antes de cualquier análisis posterior, como puede ser el alineamiento de las

secuencias. Los pasos de pre-procesamiento necesarios de los datos dependen del tipo

de biblioteca que se está secuenciado (todo el genoma, transcriptoma, 16S,

metagenoma.) y del tipo de tecnología de secuenciación utilizada para generar los datos.

En la Tabla 1.3 se muestran los resultados del análisis de calidad de las muestras

analizadas antes y después del pre-procesado o filtrado.

La distribución de la longitud se puede utilizar como medida de la calidad, ya

que te da una idea de cómo ha ido la secuenciación, por ejemplo en nuestro caso un

cierto número de lecturas cortas podría esperarse, pero la muestra debe contener

principalmente fragmentos largos y de una longitud muy similar al tratarse de

amplicones, si el número de lecturas cortas es elevado indicaría baja calidad, además

estas lecturas cortas es más probable que coincidan con una posición aleatoria y por lo

tanto pueden resultar falsos positivos en asignaciones funcionales o taxonómicas.

En los archivos SFF de la tecnología 454 las secuencias más cortas suelen estar

en torno a 40pb (puesto que las que son de una longitud menor se filtran durante el

procesamiento de la señal), pero para muestras multiplexadas como es nuestro caso

pueden ser tan cortas como 28-30pb (ya que se debe cortar la etiqueta o MID que es de

unos 10 nucleótidos). En nuestro filtrado hemos dejado todas las secuencias con una

longitud mínima de unas 300pb para que las secuencias cortas no afecten a la calidad.

Un alto número de Ns o bases ambiguas puede ser un signo de una secuencia de

baja calidad, en nuestros datos el porcentaje de Ns es bajo y disminuye después del

filtrado (Huse et al., 2007).

Dependiendo del conjunto de datos, se debe considerar el filtrar duplicados de

secuencia (Niu et al., 2010). El propósito principal de la eliminación de duplicados es

mitigar los efectos de sesgo de amplificación por PCR introducido durante la

construcción de la biblioteca. Pero en nuestro caso al tratarse de análisis de amplicones

es esperable tener un elevado número de duplicados y por tanto no los filtramos.

Tabla 1.3. Resumen de estadísticas del control de calidad con PRINSEQ antes y después de filtrar.

Input Information Length Distribution (bp) Occurence of N Sequence Duplication

file(s): Sequences: Total

bases:

sequence Minimum Maximum range Mode Sequences

with N:

percentage of Ns per sequence: Exact duplicates:

duplicates with reverse complements: 5' duplicates 3' duplicates

duplicates with reverse complements Total:

MID51 7,740 2,712,126 350.40 39 415 377 330/1,227 90 (1.16 %) 2 % 1,581 (20.43 %) 142 (1.83 %) 29 (0.37 %) 2 (0.03 %) 13 (0.17 %) 1,767 (22.83 %)

MID51_filter 7,521 2,616,609 347.91 300 373 74 350/1,093 40 (0.53 %) 1 % 1,227 (16.31 %) 115 (1.53 %) 393 (5.23 %) 30 (0.40 %) 37 (0.49 %) 1,802 (23.96 %)

MID20 11,190 3,877,386 346.50 36 603 568 330/2,633 136 (1.22 %) 3 % 1,297 (11.59 %) 180 (1.61 %) 30 (0.27 %) 2 (0.02 %) 2 (0.02 %) 1,511 (13.50 %)

MID20_filter 10,757 3,703,070 344.25 300 377 78 330/2,116 79 (0.73 %) 1 % 915 (8.51 %) 138 (1.28 %) 439 (4.08 %) 7 (0.07 %) 47 (0.44 %) 1,546 (14.37 %)

MID53 8,450 2,938,389 347.74 39 452 414 350/1,574 74 (0.88 %) 1 % 2,433 (28.79 %) 120 (1.42 %) 48 (0.57 %) 2 (0.02 %) 7 (0.08 %) 2,610 (30.89 %)

MID53_filter 8,055 2,798,024 347.36 300 374 75 350/1,533 34 (0.42 %) 1 % 1,882 (23.36 %) 99 (1.23 %) 571 (7.09 %) 17 (0.21 %) 21 (0.26 %) 2,590 (32.15 %)

MID54 8,162 2,861,186 350.55 39 800 762 350/1,677 49 (0.60 %) 1 % 2,501 (30.64 %) 155 (1.90 %) 45 (0.55 %) 5 (0.06 %) 8 (0.10 %) 2,714 (33.25 %)

MID54_filter 7,875 2,746,175 348.72 300 411 112 350/1,612 29 (0.37 %) 1 % 2,097 (26.63 %) 129 (1.64 %) 429 (5.45 %) 29 (0.37 %) 26 (0.33 %) 2,710 (34.41 %)

MID55 8,254 2,798,294 339.02 38 506 469 330/1,381 135 (1.64 %) 2 % 1,268 (15.36 %) 176 (2.13 %) 32 (0.39 %) 6 (0.07 %) 8 (0.10 %) 1,490 (18.05 %)

MID55_filter 7,498 2,560,662 341.51 290 396 107 330/932 99 (1.32 %) 1 % 842 (11.23 %) 127 (1.69 %) 318 (4.24 %) 11 (0.15 %) 47 (0.63 %) 1,345 (17.94 %)

MID56 6,824 2,389,890 350.22 39 430 392 350/1,223 133 (1.95 %) 2 % 2,101 (30.79 %) 91 (1.33 %) 28 (0.41 %) 2 (0.03 %) 18 (0.26 %) 2,240 (32.83 %)

MID56_filter 6,589 2,279,713 345.99 300 375 76 350/1,178 111 (1.68 %) 1 % 1,650 (25.04 %) 78 (1.18 %) 529 (8.03 %) 20 (0.30 %) 36 (0.55 %) 2,313 (35.10 %)

MID57 8,635 3,021,670 349.93 39 699 661 330/1,530 144 (1.67 %) 3 % 1,538 (17.81 %) 147 (1.70 %) 16 (0.19 %) 4 (0.05 %) 4 (0.05 %) 1,709 (19.79 %)

MID57_filter 8,398 2,902,611 345.63 300 374 75 350/1,133 60 (0.71 %) 1 % 1,088 (12.96 %) 103 (1.23 %) 535 (6.37 %) 14 (0.17 %) 43 (0.51 %) 1,783 (21.23 %)

MID58 10,463 3,674,237 351.16 39 417 379 350/1,964 86 (0.82 %) 1 % 3,014 (28.81 %) 189 (1.81 %) 27 (0.26 %) 5 (0.05 %) 9 (0.09 %) 3,244 (31.00 %)

MID58_filter 10,253 3,565,568 347.76 300 379 80 350/1,861 61 (0.59 %) 1 % 2,450 (23.90 %) 144 (1.40 %) 684 (6.67 %) 24 (0.23 %) 68 (0.66 %) 3,370 (32.87 %)

MID59 9,554 3,305,493 345.98 37 611 575 350/1,801 66 (0.69 %) 4 % 2,026 (21.21 %) 209 (2.19 %) 29 (0.30 %) 4 (0.04 %) 11 (0.12 %) 2,279 (23.85 %)

MID59_filter 9,180 3,172,952 345.64 300 377 78 350/1,749 33 (0.36 %) 1 % 1,560 (16.99 %) 160 (1.74 %) 502 (5.47 %) 15 (0.16 %) 56 (0.61 %) 2,293 (24.98 %)

MID60 10,447 3,673,958 351.68 39 635 597 350/2,206 28 (0.27 %) 6 % 3,315 (31.73 %) 138 (1.32 %) 29 (0.28 %) 9 (0.09 %) 6 (0.06 %) 3,497 (33.47 %)

MID60_filter 10,130 3,538,176 349.28 300 373 74 350/2,061 18 (0.18 %) 1 % 2,769 (27.33 %) 127 (1.25 %) 621 (6.13 %) 39 (0.38 %) 22 (0.22 %) 3,578 (35.32 %)

De cada una de las muestras se analizó un promedio de 8600 secuencias (rango:

6589-10757, mirar Tabla 1.3), lo que permitió detectar variantes minoritarias sin

problemas de baja cobertura (“low coverage”) en todas las posiciones analizadas (ver

informes en material suplementario).

Tres de los cinco pacientes analizados (DO11, DO12 y DO16) pertenecían a la

rama del estudio dónde se mantenía el tratamiento estándar con Kaletra

(Lopinavir/Ritonavir) y dos análogos de nucleósidos (2 INTI). Los otros dos empezaron

en monoterapia con Kaletra.

A continuación se muestran unas tablas resumen con las mutaciones de

resistencia encontradas en cada paciente en una muestra al comienzo del estudio y otra

unos diez años más tarde. (En estas tablas no se muestran los polimorfismos

encontrados, sólo mutaciones importantes asociadas a resistencia a los antirretrovirales).

Se tomó un punto de corte del 1% para la detección de variantes, que está en el

rango de la sensibilidad calculada y comunicada 0.1-1% de diversas plataformas NGS

(Glenn et al., 2012). En segundo lugar porque la tasa de error calculada para NGS es

inferior al 1% (Jiang et al., 2012, Zagordi et al., 2010, Avidor et al., 2013, Buzon et al.,

2011 y CODOÑER et al., 2011).

El paciente DO2 tenía un estudio de resistencia previo en plasma donde

presentaba mutaciones de resistencia circulantes en la retrotranscriptasa (RT).

Mutaciones que se mantienen en el reservorio pasados más de diez años (M41L,

M184V, L210W y T215Y) y aparecen dos mutaciones nuevas en la PR y otras dos en la

RT que no se detectaron en la poblacional. Podemos observar que tres de las mutaciones

que estaban presentes en la muestra-1 no se detectan en la muestra-2, pero en la segunda

muestra aparecen otras dos mutaciones nuevas en la RT. Este paciente es tratado sólo

con Kaletra desde el inicio del estudio hasta la última muestra procesada en el año

2014, luego dos de las tres mutaciones nuevas que aparecen no están asociadas al

tratamiento ya que kaletra es un inhibidor de la proteasa (PR).

FECHA SAMPLE CV V32A M46I G48R E40F M41L K70R L74V K103E E138R M184V L210W T215Y M230I

26. abr. 2002 Sanger 5195 NO NO NO NO SI NO NO NO NO SI SI SI NO

1. jun. 2003 muestra-1 <50 1,6% 4,5% NO NO 64,4% NO NO NO NO 71,7% 71,6% 77,7% 10,4%

17. ene. 2014 muestra-2 <50 NO NO 25,4% 12,4% 66,3% 2,7% 5,4% NO NO 44,7% 64,5% 65,6% NO

RTPRPACIENTE DO2

El paciente DO8 pertenece también a la rama de sólo Kaletra, no tenemos

ningún estudio de resistencias previo y vemos que en la primera muestra presenta una

mutación de resistencia minoritaria en la PR que no detectamos en la segunda, dónde

aparecen nuevas mutaciones en la RT y la PR. Este paciente presentó episodios de

viremia transitoria detectable (“blips”) sin llegar a fallo virológico en el 2005 y se le

intensificó el tratamiento con dos análogos de nucleósidos en el 2006, lo que podría

explicar la presencia de mutaciones de resistencia en la RT en la segunda muestra.

FECHA SAMPLE CV G48E N88S K65R K103E M184I G190R M230I

1. jun. 2003 muestra-1 <50 NO 1,01% NO NO NO NO NO

17. ene. 2014 muestra-2 <50 13,7% NO 2,1% NO 15,7% 15,9% 16,7%

RTPRPACIENTE DO8

El paciente DO11 pertenece a la rama de los tres fármacos, no tenemos ningún

estudio de resistencias previo. En 2007 se le simplifica el tratamiento a sólo kaletra, a

finales del 2009 tiene “blips” y a mediados del 2010 se le vuelve a intensificar el

tratamiento. Presento fallo virológico en el 2013 pero en el análisis genotípico de la

secuenciación convencional no presenta mutaciones de resistencia circulantes en plasma

que se puedan asociar a resistencia a ninguno de los fármacos. En la última muestra

aparece una nueva mutación (F227L) que no estaba descrita anteriormente.

FECHA SAMPLE CV A71T G73S M184I G190R F227L M230I

1. jun. 2003 muestra-1 <50 11,3% 1,5% 2,6% 2,0% NO 2,4%

18. oct. 2013 Sanger 900160 NO NO NO NO NO NO

17. ene. 2014 muestra-2 <50 33,64% NO NO NO 4,6% NO

PACIENTE DO11 RTPR

El paciente DO12 también pertenece a la rama de los tres fármacos y no tenemos

ningún estudio de resistencias previo. En 2005 se le simplifica el tratamiento a sólo

kaletra y se mantiene hasta la fecha con carga viral indetectable. En la segunda muestra

aparecen dos nuevas mutaciones de resistencia en la PR y se mantienen las que ya tenía

presentes en la primera muestra (menos la G48R que desaparece) once años antes.

FECHA SAMPLE CV L10I D30N M46I G48R G73S L100V M184I G190R M230I

1. jun. 2003 muestra-1 <50 90,7% NO NO 12,6% 9,4% NO 13,6% 9,8% 24,0%

17. ene. 2014 muestra-2 <50 87,7% 6,0% 11,8% NO 24,4% NO 14,8% 12,6% 11,5%

PRPACIENTE DO12

El paciente DO16 también pertenece a la rama de los tres fármacos y tampoco

tenemos ningún estudio de resistencias previo. En 2005 también se le simplifica el

tratamiento a sólo kaletra y se mantiene hasta la fecha con carga viral indetectable. En

la segunda muestra aparecen dos nuevas mutaciones de resistencia y no se detectan las

cuatro mutaciones que estaban presentes en la primera muestra once años antes.

1.4. DISCUSIÓN

En este estudio no se pretende comparar la eficacia de la monoterapia con la

terapia triple compuesta por el mismo fármaco más 2 análogos de nucleósidos, pues ya

hay estudios que demuestran la eficacia de la monoterapia (McKinnon JE et al., 2011,

Pulido F et al., 2008, Arribas JR et al., 2009)sino que pretende estudiar la estabilidad

del reservorio celular y la evolución del mismo a lo largo del tiempo, unos diez años

más tarde.

En teoría, todas las variantes circulantes pueden integrarse en forma de provirus

en las células y estar representadas en el reservorio de células latentemente infectadas.

El tratamiento antirretroviral (TARV) es incapaz de afectar a provirus que no se

encuentran en replicación, por lo que el VIH es capaz de persistir en este reservorio de

células latentemente infectadas (1 de cada 105-106 células CD4+ infectadas) (Chun et

al., 1997; Finzi et al., 1997) durante largos periodos de tiempo (vida media, 44 meses)

(Finzi et al., 1999), pudiendo ser fuente potencial de nuevos ciclos de replicación. La

existencia de este pequeño reservorio de células latentemente infectadas es la causa

principal de que el TARV no sea capaz de erradicar completamente el virus de los

individuos infectados (Chun et al., 2005).

La evolución de las quasiespecies con resistencia a los antirretrovirales (ARV)

dentro de un individuo dependerá de la generación de variabilidad genética en el virus y

a la selección de variantes resistentes al fármaco durante la terapia, en un proceso de

competición continua entre las variantes genéticas con mejor eficacia biológica o

replicativa. El desarrollo de resistencias a drogas estará por tanto subordinado a la

facilidad para adquirir una mutación particular (o conjunto de mutaciones), el efecto de

la mutación de resistencia a la susceptibilidad del fármaco, a la medida en que la

replicación del virus continúa durante el tratamiento y a la concentración del fármaco,

siendo más frecuente la aparición de resistencias cuando el virus está expuesto a niveles

subóptimos del inhibidor.

Dada la cinética de replicación y la tasa de mutación, ha sido estimado que cada

mutación puntual posible se produce entre 104 y 105 veces al día en los pacientes no

tratados (Coffin, 1995). Este hecho implica que la mayoría de las mutaciones de

resistencia a drogas están posiblemente presentes incluso antes de iniciar la terapia. Sin

embargo, no parecen existir virus con mutaciones de resistencia suficientes para replicar

en presencia de múltiples drogas en pacientes previamente no tratados e infectados con

virus sensible. De hecho, una vez se ha alcanzado la supresión del VIH-1 en personas

previamente no tratadas, normalmente la supresión persiste indefinidamente si no se

interrumpe el tratamiento.

La emergencia de nuevos genotipos dominantes que sustituyen al virus sensible

durante el tratamiento requiere de una replicación viral residual y podría seguir dos

posibles mecanismos: emergencia de una nueva mutación en un genotipo dominante

(Bonhoeffer et al., 1995; Charpentier et al., 2004; Lech et al., 1996; Ribeiro y

Bonhoeffer, 2000) o selección de un genotipo derivado de una quasiespecie preexistente

a bajo nivel (Charpentier et al., 2004; Ribeiro y Bonhoeffer, 2000), fenómeno que se

explicaría dadas las cifras de mutación, replicación y del tamaño del genoma del VIH-1.

En este estudio demostramos la existencia de variantes que perduran en el

reservorio durante más de diez años, esto lo vemos en todos los pacientes menos en el

DO8 y DO11 que durante ese tiempo tuvieron varios episodios de viremia transitoria

detectable (blips), incluso uno de los pacientes, el DO11 terminó en fallo virológico y

eso pudo hacer que cambiase completamente el perfil de variantes de su reservorio

celular. Además detectamos mutaciones que no se habían detectado con anterioridad lo

que apoya la teoría de que el reservorio latentemente podría evolucionar con el tiempo

por replicación residual y producir nuevas variantes sin necesidad de ser detectable en

plasma. Esta conclusión, puede verse apoyada por un estudio de Changin A et al., donde

identifican reservorios con capacidad de replicación. (Changin A et al., 2015).

Entre las conclusiones finales podemos añadir que el software DeepCheck que

se actualiza periódicamente y que cuesta unos 30-50$ por muestra, dependiendo del

número de muestras analizadas por año (Ram D et al., 2014) es una buena apuesta para

el análisis de mutaciones de resistencia en el VIH-1. (ABL proporcionó el software

DeepChech de forma gratuita en este estudio).

Otra consideración a tener en cuenta, es que sería muy interesante ampliar este

trabajo con un estudio de evolución de las secuencias mediante la construcción de

árboles filogenéticos. Pues si vemos evolución de provirus a lo largo del tiempo en

pacientes con CV indetectable significaría que existe efectivamente replicación residual.

CAPÍTULO 2:

“BIO-SIERRA”

DISEÑO DE UNA APLICACIÓN

PARA ANÁLISIS DE MUTACIONES

DE VIH-1

2.1. INTRODUCCIÓN

El avance de las tecnologías Next Generation Sequencing (NGS) está

permitiendo obtener una gran cantidad de información genómica en tiempos y costes

cada vez más reducidos, sin embargo será una inversión perdida si los datos generados

no pueden ser analizados adecuadamente. Se espera que NGS pueda tener un gran

impacto en el diagnóstico y el descubrimiento de SNP (Voelkerding KV et al., 2009),

siempre que haya herramientas disponibles que hagan la detección de variantes y la

interpretación de los resultados secuenciados de forma sencilla y automatizada.

Ya hay algunas herramientas disponibles para el análisis de datos de NGS y

están en continuo crecimiento, pero muchas de ellas están diseñadas para hacer una

tarea específica y rara vez ofrecen un análisis de amplio espectro. Y las pocas

herramientas disponibles para esto son paquetes comerciales.

En este trabajo hemos desarrollado una aplicación en leguaje C# (Sharp) para

análisis de amplicones de VIH-1 procedentes de la plataforma GS. Junior de la

tecnología 454 que permite procesar y almacenar los datos en una base de datos

relacional.

Roche ha desarrollado una herramienta para el análisis de amplicones llamada

AVA (Amplicon Variant Analyzer). Es fácil de usar pero tiene ciertas limitaciones ya

que sólo admite los archivos SFF propios de dicha tecnología y carece de un

almacenamiento estructurado de los datos, es decir archivos de texto plano en lugar de

almacenamiento en una base de datos (De Schrijver et al., 2010).

2.1.1. NET FRAMEWORK 3.5

Microsoft .NET Framework, es un componente de software que se incluye en los

sistemas operativos de Microsoft como Windows XP, Windows Vista o Windows 7.

Provee soluciones para requerimientos comunes de los programas y gestiona o

administra la ejecución de programas escritos específicamente para este Framework. El

objetivo principal de esto es crear un marco de desarrollo de software sencillo

reduciendo las vulnerabilidades y aumentando la seguridad de los programas

desarrollados por los programadores.

Las soluciones previamente codificadas que forman la biblioteca .NET, cubren

un largo rango de necesidades de la creación de programas. Los programadores las

emplean y combinan con sus propios códigos en sus programas.

Con esta plataforma Microsoft incursiona de lleno en el campo de los servicios

web y establece al XML como norma en el transporte de información en sus productos

y lo promociona como tal en los sistemas desarrollados utilizando sus herramientas.

2.1.2. C# (SHARP), EL LEGUAJE PREDILECTO DEL .NET

FRAMEWORK.

El lenguaje más usado de todos los tiempos sin duda es el C++ por su gran

alcance y el alto grado de control que brinda al programador, sin embargo su inminente

dificultad hizo que lenguajes tan “superficiales” como el Visual Basic llegaran a las

manos de todos por su sencillez y sobre todo por su velocidad de desarrollo.

Era necesario que hubiera un lenguaje de programación entre Microsoft Visual

Basic y C/C++ que permitiera crear aplicaciones rápidamente y que a su vez permitieran

un alto grado de control, para que los programadores que no quisieran cambiarse de

C/C++ a Visual Basic no perdieran el control del bajo nivel al que estaban

acostumbrados.

La sintaxis y estructuración de C# es muy parecida a la de C++ o Java, puesto

que la intención de Microsoft es facilitar la migración de códigos escritos en estos

lenguajes a C# y facilitar su aprendizaje a los desarrolladores habituados a ellos

(Ferguson J et al., 2009). Sin embargo, su sencillez y el alto nivel de productividad son

comparables con los de Visual Basic. Este lenguaje se presentó en Orlando Florida en

el año 2000.

2.1.3. IDE (INTEGRATED DEVELOPMENT ENVIRONMENT) PARA

Un IDE es una Entorno Integrado de Desarrollo que brinda a un programador

varias herramientas entre ellas una interfaz gráfica de usuario (GUI), un intérprete,

coloración de sintaxis entre otras; para facilitar el trabajo a la hora de programar.

El .NET Framework consta internamente de compiladores para los lenguajes

promocionados por Microsoft, entre los que se encuentran C# y Visual Basic

principalmente. Teniendo la posibilidad de realizar nuestros programas sin pagar un

solo centavo por licencias de programas, al ser el .NET framework una aplicación

freeware que se puede descargar de Internet.

Pero hay que estar conscientes que esto involucra escribir nuestro código en

algún editor de texto que ya dispongamos como el Bloc de Notas, y hacer la respectiva

compilación desde un entorno de consola de comandos (DOS). Así como no disponer

de diseñadores gráficos para las aplicaciones con formularios.

Para solucionar este problema, es de gran utilidad el uso de un IDE para la

tecnología .NET, y es por ello que Microsoft lanza al mercado el IDE más usado en el

mundo para esta tecnología, conocido como: Microsoft Visual Studio.NET, que sirve

como IDE para todos los lenguajes de Microsoft.

2.1.4. MICROSOFT SQL SERVER

Microsoft SQL Server (http://es.wikipedia.org/wiki/SQL_Server) es un sistema

de gestión de bases de datos relacionales (SGBD) basado en el lenguaje Transact-SQL

(Lenguaje de Consulta Estructurado), capaz de poner a disposición de muchos usuarios

grandes cantidades de datos de manera simultánea.

Microsoft SQL Server constituye la alternativa de Microsoft a otros potentes

sistemas gestores de bases de datos como son Oracle, Sybase ASE, PostgreSQL o

MySQL.

2.2. MATERIAL Y MÉTODOS

� EQUIPO

El equipo que hemos utilizado para el desarrollo de la aplicación fue un

ordenador portátil LG R510, con las siguientes características:

• Procesador: Intel(R) Core(TM) Duo CPU 8400 @2.26GHz 2.27GHz

• Memoria RAM: 4,00 GB

• Disco Duro: 250 GB

• Tipo de Sistema: Sistema operativo de 32 bits (Windows 7 Ultimate SP1)

� CREACIÓN DE LA ESTRUCTURA DE BASE DE DATOS

La aplicación fue desarrollada y probada en SQL Server 2014. La base de datos

se utiliza fundamentalmente para ejecutar consultas de manipulación y definición de

datos mediante objetos pertenecientes a la biblioteca ADO (ActiveX Data Objects) que

usamos para recuperar, modificar, insertar o borrar un conjunto de registros de la base

de datos.

Antes de ejecutar la aplicación hemos creado la estructura de base de datos, para

ello utilizamos el DBMS (Sistema Manejador de Bases de Datos) SQL Server 2014

Management Studio.

� Diagrama y Definición de Tablas

En este punto mostraremos el diagrama de la base de datos y haremos una breve

descripción de las tablas que forman dicha base de datos.

Fig. 2.1. Esquema de la base de datos. Fuente: Propia del autor.

� BS_PACIENTE

En la tabla BIOSierra PACIENTE se registran los datos de los pacientes: el

Nombre y apellidos en la columna “Nombre” y el Número de Historia en “NHistoria”

(el número de historia se ha designado con un nvarchar por si se decide añadir el NH

delante del número: ej. NH2142). El “ID_Paciente” es la clave principal de la tabla y es

un entero que coincidirá con el número de historia (ej. 2142).

Fig. 2.2. Tabla BS_PACIENTE de la base de datos. Fuente: Propia del autor.

� BS_MUESTRAS

En la tabla muestras se registran: como clave principal el “ID_Muestra” que es

el número de la muestra (se le ha designado como nvarchar porque si la misma muestra

se procesa más de una vez, se espera que lleve el mismo número y una coletilla como

por ejemplo: 20036128 y la repetición podría ser 20036128-2 o 20036128-b…etc.), el

“ID_Paciente” es el número de historia como hemos descrito anteriormente, el

“ID_Run” es el identificador de la carrera dónde se procesó esa muestra, el “ID_Mid”

es el identificador del Mid que identifica a esa muestra, “CV” es la carga viral que tiene

la muestra y “Descripción” es una campo libre para que el usuario escriba lo que crea

pertinente, por ejemplo si se trata de una muestra de plasma o sangre total…etc.

Fig. 2.3. Tabla BS_MUESTRAS de la base de datos. Fuente: Propia del autor.

� BS_SEQS_POBLACIONALES

En esta tabla registran las secuencias poblacionales de los pacientes, es decir, las

muestras que se han procesado por el método Sanger: como clave principal tenemos el

“ID_SeqP” que es el número de la muestra (se le ha designado como nvarchar porque si

la misma muestra se procesa más de una vez, se espera que lleve el mismo número y

una coletilla como por ejemplo: 20036128 y la repetición podría ser 20036128-2 o

20036128-b…etc.), el “ID_Paciente” es el número de historia como hemos descrito

anteriormente, “CV” es la carga viral que tiene la muestra y “Descripción” es una

campo libre para que el usuario escriba lo que crea pertinente, por ejemplo si se trata de

una muestra de plasma o sangre total…etc., “Fecha” es el día en el que se hizo la

secuenciación y “SeqP” es la secuencia de nucleótidos.

Fig. 2.4. Tabla BS_SEQS_POBLACIONALES de la base de datos. Fuente: Propia del autor.

� BS_RUNS

La tabla BS_RUNS registra el nombre de la carrera “ID_Run” como calve

principal y la “Fecha” que es el día en el que se hizo la secuenciación.

Fig. 2.5. Tabla BS_RUNS de la base de datos. Fuente: Propia del autor.

� BS_MIDS

En esta tabla se registran el “Nombre” del Mid (por ejemplo MID20), la

“Descripción” que es la secuencia del mid, normalmente 10 nucleótidos y como clave

principal tenemos el “ID_Mid” que es un entero y que coincide con el número de Mid.

(en el ejemplo anterior el ID_Mid sería 20).

Fig. 2.6. Tabla BS_MIDS de la base de datos. Fuente: Propia del autor.

� BS_PRIMERS

En esta tabla se registran los primers que van a determinar cada amplicón o

región en el genoma. El identificador “ID_Region” es una clave principal y es un

número entero (por ejemplo si se trata del amplicon A el ID_Region es 1…). El

“ID_ForwRev” es el identificador que identifica si el primer es forward o reverse (en

caso de ser reverse se marca con un “bit”), el “ID_Comp” es el identificador del primer

reverso complementario, “Nombre” es el nombre del primer y “Descripción” es la

secuencia de nucleótidos.

Fig. 2.7. Tabla BS_PRIMERS de la base de datos. Fuente: Propia del autor.

� BS_DATOS_BRUTOS

En esta tabla se registran los datos brutos, es decir la información de los fastq

antes de ser procesados. “ID_Run” es el identificador de la carrera, “ID_Seq” es el

identificador propio de cada secuencia, “Seq” es la secuencia de nucleótidos y “SeqQ”

es la secuencia de calidad.

Fig. 2.8. Tabla BS_DATOS_BRUTOS de la base de datos. Fuente: Propia del autor.

� BS_DATOS_PREPROCESADOS

En esta tabla se registran los datos después de ser pre-procesados. En el

preprocesado lo que se hace es identificar los MIDs con el “ID_Mid” y una vez

identificados en la secuencia, se cortan los 10 nucleótidos correspondientes a ese MID

(se hace lo mismo en la secuencia de calidad, se cortan los 10 primeros caracteres y en

las secuencias en las que no se identifica ningún Mid se guardan sin “trimar” en la tabla

y sin identificador). En el preprocesado también se identifica mediante una “query” o

consulta el “ID_Region” y el “ID_ForwRev” descritos anteriormente en la tabla

BS_PRIMERS. Del mismo modo el “ID_Run” es el identificador de la carrera,

“ID_Seq” es el identificador propio de cada secuencia, “Seq” es la secuencia de

nucleótidos y “SeqQ” es la secuencia de calidad como ya se describió en la tabla

BS_DATOS BRUTOS, la única diferencia es que la secuencia y la calidad en esta tabla

se guardan “trimadas” si se identifico el Mid correspondiente.

Fig. 2.9. Tabla BS_DATOS_PREPROCESADOS de la base de datos. Fuente: Propia del autor.

� BS_SEQS_REFERENCIA

En esta tabla se registran las secuencias de referencia que se usarán

posteriormente para el alineamiento. El “ID_SeqR” es la clave principal, se trata del

identificador de la secuencia de referencia y es un número entero. “Nombre” es el

nombre de la secuencia y “SeqR” es la secuencia de nucleótidos.

Fig. 2.10. Tabla BS_SEQS_REFERENCIA de la base de datos. Fuente: Propia del autor.

� BS_DATOS_ALINEADOS

En esta tabla se registran los datos después de que se haya hecho el

alineamiento. Se identifican mediante una “query” o consulta los identificadores

“ID_Region” y el “ID_ForwRev” descritos anteriormente en la tabla BS_PRIMERS, del

mismo modo el “ID_Run” es el identificador de la carrera, “ID_Seq” es el identificador

propio de cada secuencia, “ID_SeqR” es el identificador de la secuencia de referencia

que se utilizó en el alineamiento, “Seq” es la secuencia de nucleótidos y “SeqQ” es la

secuencia de calidad como ya se describió en la tabla BS_DATOS BRUTOS, “ID_Mid”

es el identificador del mid de las secuencias que se han alineado. “Inicio” es un número

entero y es la coordenada de inicio dónde la secuencia empieza a alinear respecto a la

referencia. Por último “Fin” es un también número entero y es la coordenada de fin

dónde la secuencia termina de alinear respecto a la referencia.

Fig. 2.11. Tabla BS_DATOS_ALINEADOS de la base de datos. Fuente: Propia del autor.

� Programación en Visual Studio con C#

En este apartado se describirán algunos detalles de la programación para el

desarrollo de la aplicación y algunos ejemplos de código. (Sólo se describirán algunas

partes, pues la explicación total del desarrollo y el código excederían la extensión

máxima del trabajo).

Al abrir el editor Microsoft Visual Studio 2012 se muestra una página de inicio

como en la siguiente figura:

Fig. 2.12. Página de inicio. Fuente: Propia del autor.

Para comenzar un nuevo proyecto se le da al botón de Nuevo proyecto, debajo

de Iniciar y a continuación en el menú de la Fig. 2.13 elijo la opción de programación

Visual C# y una Aplicación de Windows Forms.

Fig. 2.13. Opciones de programación. Fuente: Propia del autor.

o Agregar la referencia Web al proyecto

En el Explorador de soluciones, hacemos clic en el nombre del proyecto y, a

continuación, hacemos clic en Agregar referencia de servicio.

Fig. 2.14. Explorador de soluciones. Fuente: Propia del autor.

Nos aparece el cuadro de diálogo Agregar referencia de servicio.

Fig. 2.15. Agregar referencia de servicio. Fuente: Propia del autor.

En el cuadro de diálogo Agregar referencia de servicio, hacemos clic en el botón

Avanzado. Nos aparece el cuadro de diálogo Configuración de servicio de referencia.

Fig. 2.16. Configuración de servicio de referencia. Fuente: Propia del autor.

En el cuadro de diálogo Configuración del servicio de referencia, hacemos clic

en Agregar referencia Web. Aparece el cuadro de diálogo Agregar referencia Web.

Fig. 2.17. Agregar referencia Web. Fuente: Propia del autor.

En el cuadro URL, escribimos la dirección URL del servicio Web que deseamos

utilizar (En este caso el de Stanford).

En los servicios Web que se encuentran en este cuadro de URL, seleccionamos

el servicio Web que deseamos utilizar. En el campo Nombre de referencia Web,

escribimos un nombre que va a utilizar en el código para acceder al servicio Web

seleccionado mediante programación. Hacemos clic en Agregar referencia

Un espacio de nombres basado en el nombre de referencia Web es creado por la

construcción de una jerarquía de carpetas anidadas. Dentro de la carpeta más interior, se

crea un archivo .wsdl que hace referencia al servicio Web, junto con los archivos de

soporte, como el descubrimiento (.disco y .discomap) archivos, que incluyen

información acerca de dónde se encuentra el servicio Web.

o Contenido del Proyecto Visual Studio

Fig. 2.18. Explorador de soluciones. Fuente: Propia del autor.

En el explorador de soluciones podemos identificar 3 partes bien diferenciadas

que vamos a detallar a continuación:

� Web References

En esta parte podemos ver la referencia al servicio Web de Stanford, el añadido

de esta referencia ya lo hemos detallado en el punto anterior Agregar la referencia

Web al proyecto.

� Clases de terceros

En este apartado podemos ver el conjunto de clases con el código que hemos

reutilizado en nuestra aplicación (La fuente de estas clases es: Jaime García Hernández).

A continuación detallaremos cuáles son y para que se utilizan:

ClsExportarExcel.cs

Esta clase la utilizamos para exportar el contenido de cualquier

DataGridView a una hoja Excel.

ClsMyItem.cs

Esta clase la utilizamos para guardar el los ComboBox de la aplicación un

contenido con un formato predefinido.

ClsMyOwnFileProcessor.cs

Esta clase la utilizamos para guardar las propiedades de una conexión SQL

en un fichero de texto y posteriormente cargarlas del mismo en nuestra

aplicación.

ClsMyOwnQueries.cs

Esta clase la utilizamos para guardar toda la lógica SQL de nuestra

aplicación, sustituyendo las consultas SQL del tercero por las nuestras.

ClsMyOwnUtilities.cs

Esta clase la utilizamos para evitar que se reabran formularios en la

aplicación.

ClsMySQLConnection.cs

Esta clase la utilizamos para conectar y lanzar consultas en la BD.

ClsMyWait.cs

Esta clase la utilizamos para lanzar un formulario modal de espera.

� Windows Forms

En este apartado podemos ver todos los formularios (Pantallas) que muestra

nuestra aplicación. En estos formularios se encuentra la lógica de la misma, siendo el

formulario principal e inicio de nuestra aplicación FrmPrincipal. Dentro de este

formulario principal iremos lanzando los diferentes procesos de nuestra aplicación y

lanzando el resto de formularios descritos en la imagen del explorador de soluciones.

o Conectar a la Base de Datos

Para conectar a la Base de Datos usamos una clase de acceso y gestión de los

datos (ClsMySQLConnection). Utilizando los distintos métodos y propiedades de la clase

conectamos y ejecutamos consultas en nuestra base de datos. La conexión sería:

Establecemos las propiedades de la conexión y después ejecutaríamos la

subrutina Connect:

o Importar Datos

Para Importar datos hacemos la extracción de un fichero fastq (Para importar

Runs) o fasta (Para importar Poblacionales) volcando los datos en nuestra BD. Como

ejemplo veremos el código de extracción del fasta:

Como podemos ver en la imagen vamos leyendo del fichero guardando en

variables el ID de secuencia, la secuencia y la Carga Viral por separado para, más

adelante, guardar los campos en la Base de Datos utilizando la clase de conexión

(ClsMySQLConnection) y la clase con la lógica SQL (ClsMyOwnQueries).

o Cargar Datos en DataGridView

Una vez conectados a la Base de Datos e importados los datos de Runs o

Poblacionales podríamos cargar el contenido de lo importado en un DataGridView

vamos a ver como ejemplo como hace el proceso para cargar una Run de los datos

brutos:

Como podemos ver en el siguiente código cargamos el resultado de una consulta

utilizando el método ExecuteThatSelectQuery de la clase de conexión en un DataTable

(DTDatosBrutos) y este DataTable lo enchufamos al DataGridView (DGDB), que le

hemos pasado por parámetro a la rutina, a través del objeto DataSource del

DataGridView que obtiene o establece el origen de datos cuyos datos se están

mostrando en el control System.Windows.Forms.DataGridView.

o Preprocesar datos

Una vez cargados los Datos Brutos los preprocesaremos, a continuación

describiremos el proceso de preprocesamiento de datos.

Para el preprocesamiento de datos utilizamos un INSERT-SELECT cruzando las

partes de la secuencia de la tabla de DATOS_BRUTOS donde se encuentran el MID y

el PRIMER con las tablas de MIDS y PRIMERS de nuestra BD insertando así los

campos en la tabla de DATOS_PREPROCESADOS sin los nucleótidos que forman

parte del MID de la secuencia.

o Alinear Datos Preprocesados

A continuación detallaremos como se realiza el alineamiento de los datos.

Como se ve en la imagen anterior lo primero que hacemos es recuperar los datos

preprocesados de la tabla mediante una consulta que filtrará dichos datos por Run y

Mid. Después componemos el directorio y el nombre del fastq que vamos a construir a

partir de dichos datos. Construimos el fastq a partir de los mismos y construimos el

fasta de la secuencia de referencia a partir de las secuencia de referencia seleccionada en

el CombolBox. A continuación ejecutamos el alineador InDelFixer de la forma

guardar en la tabla de DATOS_ALINEADOS de nuestra Base de Datos.

o Enviar Secuencia al Web Service Stanford

A continuación detallaremos como hacemos el proceso de utilización del Web

Service de Stanford. Para ello utilizaremos como ejemplo el envío de una secuencia con

la opción Procesar Secuencia Seleccionada del DataGridView de Datos Preprocesados

de nuestra aplicación:

En primer lugar en la subrutina ProcesarSecuencia definimos un array para

guardar la secuencia/s contenida/s en el DataGridView.

Después guardamos la secuencia/s del DataGridView seleccionado en el array

de secuencias definido previamente.

Por último procesamos la secuencia/s llamando al Web Service de Stanford.

El Web Service nos devuelve un Xml con las diferentes tablas de resultados, este

Xml lo almacenamos en un DataSet para su posterior mostrado en nuestra aplicación.

o Resultados Totales del Web Service Stanford

En este apartado detallaremos como se muestran los resultados totales del Web

Service. Este Formulario hace un mostrado en Bruto del resultado del DataSet donde

hemos guardado el Xml que nos devuelve el Web Service, sin filtrar por secuencia

dichos resultados, este filtrado lo hacemos en la pestaña de Resultados.

Al seleccionar la tabla del DataSet geneData cargaremos en contenido de dicha

tabla en el DGResultados y llamaremos a la rutina de ObtenerResultadosTotales donde

calcularemos el contenido DGVGTotales.

En ObtenerResultadosTotales calcularemos DGVGTotales en función de la tabla

seleccionada en el ComboBox Resultado.

En nuestro ejemplo la tabla seleccionada es geneData, lo que haremos es contar

cuantas de nuestras secuencias son PR, RT o IN y después mostraremos en el

DataGridView de Totales (DGVGTotales) el número de secuencias analizadas de cada

2.3. RESULTADOS

La aplicación consigue conectarse sin problemas a la base de datos SQL server,

la etapa de extracción o “parsing” de los formatos de entrada fasta y fastq la hace

perfectamente importándolos directamente a la base de datos relacional.

En el preprocesado identifica y corta las etiquetas MID mediante una consulta o

“query” siempre que no haya ningún error en la secuencia, este mismo proceso lo lleva

a cabo para la identificación de los primers y añade a la secuencia la región a la que

pertenece bien sea el amplicón 1, 2, 3 o 4, además de asignarle a la lectura “forward” o

“reverse” según proceda.

Para el análisis de resultados las secuencias seleccionadas son enviadas a base de

datos de Stanford ( HIV RT and Protease Sequence Database) haciendo uso de su Web

Service llamado “Sierra” (http://hivdb.stanford.edu). El programa realiza un análisis a

partir de la secuencia de la PR y la RT o una lista de mutaciones (Rhee et al., 2003),

comparando la secuencia de interés con una secuencia consenso de subtipo B derivada

de un alineamiento de secuencias de subtipo B de la Base de Datos de VIH de Los

Álamos (hiv-web.lanl.gov). Cada mutación de resistencia asociada a un compuesto

recibe una puntuación de penalización y la puntuación total para cada uno de los

fármacos corresponde a la suma de todas las puntuaciones asociadas a resistencia a un

compuesto determinado. Con la puntuación total, el programa emite un informe con uno

de los siguientes niveles de resistencia para cada uno de los compuestos anti-VIH

aprobados por la FDA: sensible (puntuación 0-9) (no se ha demostrado reducción en la

respuesta a este fármaco en aislados con estas mutaciones); potencial bajo nivel de

resistencia (puntuación 10-14) (presencia de mutaciones que no producen resistencia

por sí solas, pero indican la posibilidad de que se seleccionen por los fármacos); bajo

nivel de resistencia (puntuación 15-29) (sensibilidad reducida in vitro y/o respuesta

virológica subóptima al tratamiento); resistencia intermedia (puntuación 30-59) y alto

nivel de resistencia (puntuación >60) (alta resistencia de los aislados in vitro con el

mismo perfil de mutaciones y/o respuesta virológica escasa/nula al tratamiento

observada en pacientes infectados con aislados de genotipo similar). Las mutaciones

que causan hipersensibilidad a un fármaco tienen una puntuación negativa.

El Web Service nos devuelve un Xml con los resultados de cada secuencia

analizada, que incluye entre otras cosas las mutaciones encontradas, la resistencia a los

fármacos, el alineamiento frente a su referencia, el subtipo del virus, un análisis de

hipermutación o actividad de APOBEG3G, este enzima celular introduce cambios

G�A en determinadas secuencias de VIH-1 (Goff, 2003; Harris et al., 2003; Yu et al.,

2004).

Todos los resultados que nos interesan son extraídos y se visualizan en pantalla,

además se pueden exportar en formato Excel. También se hace una estadística y

resumen de las mutaciones totales y la cobertura, pues como he comentado el Web

Service nos devuelve el resultado de cada secuencia, no hace el cálculo global. Se hace

también el análisis de las secuencias que han fallado, el total de secuencias

hipermutadas..etc.

La aplicación también hace el alineamiento de las secuencias frente a una

referencia incluida en la base de datos y que el usuario elegirá previamente, este paso lo

hace con el alineador InDelfixer que es una herramienta java y posteriormente en el

mismo proceso de alineación se extraen los datos del fichero de salida reads.sam y se

vuelcan en la base de datos. (Para ver más detalles mirar el Anexo, que incluye una guía

básica de usuario).

Para probar el funcionamiento de aplicación se analizaron las mismas muestras

del capítulo 1. Y a continuación mostramos unas tablas con las comparaciones.

PACIENTE DO2

APLICACIÓN FECHA SAMPLE CV V32A M46I G48R E40F M41L K70R L74V K103E E138R M184V L210W T215Y M230I

26. abr. 2002 Sanger 5195 NO NO NO NO SI NO NO NO NO SI SI SI NO

DeepCheck 1. jun. 2003 muestra-1 <50 1,6% 4,5% NO NO 64,4% NO NO NO NO 71,7% 71,6% 77,7% 10,4%

BioSierra 1. jun. 2003 muestra-1 <50 1,7% 4,4% NO NO NO NO NO 3,9% 28,5% 71,4% 74,6% 76,5% NO

DeepCheck 17. ene. 2014 muestra-2 <50 NO NO 25,4% 12,4% 66,3% 2,7% 5,4% NO NO 44,7% 64,5% 65,6% NO

BioSierra 17. ene. 2014 muestra-2 <50 NO NO 18,3% NO NO 0,8% 2,7% 5,1% NO 45,8% 63,0% 62,1% NO

PACIENTE DO8

APLICACIÓN FECHA SAMPLE CV G48E N88S K65R K103E M184I G190R M230I

DeepCheck 1. jun. 2003 muestra-1 <50 NO 1,01% NO NO NO NO NO

BioSierra 1. jun. 2003 muestra-1 <50 NO 0,4% NO 1,3% NO NO NO

DeepCheck 17. ene. 2014 muestra-2 <50 13,7% NO 2,1% NO 15,7% 15,9% 16,7%

BioSierra 17. ene. 2014 muestra-2 <50 5,1% NO 1,3% NO 10,6% 10,0% NO

APLICACIÓN FECHA SAMPLE CV A71T G73S M184I G190R F227L M230I

DeepCheck 1. jun. 2003 muestra-1 <50 11,3% 1,5% 2,6% 2,0% NO 2,4%

BioSierra 1. jun. 2003 muestra-1 <50 6,0% 0,19% 2,4% 1,8% NO NO

18. oct. 2013 Sanger 900160 NO NO NO NO NO NO

DeepCheck 17. ene. 2014 muestra-2 <50 33,64% NO NO NO 4,6% NO

BioSierra 17. ene. 2014 muestra-2 <50 20,4% NO NO NO 4,6% NO

PACIENTE DO11 RTPR

PACIENTE DO12 RT

APLICACIÓN FECHA SAMPLE CV L10I D30N M46I G48R G73S L100V M184I G190R M230I

DeepCheck 1. jun. 2003 muestra-1 <50 90,7% NO NO 12,6% 9,4% NO 13,6% 9,8% 24,0%

BioSierra 1. jun. 2003 muestra-1 <50 89,8% NO NO 10,7% 5,1% NO 9,9% 6,9% NO

DeepCheck 17. ene. 2014 muestra-2 <50 87,7% 6,0% 11,8% NO 24,4% NO 14,8% 12,6% 11,5%

BioSierra 17. ene. 2014 muestra-2 <50 87,8% 6,0% 11,9% NO 13,6% 1,1% 12,6% 10,1% NO

PACIENTE DO16 PR

APLICACIÓN FECHA SAMPLE CV L24I G73S N88D E138G M184I G190R T215Y 230I

DeepCheck 1. jun. 2003 muestra-1 <50 NO NO 2,6% 2,9% NO 3,7% NO 4,6%

BioSierra 1. jun. 2003 muestra-1 <50 NO NO 1,6% 2,3% NO 3,0% NO NO

DeepCheck 17. ene. 2014 muestra-2 <50 NO 1,9% NO NO NO NO 32,6% NO

BioSierra 17. ene. 2014 muestra-2 <50 1,57% 0,7% NO NO 1,0% NO 46,1% NO

En el paciente DO2 la aplicación no detecta las primeras mutaciones de la RT

E40F y M41L, además hay una diferencia significativa en el porcentaje de las

mutaciones K70R y L74V, eso se puede explicar porque en el análisis de los resultados

la base de datos de Stanford nos devuelve todas las secuencias del amplicón dos como

fallidas, ya que este amplicón cubre parte de la proteasa (desde la posición 2487 a 2549,

un total de 62 nucleótidos) y parte de la RT (desde la posición 2550 a 2836, con un

total de 286 nucleóticos), debido a esto no alcanza el tamaño mínimo para que se le

pueda asignar un Subtipo a esa secuencia en ninguno de los genes y las rechaza. Por lo

tanto perdemos todas las posiciones que deberían estar cubiertas con este amplicón y

que no solapan con ningún otro (ver Fig. 1.7. del capítulo 1).

Nuestra aplicación tampoco detecta la mutación M230I en ninguno de los

pacientes, esta mutación es extremadamente rara y normalmente seleccionada in vitro

por Rilpivirina (RPV) y los efectos en los fármacos no análogos de nucleósidos no están

estudiados (NNTI).

El resto de diferencias están en mutaciones que se encuentran con frecuencias

muy bajas, no detectándose por alguno de las dos aplicaciones si establecemos el punto

de corte en el 1% y podría tratarse de ruido de fondo.

2.4. DISCUSIÓN

En vista a la comparación de los resultados con la aplicación Deepcheck

podemos decir que son muy similares y que BIOSierra es capaz de detectar las

mutaciones con bastante precisión exceptuando la limitación que presenta con el

amplicón número dos. Esto se puede solucionar con un nuevo diseño del experimento,

además se podría utilizar la nueva química plus de 454 que es capaz de secuenciar hasta

un máximo de 800pb.

Los MIDs son detectados y recortados correctamente, sin embargo este paso

tiene una limitación ya que sabemos que la tecnología comente errores en la

secuenciación y sólo detectamos aquellos MIDs que no tiene ningún error en la

secuencia, en próximas versiones se pretende añadir un proceso en el que el usuario

pueda elegir si quiere ser exigente en este punto o permitir algún error (mistmach).

El software AVA (Amplicon Variant Analyzer) de Roche permite un desajuste

de dos errores en el reconocimiento de la secuencia MID, si comparamos nuestros datos

con los del AVA en los datos que hemos analizado anteriormente de un total de 89810

secuencias nuestra aplicación deja sin reconocimiento de MID 1269 (1,4%) frente a las

596 (0,66%) que deja el AVA sin asignación de MID, lo que significa que un 0,66% de

las secuencias tienen más de dos errores en los 10 primeros nucleótidos que es lo que se

corresponde a la etiqueta MID.

Además nuestra aplicación tiene la limitación que los amplificados usan el

mismo MID en ambos primers (directo y reverso), para la detección de dos primers con

diferentes MIDs asociados a una misma muestra habría que diseñar otro proceso o

consulta, sin embargo en la actualidad hay disponibles alrededor de 100 MIDs

disminuyendo la necesidad de mezclarlos.

Esta misma limitación la encontramos en la detección de la región, pues de

momento no se ha incluido un proceso en el que se permita algún desajuste en el

reconocimiento de los primers.

El proceso de alineamiento todavía no está terminado. Se espera poder alinear y

obtener los resultados de las variantes para enviar al Web Service Sierra un listado de

mutaciones y no todas las secuencias, ahorrando de esa manera tiempo en la ejecución

del proceso. Además el departamento técnico de la base de datos de Stanford nos

advirtió que su aplicación no está preparada para recibir datos de secuenciación masiva

y que buscásemos la manera de colapsar los datos, en próximas mejoras se pretende

incluir un proceso de colapsado de datos en la etapa de preprocesamiento de los datos.

En esta etapa también se quiere incluir un filtrado de secuencias por longitud

mínima para evitar problemas tanto en el alineamiento como para reducir el volumen de

datos que se envía al Web Service.

Entre las recomendaciones del departamento técnico de Stanford se encuentra el

no enviar más de mil secuencias de una vez, cuando el número de secuencias

preprocesadas es superior a mil hemos creado un proceso para enviarlas de mil en mil.

En una versión más ambiciosa del proyecto se pretendería no depender de

ninguna herramienta externa para el análisis de los datos y sustituir tanto el InDelFixer

como el Web Service Sierra por un desarrollo propio.

Aunque las bases de datos están bien diseñadas y son consultadas de forma

inteligente, las operaciones se convertirán en un cuello de botella como el número de

secuencias obtenidas en la Secuenciación sea demasiado elevado (La secuenciación

Illumina está típicamente en gamas de miles de millones, mientras que 454 produce

algunos millones de secuencias).

La aplicación BioSierra está en continuo desarrollo y mejora a medida que más y

más datos de secuenciación tenemos disponibles para validar y mejorar los procesos.

REFERENCIAS

1. Avidor, B., Girshengorn, S., Matus, N., Talio, H., Achsanov, S., Zeldis, I., Fratty, I.S.,Katchman, E., Brosh-Nissimov, T., Hassin, D., Alon, D., Bentwich, Z., Yust, I., Amit,S., Forer, R., Vulih Shultsman, I., Turner, D., 2013. Evaluation of a benchtop HIVultradeep pyrosequencing drug resistance assay in the clinical laboratory. J. Clin.Microbiol. 51, 880–886

2. Arribas JR, Pulido F, Delgado R, et al. Lopinavir/ritonavir as single-drug therapy for maintenance of HIV-1 viral suppression: 48-week results of a randomized, controlled, open-label, proof-of-concept pilot clinical trial (OK Study) Journal of Acquired Immune Deficiency Syndromes: JAIDS. 2005;40:280–287.

3. Arribas JR, Delgado R, Arranz A, et al. Lopinavir-ritonavir monotherapy versus lopinavir-ritonavir

and 2 nucleosides for maintenance therapy of HIV: 96-week analysis. Journal of Acquired Immune Deficiency Syndromes: JAIDS. 2009;51:147–152.

4. Barre-Sinoussi F, Chermann J.C, Rey F, Nugeyre M.T, Chamaret S, Gruest J, Dauguet C, Axler-Blin C, Vezinet-Brun F, Rouzioux C, Rozenbaum W, and Montagnier L. (1983). Isolation of a T-lymphotropic retrovirus from a patient at risk for acquired immune deficiency syndrome (AIDS). Science 220, 868-871.

5. Bonhoeffer,S., Holmes,E.C., and Nowak,M.A. (1995). Causes of HIV diversity. Nature 376, 125.

6. Buzon, M.J., Codoner, F.M., Frost, S.D., Pou, C., Puertas, M.C., Massanella, M., Dalmau,J., Llibre, J.M., Stevenson, M., Blanco, J., Clotet, B., Paredes, R., Martinez-Picado,J., 2011. Deep molecular characterization of HIV-1 dynamics under suppressiveHAART. PLoS Pathog. 7, e1002314.

7. Charpentier,C., Dwyer,D.E., Mammano,F., Lecossier,D., Clavel,F., and Hance,A.J. (2004). Role of minority populations of human immunodeficiency virus type 1 in the evolution of viral resistance to protease inhibitors. J. Virol. 78, 4234-4247

8. Codoner, F.M., Pou, C., Thielen, A., Garcia, F., Delgado, R., Dalmau, D., Alvarez-Tejado,M., Ruiz, L., Clotet, B., Paredes, R., 2011. Added value of deep sequencing relativeto population sequencing in heavily pre-treated HIV-1-infected subjects. PLoSONE 6, e19461

9. Coffin,J.M. (1995). HIV population dynamics in vivo: implications for genetic variation, pathogenesis, and therapy. Science 267, 483-489.

10. Chargin A, Yin F, Song M, Subramaniam S, Knutson G, Patterson BK. Identification and Characterization of HIV-1 Latent Viral Reservoirs In Peripheral Blood. J Clin Microbiol. 2015 Jan;53(1):60-6

11. Charpentier C, Dwyer D.E, Mammano F, Lecossier D, Clavel F, and Hance A.J. (2004). Role of

minority populations of human immunodeficiency virus type 1 in the evolution of viral resistance to protease inhibitors. J. Virol. 78, 4234-4247.

12. Chun,T.W., Nickle,D.C., Justement,J.S., Large,D., Semerjian,A., Curlin,M.E., O'Shea,M.A., Hallahan,C.W., Daucher,M., Ward,D.J., Moir,S., Mullins,J.I., Kovacs,C., and Fauci,A.S. (2005). HIV-infected individuals receiving effective antiviral therapy for extended periods of time continually replenish their viral reservoir. J. Clin. Invest. 115, 3250-3255.

13. De Schrijver J, De Leeneer K, Lefever S, Sabbe N, Pattyn F, Van Nieuwerburgh F, et al. Analysing 454 amplicon resequencing experiments using the modular and database oriented Variant Identification Pipeline. BMC BIOINFORMATICS. 2010;11

14. Ferguson Jeff; Patterson Brian; Beres Jason (2003). La biblia de C#. Ed.Anaya Multimedia. España.

Diciembre/2009.

15. Finzi D, Hermankova M, Pierson T, et al. Identification of a reservoir for HIV-1 in patients on highly active antiretroviral therapy. Science. 1997;278:1295-1300

16. Finzi,D., Blankson,J., Siliciano,J.D., Margolick,J.B., Chadwick,K., Pierson,T., Smith,K., Lisziewicz,J., Lori,F., Flexner,C., Quinn,T.C., Chaisson,R.E., Rosenberg,E., Walker,B., Gange,S., Gallant,J., and Siliciano,R.F. (1999). Latent infection of CD4+ T cells provides a mechanism for lifelong persistence of HIV-1, even in patients on effective combination therapy. Nat. Med. 5, 512-517.

17. Goff,S.P. (2003). Death by Deamination: A Novel Host Restriction System for HIV-1. Cell 114, 281-283.

18. Gottlieb M.S, Groopman J.E, Weinstein W.M, Fahey J.L, and Detels R. (1983). The acquired immunodeficiency syndrome. Ann. Intern. Med. 99, 208-220.

19. Harris,R.S., Bishop,K.N., Sheehy,A.M., Craig,H.M., Petersen-Mahrt,S.K., Watt,I.N., Neuberger,M.S., and Malim,M.H. (2003). DNA deamination mediates innate immunity to retroviral infection. Cell 113, 803-809.

20. Hirsch,M.S., Gunthard,H.F., Schapiro,J.M., Brun-Vezinet,F., Clotet,B., Hammer,S.M., Johnson,V.A., Kuritzkes,D.R., Mellors,J.W., Pillay,D., Yeni,P.G., Jacobsen,D.M., and Richman,D.D. (2008). Antiretroviral drug resistance testing in adult HIV-1 infection: 2008 recommendations of an International AIDS Society-USA panel. Clin. Infect. Dis. 47, 266-285.

21. http://prinseq.sourceforge.net

22. https://github.com/armintoepfer/InDelFixer

23. http://www.454.com/

24. http://www.lifetechnologies.com/es/en/home/brands/ion-torrent.html

25. http://es.wikipedia.org/wiki/SQL_Server

26. http://hivdb.stanford.edu

27. Hu W.S, and Temin H.M. (1990). Genetic consequences of packing two RNA genomes in one retroviral particle: pseudodiploidy and high rate of genetic recombination. Proc Natl Acad Sci U S A 87, 1556-1560.

28. Huse S, Huber J, Morrison H, Sogin M, Welch D: Accuracy and quality of massively parallel DNA pyrosequencing.Genome Biology 2007, 8:R143.

29. Jiang, Q., Turner, T., Sosa, M.X., Rakha, A., Arnold, S., Chakravarti, A., 2012. Rapid andefficient human mutation detection using a bench-top next-generation DNAsequencer. Hum. Mutat. 33, 281–289

30. Lech,W.J., Wang,G., Yang,Y.L., Chee,Y., Dorman,K., McCrae,D., Lazzeroni,L.C., Erickson,J.W., Sinsheimer,J.S., and Kaplan,A.H. (1996). In vivo sequence diversity of the protease of human immunodeficiency virus type 1: presence of protease inhibitor-resistant variants in untreated subjects. J. Virol. 70, 2038-2043

31. Kearney,M., Palmer,S., Maldarelli,F., Shao,W., Polis,M.A., Mican,J., Rock-Kress,D., Margolick,J.B.,

Coffin,J.M., and Mellors,J.W. (2008). Frequent polymorphism at drug resistance sites in HIV-1 protease and reverse transcriptase. AIDS 22, 497-501.

32. Marmor M, Hertzmark K, Thomas S.M, Halkitis P.N, and Vogler M. Resistance to HIV infection. Journal of Urban Health, 83(1):5–17, 2006

33. McKinnon JE, Arribas JR, Pulido F, et al. The level of persistent HIV viremia does not increase after successful simplification of maintenance therapy to lopinavir/ritonavir alone. AIDS. 2006;20:2331–2335.

34. McKinnon JE, Delgado R, Pulido F, Shao W, Arribas JR, Mellors JW: Single genome sequencing of

HIV-1 gag and protease resistance mutations at virologic failure during the OK04 trial of simplified versus standard maintenance therapy. Antivir Ther. 2011;16(5):725-32.

35. MMWR. Morb. Mortal. Wkly. Rep. (1981) Pneumocystis pneumonia-Los Angeles. 30, 250-252.

36. Niu B, Fu L, Sun S, Li W: Artificial and natural duplicates in pyrosequencing reads of metagenomic data. BMC Bioinformatics 2010, 11:187

37. Murphy, F., Fauquet, C. M., and Bishop, D. H. L. Virus taxonomy - the classification and

nomenclature of viruses: sixth report of the International Committee of Taxonomy of viruses. (1995).

38. Palmer S, Kearney M, Maldarelli F, et al. Multiple, Linked Human Immunodeficiency Virus Type 1 Drug Resistance Mutations in Treatment-Experienced Patients Are Missed by Standard Genotype Analysis. Journal of Clinical Microbiology. 2005;43:406–413.

39. Pulido F, Arribas JR, Delgado R, et al. Lopinavir-ritonavir monotherapy versus lopinavir-ritonavir

and two nucleosides for maintenance therapy of HIV. AIDS. 2008;22:F1–F9.

40. Pulido F, Delgado R, Perez-Valero I, et al. Long-term (4 years) efficacy of lopinavir/ritonavir monotherapy for maintenance of HIV suppression. J. Antimicrob. Chemother. 2008;61:1359–1361.

41. Rama D, Leshkowitzb D, Gonzalez D, Forerd R, Levye I, Chowersf M, Lorberg M, Hindiyeh M, Mendelsona,E, Mor O:Evaluation of GS Junior and MiSeq next-generation sequencingtechnologies as an alternative to Trugene population sequencing inthe clinical HIV laboratory. J. Virol. Methods (2014)

42. Rhee,S.Y., Gonzales,M.J., Kantor,R., Betts,B.J., Ravela,J., and Shafer,R.W. (2003). Human immunodeficiency virus reverse transcriptase and protease sequence database. Nucleic Acids Res. 31, 298-303.

43. Ribeiro,R.M. and Bonhoeffer,S. (2000). Production of resistant HIV mutants during antiretroviral therapy. Proc. Natl. Acad. Sci. 97, 7681-7686.

44. Schmieder R and Edwards R: Quality control and preprocessing of metagenomic datasets. Bioinformatics 2011, 27:863-864

45. Siliciano JD, Siliciano RF. A long-term latent reservoir for HIV-1: discovery and clinical

implications. J Antimicrob Chemother. 2004;54:6-9.

46. Voelkerding KV, Dames SA, Durtschi JD: Next-generation sequencing: from basic research to diagnostics. Clin Chem 2009, 55(4):641-658.

47. Yu,Q., Konig,R., Pillai,S., Chiles,K., Kearney,M., Palmer,S., Richman,D., Coffin,J.M., and

Landau,N.R. (2004). Single-strand specificity of APOBEC3G accounts for minus-strand deamination of the HIV genome. Nat. Struct. Mol. Biol. 11, 435-442

48. Zagordi, O., Klein, R., Daumer, M., Beerenwinkel, N., 2010. Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies. NucleicAcids Res. 38, 7400–7409

49. Zennou,V., Petit,C., Guetard,D., Nerhbass,U., Montagnier,L., and Charneau,P. (2000). HIV-1 genome

nuclear import is mediated by a central DNA flap. Cell 101, 173-185.

Guía básica de Usuario:

1. Entramos en la aplicación haciendo doble clic en el icono "BIOSierra".

2. Accedemos a la pantalla de inicio de la aplicación.

3. Conectamos a la base de datos relacional.

• Desde el menú.

• O haciendo clic en el botón de conectar a la base de datos de la barra de herramientas. Se abre una nueva ventana y le damos a conectar.

4. Importamos lo datos.

• Desde el menú.

• O haciendo clic en el botón de importar datos de la barra de herramientas. Se abre una nueva ventana y tenemos dos opciones: una para importar Datos Brutos y otra para importar Secuencias Poblacionales.

� Si elegimos la opción de Impotar Datos Brutos, importaremos un archivo fastq y se debe seleccionar la fecha de la carrera o run.

� Si elegimos la opción Importar Secuencias poblacionales, hay que rellanar los datos requeridos: Nombre del Paciente, Número de Historia, Carga Viral de la muestra (CV)... Estos datos de volcaran directamente a la base de datos relacional. (El nombre de la muestra se coge directamente del archivo fasta que se importa, así que es necesario comprobar que se llama igual que la muestra).

� Se selecciona el directorio y el archivo.

5. Si hemos importado una secuencia poblacional, la podremos visualizar en la pestaña Datos Brutos. Como se van almacenando en la base de datos una vez importadas se podrían visualizar todas las que el usuario haya guardado.

6. Si hemos importado un Run (fastq), lo podremos visualizar en la pestaña Datos Brutos. Al igual que anteriormente se van almacenando en la base de datos y una vez importados se podría elegir el run que se desea visualizar y procesar.

� Una vez que tenemos el run seleccionado en la pantalla de visualización se le da al botón de Preprocesar Datos.

7. Una vez que hemos preprocesado los datos nos vamos a la pestaña de Datos Preprocesados y los visualizamos. Al igual que antes los datos se van almacenando en la base de datos y una vez volcadas se podría elegir el run que se desea visualizar y continuar procesando.

� En la etapa de preprocesado se le asigna la etiqueta o MID, que identifica la muestra y se recorta o trima esa etiqueta, es decir, se eliminan los nucleótidos correspondientes. Si el proceso no identifica el MID la secuencia se queda como al principio.

� En esta etapa también se hace una identificación de los primers de

amplificación, asignando una región (1, 2, 3 o 4), dependiendo del amplicón que corresponda, además se hace la asignación de forward o reverse a las lecturas según corresponda. Si se trata de una lectura reverse se visualizará un check en la casilla ID_ForwRev, si la lectura es forward no se producirá ningún cambio.

8. Una vez preprocesados los datos se procederá a enviar las secuencias al Web

Service "Sierra" de la base de datos de Stanford que nos devolverá un Xml con los resultados.

• Desde el menú.

� Podemos enviar sólo una Secuencia Seleccionada, bien sea del Run o una secuencia poblacional.

� O podemos enviar todas las secuencias.

• O haciendo clic en los botones de la barra de herramientas.

9. Cuando finalice el proceso aparecerá una ventana de Datos Obtenidos Correctamente y le damos a aceptar para pasar a la pestaña de Resultados.

10. En la pestaña de Resultados, visualizamos los resultados de cada una de las secuencias analizadas según las vayamos seleccionando.

� En los resultados podemos visualizar la secuencia seleccionada, la proteína que mapea PR, RT o ambas y el subtipo. Las mutaciones que tiene, las drogas o fármacos con el score y el nivel de resistencia, si tiene Frame Shift, Codones Stop, Hipermutación y los Comentarios asociados a las mutaciones.

11. Visualización de Datos Totales. Esta opción lo que hace es mostrar los datos en bruto que nos devuelve el Web Service (Xml), sin filtrarlo por secuencia. De aquí es de dónde se sacan las estadísticas de los resultados totales. Podemos acceder a ellos:

• Desde el menú.

• O haciendo click en el botón de la barra de herramientas.

12. Se abre una ventana con un ComboBox para que el usuario seleccione el resultado que quiere visualizar.

• Mostramos algunos ejemplos de visualización de datos:

� Hay dos botones para exportar los resultados de las tablas a Excel. El de Resultado exporta la tabla de la parte superior (Tabla de Resultados) y el de Totales exporta la tabla de abajo (Totales).

13. Acceso a las tablas auxiliares de la base de datos.

• Desde el menú: Seleccionando Administrar Tablas.

• O haciendo clic en el botón de la barra de herramientas.

• Se abre una ventana para acceder a la tablas y poder modificarlas o alimentarlas añadiendo más datos sin necesidad de tener que ir a la base de datos SQL server.

14. Exportar tablas de las pestañas principales a Excel.

• Desde el menú: Seleccionando Exportar Excel.

15. Ayuda (Es un proceso que tampoco está acabado y de momento sólo incluye: Acerca de... que tiene el nombre de la aplicación y la versión).

• Desde el menú.

• Se abre la siguiente ventana:

16. Para salir de la aplicación le damos al botón Salir.

PRÓXIMAS FUNCIONES DE LA APLIACIÓN

17. La aplicación puede hacer un alineamiento.

• Este proceso todavía no está terminado. Se espera poder alinear y obtener los

resultados de las variantes para enviar al Web Service un listado de mutaciones y no todas las secuencias, ahorrando de esa manera tiempo en la ejecución de ese proceso.

• Además el departamento técnico de la base de datos de Stanford nos advirtió que su aplicación no está preparada para recibir datos de secuenciación masiva y que buscásemos la manera de colapsar los datos y no enviásemos más de mil secuencias de una vez.

� En la pantalla Datos Alineados, seleccionamos el Run y el MID que queremos alinear, seleccionamos también una secuencia de referencia y le damos al botón Alinear Datos.

� Se despliega la terminal para que podamos ver cómo va el proceso de alineamiento. (Este paso se hace con el alineador InDelfixer v1.1 que es una herramienta java).

18. Se importa el archivo read.sam que nos devuelve el alineador a la aplicación y a la base de datos.

• Como comentaba este proceso no está finalizado y todavía no hace la extracción completa e importación de los 11 campos obligatorios del formato .sam.

� De momento importamos la secuencia de nucleótidos y la de calidad (con las modificaciones que incluye el alineador), el inicio o posición de la primera base más a la izquierda y la cadena CIGAR.

DISEÑO DE UNA APLICACIÓN PARA EL ANÁLISIS DE MUTACIONES DE ...€¦ · diseÑo de una...

Documents

Mutaciones génicas Prof. Héctor Cisternas R.. Las mutaciones génicas (o moleculares) son las mutaciones que ocurren al alterar la secuencia de nucleótidos

GENETICA - MUTACIONES

LAS MUTACIONES DE TEXACO

Sindromes asociados a mutaciones de mtDNA

TEMA 63: herencia. Las mutaciones. · Las mutaciones 9.1.- Concepto y tipos de mutaciones 9.2.- Mutagénesis y agentes mutagénicos 9.3.- Mecanismos de reparación del ADN 1.- INTRODUCCIÓN

IDENTIFICACIÓN Y CARACTERIZACIÓN DE MUTACIONES DE …

Imagenes de mutaciones (chernobyl)

MUTACIONES & MONSTRUOS

Teoria de Las Mutaciones

Mutación Genética: tipos de mutaciones

DETECCIÓN DE MUTACIONES RESPONSABLES DE LA …

Tecnicas de Deteccion de Mutaciones en ADN

7 y 8. Tipos de Mutaciones

Retos presentes y futuros de la aplicación clínica de la ... · Antígenos con alta especificidad tumoral 2. Antígenos con baja especificidad tumoral Mutaciones especificas Expresión

Caracterización de portadores de mutaciones relacionadas

Clasificación+de+mutaciones+5 cm4

PROCEDIMIENTO MUTACIONES

SEGREGACION DE SIMPLES MUTACIONES

Biología de Mutaciones

Tarea de mutaciones