View
224
Download
1
Category
Preview:
Citation preview
DISEÑO DE UNA APLICACIÓN PARA EL ANÁLISIS DE MUTACIONES DE
RESISTENCIA EN EL RESERVORIO CELULAR DE VIH-1 MEDIANTE
TÉCNICAS DE NGS.
Estudiante: Olalla Sierra Tomillo
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2013-2014
INSTITUTO DE INVESTIGACIÓN DEL HOSPITAL 12 DE OCTUBRE i+12
DIRECTOR DE LA TESIS: DR. RAFAEL DELGADO VÁZQUEZ
CODIRECTOR DE LA TESIS: GONZALO GÓMEZ
MADRID. ENERO DE 2015
DEDICATORIA
A mis padres, por inculcarme que la mejor herencia que se le puede dejar a un hijo
es una buena educación.
En especial a mi madre, que no se encuentra físicamente conmigo pero siempre
estará en mi corazón. Por ser un ejemplo de lucha y superación a través de sacrificios,
amor, constancia y dedicación.
A todas aquellas personas que en lugar de ver un título, una nota, un pago, un
premio; ven la necesidad y el gusto de aprender algo, imaginarlo y hacerlo realidad.
A quién comprende que el conocimiento no se esconde y sabe compartirlo.
AGRADECIMIENTOS
Quisiera agradecer al Dr. Rafael Delgado, director de esta tesis, por darme la oportunidad de realizar este proyecto en su laboratorio. Por su experiencia y sus enseñanzas en el campo de la virología.
Mi más sincero agradecimiento a Gonzalo Gómez, codirector de esta tesis, por sus sabios consejos y por tranquilizarme en los momentos de agobio. Por hacerme comprender que estos son sólo mis primeros pasos como debutante en la materia, que he de coger impulso antes de echar a volar.
Agradecer a mis compañeras del laboratorio de Microbiología Molecular Joanna, Sagrario y Paquita que no sólo me ayudan en algunas actividades sino que me acompañan a diario compartiendo trabajo, buenos y malos momentos.
También agradecer a todos los compañeros del Hospital 12 de Octubre que de alguna manera han formado parte de este trabajo. Una mención especial a David Lora, Santiago Barrio, Daniel Rueda y sobre todo a Aitor Delmiro, por compartir conmigo su tiempo y sus conocimientos, por todos esos momentos de discusiones y la siempre valiosa aportación de ideas.
A la dirección del Máster de Bioinformática y las personas que han hecho posible que haya podido salir este curso adelante. Pero sobre todo a su coordinador, Miguel Ponce de León, sin su amable e incesante ayuda este proyecto no hubiera sido posible.
A todos los profesores del máster, por compartir con nosotros sus conocimientos y hacer posible que de esta nueva hornada salgan algunos futuros bioinformáticos. En especial, al grupo de NGS liderado por David G Pisano, pues todo lo aprendido me ha sido de gran utilidad en este trabajo. Y a ese fantástico y divertido dúo, Eduardo Andrés León y José María Fernández por despertar mi curiosidad e interés por las bases de datos relacionales.
A todos los compañeros del máster, por el excelente ambiente que han creado siempre dentro y fuera del aula con su presencia. En especial, a esa gran tupla de trabajo que formamos, mis amigas y aliadas, Jennifer y Esther, con las que he disfrutado de esta aventura, por estar siempre a mi lado en los momentos más difíciles y por su apoyo incondicional. Y nunca olvidare a Luis, su fuerza, su coraje, su lucha constante, siempre con una sonrisa ante las dificultades y a Juanfran, que aportaba serenidad al grupo.
Casi terminando, no quiero dejar de mencionar a Jaime, mi compañero de batallas en esta y otras guerras. Por compartir conmigo sus conocimientos en programación y enseñarme todo lo que sé de C#. Pero sobre todo, por no perder la paciencia ni la sonrisa ante la incesante oleada de preguntas... dada mi ignorancia en el campo de la informática. Por conseguir con su optimismo que disfrute de todos los momentos, fáciles y difíciles, y por disfrutarlos conmigo. Espero saber compensarlo.
Por último, agradecer a mi familia, a mis padres y hermano, por darme el cariño, la confianza y la seguridad para perseguir siempre mis metas.
OBJETIVOS………………………………………………………………………...7
1. CAPÍTULO 1: ANÁLISIS DEL RESERVORIO CELULAR DEL VIH-1
MEDIANTE UN WORKFLOW ESTÁNDAR
1.1. INTRODUCCIÓN ………………………………………………………..9
1.1.1. EL VIRUS DE LA INMUNODEFICIENCIA HUMANA………9
1.1.2. SECUENCIACIÓN DE NUEVA GENERACIÓN (NGS)……...10
1.2. MATERIAL Y MÉTODOS……………………………………………...15
1.2.1. PACIENTES Y MUESTRAS……………………………………..15
1.2.2. AMPLIFICACIÓN Y SECUENCIACIÓN DE LA
REGIÓN POL……………………………………………………………..15
1.2.3. ANÁLISIS DE LAS SECUENCIAS……………………………..18
1.3. RESULTADOS…………………………………………………………...26
1.4. DISCUSIÓN………………………………………………………………31
2. CAPÍTULO 2: “BIO-SIERRA”. DISEÑO DE UNA APLICACIÓN PARA
ANÁLISIS DE MUTACIONES DE VIH-1
2.1. INTRODUCCIÓN..………………………………………………………34
2.1.1. .NET FRAMEWORK 3.5…………………………………………34
2.1.2. C# (SHARP), EL LEGUAJE PREDILECTO DEL
.NET FRAMEWORK…………………………………………………….35
2.1.3. IDE (INTEGRATED DEVELOPMENT ENVIRONMENT)
PARA .NET………………………………………………………..35
2.1.4. MICROSOFT SQL SERVER…………………………………….36
2.2. MATERIAL Y MÉTODOS……………………………………………...37
2.3. RESULTADOS…………………………………………………………...57
2.4. DISCUSIÓN………………………………………………………………60
REFERENCIAS…………………………………………………………………...62
ANEXO………………………………………………………………………….....65
7
OBJETIVOS
La finalidad de este trabajo era adquirir experiencia en el análisis de datos
procedentes de secuenciación de nueva generación (NGS) aplicados fundamentalmente
en el diagnóstico y la patogenia de la infección por VIH.
Podemos destacar dos objetivos principales:
1. Estudiar la utilidad de técnicas de secuenciación de nueva generación (NGS)
para detectar mutaciones de resistencia (MR), circulantes y archivadas, en el
ADN de células de sangre periférica.
Objetivos específicos:
� Diseño de un workflow de análisis con herramientas y software
disponibles.
� Desarrollo de scripts para el automatizar algunos pasos.
� Interpretación de los resultados.
2. Desarrollar una herramienta propia especializada para la consulta, visualización
y análisis de variantes de VIH-1 a partir de datos de NGS. Dicho objetivo surge
por la necesidad de poder tratar la inmensa cantidad de datos que las nuevas
tecnologías nos proporcionan. La Biología ya no es una ciencia puramente
experimental, sino que el almacenamiento y la comprensión de la información
están en continuo crecimiento, por ello la necesidad de optimizarlos.
Objetivos específicos:
� Desarrollar la aplicación en su totalidad en leguaje de programación C#
con una interfaz gráfica que facilite la utilización de la herramienta al
usuario.
El desarrollo de estos dos objetivos los describiremos en este trabajo en dos
capítulos independientes.
8
CAPÍTULO 1:
ANÁLISIS DEL RESERVORIO
CELULAR DEL VIH-1 MEDIANTE
UN WORKFLOW ESTÁNDAR
9
1.1. INTRODUCCIÓN
Durante su proceso de infección el VIH-1 infecta preferentemente linfocitos T
CD4+ memoria y se integra en su genoma en forma de ADN proviral. La mayoría de las
células muere en un plazo de 24 h como consecuencia de la replicación del virus; sin
embargo, un pequeño número de linfocitos T CD4+ infectados revierte a la situación de
reposo celular para constituir un reservorio latente de larga duración. Este reservorio
latente de VIH-1 se mantiene relativamente estable, sin una reducción significativa a lo
largo de años, incluso en pacientes en tratamiento antirretroviral (TAR) supresor. Todas
las variantes de VIH-1 circulantes que se han producido durante la infección están
potencialmente representadas en el reservorio latente celular como provirus (Finzi D et
al., 1997, Siliciano JD et al., 2004).
El análisis del reservorio celular por técnicas de secuenciación convencional no
permite detectar todas las MR acontecidas durante la evolución de un paciente, debido a
la baja sensibilidad de estas técnicas que informan sólo de la secuencia promedio de
toda la población viral y sólo detecta cambios presentes al menos en un 20-30% de las
secuencias (Palmer S et al., 2005). Durante los últimos años se han ido desarrollando
técnicas más sensibles para identificar variantes minoritarias como la secuenciación de
genomas individuales (SGI) y técnicas de secuenciación de nueva generación (NGS).
1.1.1. EL VIRUS DE LA INMUNODEFICIENCIA HUMANA.
El VIH-1 es el causante de la pandemia mundial conocida como Síndrome de la
Inmunodeficiencia Adquirida (SIDA). La primera evidencia de que el agente etiológico
del SIDA podía ser un retrovirus surgió en 1983 de las investigaciones del grupo
francés de Françoise Barré-Sinoussi y Luc Montagnier al identificar un virus con
actividad retrotranscriptasa en un paciente con síntomas de SIDA (Barre-Sinoussi et al.,
1983). Desde entonces ha sido significativa la investigación hacia la comprensión del
VIH-1, interacciones a niveles celulares del huésped y en el desarrollo de una terapia
antirretroviral eficaz (Marmor et al., 2006).
El VIH-1 pertenece al género lentivirus dentro de la familia Retroviridae, que
incluye otros seis géneros (Murphy et al., 1995). Un carácter diferenciador de este
10
género lentivirus es que han desarrollado una estrategia que les permite transportar su
genoma en forma de ADN a través de la membrana nuclear de la célula huésped. Esta
característica es responsable de su capacidad única para replicar eficazmente en células
que no se están dividiendo (Zennou et al., 2000).
� Estructura del virión y organización genómica
El virión consiste en una partícula esférica, de aproximadamente 120 nm de
diámetro, constituida por tres capas concéntricas (Fig. 1.1). En la capa interna se
encuentra una estructura cónica conocida como nucleoide o core, constituida por la
proteína de la cápside (p24), contiene dos copias del ARN genómico formando un
complejo ribonucleoproteíco con las enzimas y las proteínas de la nucleocápside. La
capa intermedia está constituida por la proteína matriz (p17). La capa más externa está
constituida por una membrana lipídica derivada de la célula infectada, donde se insertan
espículas constituidas por las glicoproteínas de la envuelta, gp120 y gp41. En la
envuelta existe, además, una gran concentración de proteínas celulares íntimamente
asociadas como la β-2-microglobulina y las cadenas α y β de los antígenos HLA DR, en
una concentración mayor que la de gp120. Esta riqueza de proteínas celulares en la
envuelta viral condiciona aspectos de la patogenia.
El genoma de VIH es un dímero constituido por dos copias de ARN de cadena
sencilla y polaridad positiva (Hu y Temin, 1990) de aproximadamente 9.7 Kb. Las
proteínas del VIH-1 son traducidas a partir de 10 fragmentos de lectura abierta y,
posteriormente, son procesadas por proteasas víricas o celulares, generándose un total
de 15 proteínas víricas (Fig., 1.1). El VIH-1 presenta tres genes estructurales: gag, pol y
env.
El genoma viral, en su forma de provirus, se encuentra flanqueado por
secuencias denominadas LTR (repeticiones terminales largas) que le permiten la
replicación y la integración en el genoma celular. Las LTRs contienen sitios de unión
para proteínas celulares que activan la transcripción y están, a su vez, bajo el control de
señales virales.
11
Fig. 1.1. Estructura y organización genómica del VIH-1. A) Representación esquemática de un virión. B)
Organización genómica y C) Procesamiento de las proteínas víricas.
� Desarrollo de resistencia a los antirretrovirales
La resistencia a compuestos antirretrovirales (ARV) en el VIH-1 se define como
la presencia de mutaciones en los genes del virus que son diana para los compuestos
(Charpentier et al., 2004), reduciendo la susceptibilidad del virus a los fármacos
comparado con la susceptibilidad del virus sensible.
La principal repercusión clínica de la evolución de las resistencias a drogas
afecta directamente a la elección adecuada del tratamiento antirretroviral (TARV)
(Hirsch et al., 2008).
La aparición de resistencia a los antirretrovirales se explica por tres aspectos
fundamentales de la biología del VIH-1: la elevada población de genomas virales, el
elevado ritmo de replicación del virus durante la infección y la elevada tasa de error de
la transcriptasa reversa (RT) durante la síntesis del ADN proviral.
Estas variantes virales con mutaciones que confieren resistencia a un inhibidor,
adquirirán una ventaja selectiva con respecto a los virus sensibles, al aumentar su
eficacia biológica en presencia del fármaco.
12
1.1.2. SECUENCIACIÓN DE NUEVA GENERACIÓN (NGS)
Cada vez surgen más tecnologías de secuenciación masiva diferentes. Las
mismas se diferencian en las etapas de amplificación clonal y la secuenciación
propiamente dicha. Todas ellas están sujetas a continúas modificaciones y mejoras,
manteniendo siempre los mismos principios básicos.
En este apartado procederemos a hacer una breve descripción de aquellas
tecnologías que tenemos disponibles en nuestras instalaciones.
� Secuenciación con 454 (Roche)
La muestra de interés de ADN puede ser fragmentada aleatoriamente, o
alternativamente, amplificada vía PCR (amplicones). Los fragmentos resultantes de
tamaño adecuado son desfosforilados y consecuentemente ligados a dos adaptadores (A
y B). Sólo se amplifican fragmentos que contienen adaptador A en un extremo y en el B
del otro. Estos fragmentos constituyen la biblioteca de ADN, los cuales son unidos a
“micro-beads” (bolitas microscópicas) a través de hibridación de primers. Las
condiciones de esta reacción están dadas de forma tal de favorecer la unión de un solo
fragmento de ADN (de la librería) por bolita. Cada “microbead” cubierta con una única
molécula se coloca en una emulsión de agua y aceite, la cual actúa como microrreactor
en donde se encuentra, además de esa única bolita, primers correspondientes y reactivos
para PCR (emPCR o PCR en emulsión). La amplificación por PCR dentro de la
emulsión permite cubrir la totalidad de la bolita con moléculas clonales amplificadas.
Cada bolita, cada microrreactor, contiene un fragmento de ADN particular. Después de
la amplificación se diluye la emulsión y las bolitas son enriquecidas con streptavidina.
Utilizando separación magnética cada bolita se coloca en un microrreactor (pocillos
dentro de una “picotiter plate”). Los fragmentos amplificados son desnaturalizados y
unidos a un primer de secuenciación. La secuenciación ocurre a través de la técnica de
pirosecuenciación, en donde la incorporación de cada nucleótido conlleva la
eliminación de un fosfato. El mismo es convertido en luz por medio de ATP, y la
cantidad de luz es proporcional a la cantidad de bases incorporadas.
(http://www.454.com/)
13
La mayor ventaja de este método es la longitud de sus “reads” o lecturas
(fragmento secuenciado), ya que logra tamaños de más de 500 bases. La mayor
desventaja del método se debe a la pirosecuenciación, la cual tiene dificultades para
secuenciar homopolímeros, llevando la tasa de error por read hasta un máximo de 1 %.
Estos errores pueden mitigarse parcialmente con mayor cobertura de secuenciación
(más cantidad de reads por base).
Fig. 1.2. Ilustración esquemática de la reacción utilizada en la pirosecuenciación 454. La luz emitida es proporcional al número de nucleótidos incorporados (Izquierda). Ilustración esquemática de la conversión de intensidades de luz a flowgrams (Derecha).
Fig. 1.3. Ilustración de la descripción general de la metodología de secuenciación 454.
14
� Secuenciación con Ion Torrent (Life Technologies)
La secuenciación del Ion Torrent pertenece a las tecnologías de tercera generación,
surgiendo en el 2010. Como en la tecnología anterior (454) primeramente se fragmenta
la muestra de interés o se amplifica y se agregan los adaptadores de secuencia conocida.
Después, los fragmentos son amplificados mediante PCR de emulsión, como vimos
anteriormente. Para ello, se utilizan también “microbeads”. La biblioteca amplificada es
separada en una placa con alta densidad de pocillos, como en el 454: una única bolita
por pocillo. En el Ion Torrent, estos pocillos están ubicados sobre un semiconductor
sensible a los iones. Durante la extensión catalizada por la polimerasa, un enlace de
hidrógeno se libera como parte de la química normal de incorporación de nucleótidos.
Este ión es detectado por el semiconductor, como un pequeño cambio en el pH. Por lo
tanto, a cada pocillo con la molécula de ADN y la ADN polimerasa se le provee de un
nucleótido cada vez. Si el mismo, es complementario al nucleótido siguiente no
pareado, el mismo se incorpora y un hidrógeno se libera, generando un cambio de pH
que es registrado por el semiconductor. Si el nucleótido no es complementario, la
reacción química no tiene lugar y se lava el remanente. Se pasa al siguiente nucleótido y
este procedimiento se repite tantos ciclos como sea necesario.
Esta tecnología, al igual que el 454, es sensible a los homopolímeros. Si en la
secuencia aparece una serie de nucleótidos repetidos, la incorporación de este
nucleótido llevará a un cambio de pH que será proporcional al cambio individual de pH.
Sin embargo, ya que cada medida individual tiene incertidumbre, muchas veces es
difícil estimar la multiplicidad de la base de forma precisa. Por lo tanto, existe una
tendencia a generar errores en la longitud de los homopolímeros, lo que se traduce en la
consideración de delecciones e inserciones inexistentes.
(http://www.lifetechnologies.com/es/en/home/brands/ion-torrent.html)
Fig.1.4. Esquema general de la secuenciación mediada por pH utilizada por Ion Torrent.
15
1.2. MATERIAL Y MÉTODOS
1.2.1. PACIENTES Y MUESTRAS:
Las muestras biológicas incluidas en este trabajo han sido, pacientes de la
Unidad VIH-1 del Hospital Universitario 12 de Octubre de Madrid y archivadas en el
biobanco del laboratorio de Microbiología. Las muestras han sido obtenidas bajo
consentimiento informado de acuerdo a un protocolo aprobado por el comité ético de
investigación clínica de la institución.
Se seleccionaron cinco pacientes infectados por VIH y con tratamiento
antirretroviral (TAR). Estos pacientes pertenecían al estudio OK (Only Kaletra
(Lopinavir/ritonavir)) desarrollado simultáneamente en 28 hospitales españoles y que
fue expuesto en el Congreso Mundial del SIDA en Toronto por el Dr. José Ramón
Arribas, uno de los coordinadores del estudio.
El estudio demuestra que el tratamiento de la infección por VIH con el fármaco
Kaletra consigue una eficacia similar que la terapia estándar con un cóctel de 3
medicamentos, compara la monoterapia con la terapia triple compuesta por ese mismo
fármaco más 2 análogos de nucleósidos. Los pacientes entraron en el estudio tras llevar
al menos 6 meses con carga viral indetectable ( >50 cp/ml) y se aleatorizaron a
continuar con esa triple terapia o a recibir solo Kaletra. (Arribas JR et al., 2005,
McKinnon JE et al., 2006, Pulido F, Arribas JR et al., 2008)
Se procesaron diez muestras de sangre completa, 2 muestras por paciente, una
obtenida al inicio de entrar en el estudio y la otra pasados más de diez años.
1.2.2 . AMPLIFICACIÓN Y SECUENCIACIÓN DE LA REGIÓN POL
Se utilizó 1 µg de ADN para realizar Secuenciación Ultra-profunda (UDS)
mediante la plataforma GS Junior (Roche).La extracción del ADN se realizó a partir de
400 µl de sangre completa mediante el QIAamp® DNA Blood Mini Kit (QIAGEN).
Para la primera amplificación, se prepara una mezcla de PCR con las cantidades
finales de los reactivos que se detallan a continuación: añadimos 30µl de DNA (1 µg de
ADN ajustamos el volumen con agua destilada) a una mezcla de 70 µl que contenía 5U
16
de enzima de Alta fidelidad Taq Platinum ADN polimerasa (Invitrogen) y las
concentraciones finales de los siguientes reactivos: 1x High Fidelity PCR Buffer
(Invitrogen), MgSO4 (2mM), 1849 iniciador externo directo y 3500 iniciador externo
reverso (200 nM cada uno) y 200 µM de dNTPs.
Cuatro µl de cada producto de PCR se utilizaron posteriormente como molde
para hacer una PCR anidada con primers internos utilizando Expand High Fidelity PCR
System (Roche), produciendo una amplificación de 1,5 kb que contiene la región p6 de
gag, pro y los primeros 950 nt de pol.
Esos 4 µl de producto de PCR se añadieron a 36 µl de mezcla de PCR (volumen
final, 40 µl) que contienen 1x Expand High Fidelity Buffer con MgCl2 (1,5 mM), 200
µM de dNTPs, 1870 iniciador interno directo, 3410 iniciador interno reverso (200 nM
cada uno), enzima Expand High Fidelity (2U) y MgCl2 adicional (1 mM).
Tras incubar la reacción durante 3 min a 94ºC; la mezcla de reacción se incuba a
94ºC durante 30 seg, 58ºC durante 30 seg y a 72ºC durante 1 min y 30 seg, repitiendo
los 3 últimos pasos 44 veces; finalmente se realiza una extensión final incubando a 72ºC
durante 10 min y la mezcla se enfría a 4ºC.
Iniciador externo directo 1849 5’ GATGACAGCATGTCAGGGAG 3’
Iniciador externo reverso 3500 5’ CTATTAAGTATTTTGATGGGTCATAA 3’
Iniciador interno directo 1870 5’ GAGTTTTGGCTGAGGCAATGAG 3’
Iniciador interno reverso 3410 5’ CAGTTAGTGGTATTACTTCTGTTAGTGCTT 3’
Tabla 1.1. Iniciadores empleados para amplificar la región p6 de gag, pro y los primeros 950 nt del gen
pol del VIH-1 (Kearney et al., 2008)
Figura 1.5. Representación esquemática de la región del VIH-1 amplificada mediante la utilización de los
iniciadores que se indican en la Tabla 1. En la parte superior de la figura se muestra la organización
genómica del VIH-1; en la parte inferior, la región de p6 de gag, pro y los primeros 950 nt del gen pol del
VIH-1.
17
Estos productos son nuevamente amplificados en una placa diseñada por Roche
(454 HIV Collaboration Initiative Primers Plate and GS Junior Systen for Roche), que
se divide en cuatro amplicones por muestra con sus correspondientes adaptadores y
MIDs para la detección y secuenciación posterior.
Fig.1.6. Esquema general de la placa utilizada para la amplificación de la PR y RT de VIH.
Fig.1.7. Esquema general de la localización y distribución de los amplicones en el genoma.
Fig.1.8. Ilustración de la estructura de las lecturas.
18
Iniciador Amplicon A directo 5’ ATCACTCTTTGGCAACGACC 3’
Iniciador Amplicon A reverso 5’ CTTTAATTTTACTGGTACAGTTTCAAT 3’
Iniciador Amplicon B directo 5’ CCTACACCTGTCAACATAATTGG 3’
Iniciador Amplicon B reverso 5’ TGTGGTATTCCTAATTGAACTTCCCA 3’
Iniciador Amplicon C directo 5’ ATTGGGCCTGAAAATCCATACA 3’
Iniciador Amplicon C reverso 5’ GGCTCTAAGATTTTTGTCATGCT 3’
Iniciador Amplicon D directo 5’ CACCAGGGATTAGATATCAGTACAATGT 3’
Iniciador Amplicon D reverso 5’ AACTTCTGTATATCATTGACAGTCCA 3’
Tabla 1.2. Iniciadores empleados para amplificar la región PR y RT del VIH-1 (Roche).
Después de la amplificación se purificaron los fragmentos con AMPure Kit
según el protocolo 454 HIV Collaboration Initiative Protocol for Amplicon Sequencing
of HIV RT and PR Yelow Plate. Posteriormente se corrieron en un del de agarosa (E-Gel
2% agarosa (GP), Invitrogen) para ver la calidad y finalmente se cuantificaron mediante
Picogreen en el 2300 EnSpire Multimode Plate Reader (PerkinElmer). Finalmente se
procedió a la preparación de la librería, haciendo las diluciones y pooles necesarios para
obtener un pool final que purificamos de nuevo con AMPure (protocolo 454 HIV
Collaboration Initiative Primers Plate 454 HIV Collaboration Initiative Protocol for
Amplicon Sequencing of HIV RT and PR Yelow Plate) y del cual añadimos 2 copias o
moléculas por bead (2x106) para la EmPCR. La preparación y amplificación de la
emPCR según directrices del manual de 454 GS. Junior de Roche para librería A
(emPCR Amplification Method Manual-Lib-A).
Por último, se hace la secuenciación siguiendo el manual de secuenciación del
GS. Junior (Sequencing Method Manual).
1.2.3. ANÁLISIS DE LAS SECUENCIAS
Diseñamos un flujo de trabajo o workflow típico para el análisis de variantes de
experimentos de resecuenciación de cualquiera de los equipos que tenemos disponibles
en nuestras instalaciones, evitando por lo tanto utilizar el software de Roche AVA
(Amplicon Variant Analyzer) adaptado únicamente para los datos propios de su
19
tecnología ya que sólo admite su formato de archivos de salida SFF (Standar flowgram
format).
� Worflow estándar para análisis de variantes.
El worflow constara de una etapa de extracción de datos multiplexados de las
muestras, una de control de calidad de las lecturas y pre-procesado de las mismas, una
etapa de alineamiento y la etapa final de identificación de mutaciones de resistencia.
Fig.1.9. Ilustración del worflow que hemos seguido. Fuente: Propia del autor.
� Dividir los archivos SFF (para datos multiplexados)
Los datos multiplexados contienen 10-12 nt que son etiquetas de secuencias
(MID) y que se utilizan para determinar la fuente de las lecturas. Los MIDs son parte de
los adaptadores utilizados para la preparación de la librería y se añaden entre la Key y
el cebador-molde específico (ver figura 1.8). Los errores de secuenciación pueden
20
alterar los MIDs y las SFF Tools permiten y reconocen un máximo de dos desajustes o
mismacth.
Utilizamos el siguiente comando para dividir el archivo SFF por etiquetas MID
y generar archivos SFF separados.
$ sfffile –s file.sff
Utilizamos también las SFF Tools para extraer los archivos fasta y de calidad,
empleamos los siguientes comandos.
$ sffinfo –s file.sff > file.fasta
$ sffinfo –q file.sff > file.qual
� Pasamos los archivos FASTA + CALIDAD (QUAL) a un sólo archivo
FastQ.
Utilizamos un script escrito en Python para este paso, con el siguiente comando:
$ python 454tofastq.py namefile
(El script se adjunta en material suplementario)
� Control de calidad (QC) y Pre-procesado
Las tecnologías de secuenciación no son perfectas y el control de calidad (QC)
es un paso esencial para asegurar que los datos utilizados para el análisis no se ven
comprometida de secuencias de baja calidad, artefactos de secuencias...etc, que podrían
conducir a conclusiones erróneas. La forma más fácil de hacer un control de calidad es
mirando resumen estadístico de los datos. Existen diferentes programas que pueden
producir esas estadísticas, nosotros hemos utilizado PRINSEQ.
PRINSEQ es una herramienta de procesamiento de las secuencias que se puede
utilizar para filtrar, formatear y recortar datos de la secuencia genómica y
metagenómica. Genera un resumen estadístico en gráficos y formato tabular que se
puede utilizar para los pasos de control de calidad y ayudar a elegir el procesamiento de
los datos.
21
PRINSEQ está disponible y escrito en perl (http://prinseq.sourceforge.net,
Schmieder R et al., 2011), es gratuito, rápido y no requiere la instalación de ningún
software (se puede utilizar también usando directamente la versión en página web).
Utilizamos los siguientes comandos:
Datos brutos sin filtrar:
$perl prinseq-lite.pl -verbose -fastq file.fastq -graph_data filename.gd -out_good null -out_bad null
$perl prinseq-graphs.pl -i filename.gd -png_all -o filename
$perl prinseq-graphs.pl -i filename.gd -html_all -o filename
Con esto generamos los gráficos con las estadísticas, si lo sacamos en formato
png sólo tenemos las imágenes de los gráficos pero el formato html nos da también un
resumen tabulado. Una vez que hemos visto la calidad de nuestras secuencias
procedemos a hacer un pre-procesamiento.
Pre-procesamos y filtramos los datos:
$perl prinseq-lite.pl -verbose -fastq file.fastq -out_good filename_filter -out_bad filename_no_pass -min_len
340 -trim_qual_right 25 -trim_qual_left 30 -trim_qual_type mean -trim_qual_rule lt
Filtramos por una longitud mínima de secuencia de 340 nucleótidos y cortamos
los extremos 5’ y 3’ que no tengan una calidad media mínima de 25 y 30
respectivamente.
$perl prinseq-lite.pl -verbose -fastq file_filter.fastq -graph_data file_filter.gd -out_good null -out_bad null
$perl prinseq-graphs.pl -i file_filter.gd -png_all -o file_filter
$perl prinseq-graphs.pl -i file_filter.gd -html_all -o file_filter
Volvemos a generar los gráficos con las estadísticas pero esta vez de los datos
filtrados.
� Alineamiento.
Hacemos el alineamiento de las lecturas con InDelFixer que es un alineador
sensible para datos 454, Illumina y PacBio, empleando un alineamiento local con el
algoritmo de Smith-Waterman contra una referencia.
22
Es una aplicación java que como hemos mencionado alinea datos de Next-
Generation Sequencing (NGS) frente a una referencia eliminando indeles que provocan
cambios en el marco de lectura. (https://github.com/armintoepfer/InDelFixer).
Utilizamos el siguiente comando:
$ java -jar InDelFixer.jar -i file.fastq -g referenceGenome.fasta
Esto nos da como resultado un archivo de salida que se llama por defecto
reads.sam, para pasar el formato .sam al formato binario .bam que es el que usaremos
posteriormente con DeepChek, utilizamos picard-tools-1.98.
� Picard-tools
Son un conjunto de herramientas en java de línea de comandos para la
manipulación de datos y formatos de alto rendimiento de secuenciación. Nosotros las
utilizamos para pasar el formato .sam a .bam y ordenarlo en un solo paso.
$ java -Xmx2g -jar ‘/opt/picard-tools-1.98/SortSam.jar INPUT= reads.sam OUTPUT= sortedreads.bam SORT_ORDER= unsorted
� Detección de mutaciones con Deepcheck
DeepChek ® -HIV es una plataforma de genotipado y presentación de informes
dedicada a la gestión de datos NGS (Next-Generation Sequencing) aplicados a ARN y
ADN del VIH a partir de muestras clínicas.
Ofrece virólogos y expertos en enfermedades infecciosas de un entorno fácil de
usar para procesar y gestionar datos de NGS. El software genera informes integrales
para poblaciones virales con el genotipado y una caracterización de sensibilidad a los
medicamentos, gracias a una serie de pautas de expertos actualizados regularmente
(Stanford HIVdb, Rega Institute, ANRS, RIS, etc ...).
23
Dentro de la aplicación seleccionamos el sistema experto que se ha desarrollado
con el fin de comprobar la calidad de los datos introducidos y asegurar que los
resultados dados son relevantes y significativos.
El sistema experto comprobará si la cobertura de los datos de secuenciación ultra
profunda que se procesan es suficiente para producir una información significativa.
Compara posición por posición (codón por codón) si el número de lecturas es
suficiente para cubrir la posición (por defecto 500 lecturas mínimo por posición son
requeridas para producir información significativa al 1%).
La aplicación da como resultado un informe en PDF con los resultados de los
datos que han pasado los filtros de calidad y un archivo .csv con la información de los
filtros de calidad.
En la sección Sistema Experto del informe DeepChek, la cobertura se muestra
gráficamente para cada proteína y una tabla resumen con el número mínimo de lecturas
requeridas para que la información sea significativa para cada umbral seleccionado:
Fig. 1.10. Gráfica que muestra la Cobertura y la tabla resumen con el número mínimo de lecturas.
(AZUL) La Cobertura Total: Número de lecturas que cubren correctamente la posición de aminoácidos.
(ROJO) La cobertura “Forward”: Número de lecturas directas que cubren correctamente la posición de
24
aminoácidos. (VERDE) La cobertura “Reverse”: Número de lecturas inversas que cubren correctamente
la posición de aminoácidos.
Cuando las posiciones son identificadas como no adecuadamente cubiertas por
un umbral específico son validados por el Sistema Experto y las mutaciones se
mostrarán en la sección "Análisis de mutaciones" del informe, pero la posición se verá
claramente etiquetada como "Low Coverage".
Fig. 1.11. Ejemplo de parte de un informe dónde se muestra el análisis de mutaciones.
Además, cuando al menos una mutación (que pasa la validación Sistema
Experto) se define como una posición "Low Coverage" por un umbral específico,
ninguna interpretación se da para los medicamentos relacionados con la proteína en esa
posición.
Y la interpretación de resistencias en ese caso no está determinada y se muestra
una mención "no concluyente" en lugar de la evaluación de la resistencia.
Fig. 1.12. Ejemplo de parte de un informe dónde se muestra la resistencia a las drogas según el umbral.
25
El Sistema Experto realiza varios tipos de controles de calidad basados en
normas que han sido definidos por los expertos en VIH y bioinformática.
Entre los diferentes algoritmos de control de calidad, el informe muestra una tabla
resumen por cada proteína analizada con el número de mutaciones descartadas y la
razón de exclusión:
a) Las mutaciones o variantes con muy baja prevalencia (“noisy mutations
filtering”).
b) Las mutaciones o variantes con lecturas desequilibradas en ambos sentidos
(“Forward/Reserve unbalanced frecuency”).
Fig. 1.13. Ejemplo de parte de un informe dónde se muestra las mutaciones descartadas en cada proteína.
Obviamente, las mutaciones descartadas no se tienen en cuenta durante el
proceso de determinación de resistencia a los medicamentos.
26
1.3. RESULTADOS
La etapa de control de calidad a menudo muestra que los datos deben ser pre-
procesados antes de cualquier análisis posterior, como puede ser el alineamiento de las
secuencias. Los pasos de pre-procesamiento necesarios de los datos dependen del tipo
de biblioteca que se está secuenciado (todo el genoma, transcriptoma, 16S,
metagenoma.) y del tipo de tecnología de secuenciación utilizada para generar los datos.
En la Tabla 1.3 se muestran los resultados del análisis de calidad de las muestras
analizadas antes y después del pre-procesado o filtrado.
La distribución de la longitud se puede utilizar como medida de la calidad, ya
que te da una idea de cómo ha ido la secuenciación, por ejemplo en nuestro caso un
cierto número de lecturas cortas podría esperarse, pero la muestra debe contener
principalmente fragmentos largos y de una longitud muy similar al tratarse de
amplicones, si el número de lecturas cortas es elevado indicaría baja calidad, además
estas lecturas cortas es más probable que coincidan con una posición aleatoria y por lo
tanto pueden resultar falsos positivos en asignaciones funcionales o taxonómicas.
En los archivos SFF de la tecnología 454 las secuencias más cortas suelen estar
en torno a 40pb (puesto que las que son de una longitud menor se filtran durante el
procesamiento de la señal), pero para muestras multiplexadas como es nuestro caso
pueden ser tan cortas como 28-30pb (ya que se debe cortar la etiqueta o MID que es de
unos 10 nucleótidos). En nuestro filtrado hemos dejado todas las secuencias con una
longitud mínima de unas 300pb para que las secuencias cortas no afecten a la calidad.
Un alto número de Ns o bases ambiguas puede ser un signo de una secuencia de
baja calidad, en nuestros datos el porcentaje de Ns es bajo y disminuye después del
filtrado (Huse et al., 2007).
Dependiendo del conjunto de datos, se debe considerar el filtrar duplicados de
secuencia (Niu et al., 2010). El propósito principal de la eliminación de duplicados es
mitigar los efectos de sesgo de amplificación por PCR introducido durante la
construcción de la biblioteca. Pero en nuestro caso al tratarse de análisis de amplicones
es esperable tener un elevado número de duplicados y por tanto no los filtramos.
27
Tabla 1.3. Resumen de estadísticas del control de calidad con PRINSEQ antes y después de filtrar.
Input Information Length Distribution (bp) Occurence of N Sequence Duplication
Input
file(s): Sequences: Total
bases:
Mean
sequence Minimum Maximum range Mode Sequences
with N:
Max
percentage of Ns per sequence: Exact duplicates:
Exact
duplicates with reverse complements: 5' duplicates 3' duplicates
5'/3'
duplicates with reverse complements Total:
MID51 7,740 2,712,126 350.40 39 415 377 330/1,227 90 (1.16 %) 2 % 1,581 (20.43 %) 142 (1.83 %) 29 (0.37 %) 2 (0.03 %) 13 (0.17 %) 1,767 (22.83 %)
MID51_filter 7,521 2,616,609 347.91 300 373 74 350/1,093 40 (0.53 %) 1 % 1,227 (16.31 %) 115 (1.53 %) 393 (5.23 %) 30 (0.40 %) 37 (0.49 %) 1,802 (23.96 %)
MID20 11,190 3,877,386 346.50 36 603 568 330/2,633 136 (1.22 %) 3 % 1,297 (11.59 %) 180 (1.61 %) 30 (0.27 %) 2 (0.02 %) 2 (0.02 %) 1,511 (13.50 %)
MID20_filter 10,757 3,703,070 344.25 300 377 78 330/2,116 79 (0.73 %) 1 % 915 (8.51 %) 138 (1.28 %) 439 (4.08 %) 7 (0.07 %) 47 (0.44 %) 1,546 (14.37 %)
MID53 8,450 2,938,389 347.74 39 452 414 350/1,574 74 (0.88 %) 1 % 2,433 (28.79 %) 120 (1.42 %) 48 (0.57 %) 2 (0.02 %) 7 (0.08 %) 2,610 (30.89 %)
MID53_filter 8,055 2,798,024 347.36 300 374 75 350/1,533 34 (0.42 %) 1 % 1,882 (23.36 %) 99 (1.23 %) 571 (7.09 %) 17 (0.21 %) 21 (0.26 %) 2,590 (32.15 %)
MID54 8,162 2,861,186 350.55 39 800 762 350/1,677 49 (0.60 %) 1 % 2,501 (30.64 %) 155 (1.90 %) 45 (0.55 %) 5 (0.06 %) 8 (0.10 %) 2,714 (33.25 %)
MID54_filter 7,875 2,746,175 348.72 300 411 112 350/1,612 29 (0.37 %) 1 % 2,097 (26.63 %) 129 (1.64 %) 429 (5.45 %) 29 (0.37 %) 26 (0.33 %) 2,710 (34.41 %)
MID55 8,254 2,798,294 339.02 38 506 469 330/1,381 135 (1.64 %) 2 % 1,268 (15.36 %) 176 (2.13 %) 32 (0.39 %) 6 (0.07 %) 8 (0.10 %) 1,490 (18.05 %)
MID55_filter 7,498 2,560,662 341.51 290 396 107 330/932 99 (1.32 %) 1 % 842 (11.23 %) 127 (1.69 %) 318 (4.24 %) 11 (0.15 %) 47 (0.63 %) 1,345 (17.94 %)
MID56 6,824 2,389,890 350.22 39 430 392 350/1,223 133 (1.95 %) 2 % 2,101 (30.79 %) 91 (1.33 %) 28 (0.41 %) 2 (0.03 %) 18 (0.26 %) 2,240 (32.83 %)
MID56_filter 6,589 2,279,713 345.99 300 375 76 350/1,178 111 (1.68 %) 1 % 1,650 (25.04 %) 78 (1.18 %) 529 (8.03 %) 20 (0.30 %) 36 (0.55 %) 2,313 (35.10 %)
MID57 8,635 3,021,670 349.93 39 699 661 330/1,530 144 (1.67 %) 3 % 1,538 (17.81 %) 147 (1.70 %) 16 (0.19 %) 4 (0.05 %) 4 (0.05 %) 1,709 (19.79 %)
MID57_filter 8,398 2,902,611 345.63 300 374 75 350/1,133 60 (0.71 %) 1 % 1,088 (12.96 %) 103 (1.23 %) 535 (6.37 %) 14 (0.17 %) 43 (0.51 %) 1,783 (21.23 %)
MID58 10,463 3,674,237 351.16 39 417 379 350/1,964 86 (0.82 %) 1 % 3,014 (28.81 %) 189 (1.81 %) 27 (0.26 %) 5 (0.05 %) 9 (0.09 %) 3,244 (31.00 %)
MID58_filter 10,253 3,565,568 347.76 300 379 80 350/1,861 61 (0.59 %) 1 % 2,450 (23.90 %) 144 (1.40 %) 684 (6.67 %) 24 (0.23 %) 68 (0.66 %) 3,370 (32.87 %)
MID59 9,554 3,305,493 345.98 37 611 575 350/1,801 66 (0.69 %) 4 % 2,026 (21.21 %) 209 (2.19 %) 29 (0.30 %) 4 (0.04 %) 11 (0.12 %) 2,279 (23.85 %)
MID59_filter 9,180 3,172,952 345.64 300 377 78 350/1,749 33 (0.36 %) 1 % 1,560 (16.99 %) 160 (1.74 %) 502 (5.47 %) 15 (0.16 %) 56 (0.61 %) 2,293 (24.98 %)
MID60 10,447 3,673,958 351.68 39 635 597 350/2,206 28 (0.27 %) 6 % 3,315 (31.73 %) 138 (1.32 %) 29 (0.28 %) 9 (0.09 %) 6 (0.06 %) 3,497 (33.47 %)
MID60_filter 10,130 3,538,176 349.28 300 373 74 350/2,061 18 (0.18 %) 1 % 2,769 (27.33 %) 127 (1.25 %) 621 (6.13 %) 39 (0.38 %) 22 (0.22 %) 3,578 (35.32 %)
28
De cada una de las muestras se analizó un promedio de 8600 secuencias (rango:
6589-10757, mirar Tabla 1.3), lo que permitió detectar variantes minoritarias sin
problemas de baja cobertura (“low coverage”) en todas las posiciones analizadas (ver
informes en material suplementario).
Tres de los cinco pacientes analizados (DO11, DO12 y DO16) pertenecían a la
rama del estudio dónde se mantenía el tratamiento estándar con Kaletra
(Lopinavir/Ritonavir) y dos análogos de nucleósidos (2 INTI). Los otros dos empezaron
en monoterapia con Kaletra.
A continuación se muestran unas tablas resumen con las mutaciones de
resistencia encontradas en cada paciente en una muestra al comienzo del estudio y otra
unos diez años más tarde. (En estas tablas no se muestran los polimorfismos
encontrados, sólo mutaciones importantes asociadas a resistencia a los antirretrovirales).
Se tomó un punto de corte del 1% para la detección de variantes, que está en el
rango de la sensibilidad calculada y comunicada 0.1-1% de diversas plataformas NGS
(Glenn et al., 2012). En segundo lugar porque la tasa de error calculada para NGS es
inferior al 1% (Jiang et al., 2012, Zagordi et al., 2010, Avidor et al., 2013, Buzon et al.,
2011 y CODOÑER et al., 2011).
El paciente DO2 tenía un estudio de resistencia previo en plasma donde
presentaba mutaciones de resistencia circulantes en la retrotranscriptasa (RT).
Mutaciones que se mantienen en el reservorio pasados más de diez años (M41L,
M184V, L210W y T215Y) y aparecen dos mutaciones nuevas en la PR y otras dos en la
RT que no se detectaron en la poblacional. Podemos observar que tres de las mutaciones
que estaban presentes en la muestra-1 no se detectan en la muestra-2, pero en la segunda
muestra aparecen otras dos mutaciones nuevas en la RT. Este paciente es tratado sólo
con Kaletra desde el inicio del estudio hasta la última muestra procesada en el año
2014, luego dos de las tres mutaciones nuevas que aparecen no están asociadas al
tratamiento ya que kaletra es un inhibidor de la proteasa (PR).
FECHA SAMPLE CV V32A M46I G48R E40F M41L K70R L74V K103E E138R M184V L210W T215Y M230I
26. abr. 2002 Sanger 5195 NO NO NO NO SI NO NO NO NO SI SI SI NO
1. jun. 2003 muestra-1 <50 1,6% 4,5% NO NO 64,4% NO NO NO NO 71,7% 71,6% 77,7% 10,4%
17. ene. 2014 muestra-2 <50 NO NO 25,4% 12,4% 66,3% 2,7% 5,4% NO NO 44,7% 64,5% 65,6% NO
RTPRPACIENTE DO2
29
El paciente DO8 pertenece también a la rama de sólo Kaletra, no tenemos
ningún estudio de resistencias previo y vemos que en la primera muestra presenta una
mutación de resistencia minoritaria en la PR que no detectamos en la segunda, dónde
aparecen nuevas mutaciones en la RT y la PR. Este paciente presentó episodios de
viremia transitoria detectable (“blips”) sin llegar a fallo virológico en el 2005 y se le
intensificó el tratamiento con dos análogos de nucleósidos en el 2006, lo que podría
explicar la presencia de mutaciones de resistencia en la RT en la segunda muestra.
FECHA SAMPLE CV G48E N88S K65R K103E M184I G190R M230I
1. jun. 2003 muestra-1 <50 NO 1,01% NO NO NO NO NO
17. ene. 2014 muestra-2 <50 13,7% NO 2,1% NO 15,7% 15,9% 16,7%
RTPRPACIENTE DO8
El paciente DO11 pertenece a la rama de los tres fármacos, no tenemos ningún
estudio de resistencias previo. En 2007 se le simplifica el tratamiento a sólo kaletra, a
finales del 2009 tiene “blips” y a mediados del 2010 se le vuelve a intensificar el
tratamiento. Presento fallo virológico en el 2013 pero en el análisis genotípico de la
secuenciación convencional no presenta mutaciones de resistencia circulantes en plasma
que se puedan asociar a resistencia a ninguno de los fármacos. En la última muestra
aparece una nueva mutación (F227L) que no estaba descrita anteriormente.
FECHA SAMPLE CV A71T G73S M184I G190R F227L M230I
1. jun. 2003 muestra-1 <50 11,3% 1,5% 2,6% 2,0% NO 2,4%
18. oct. 2013 Sanger 900160 NO NO NO NO NO NO
17. ene. 2014 muestra-2 <50 33,64% NO NO NO 4,6% NO
PACIENTE DO11 RTPR
El paciente DO12 también pertenece a la rama de los tres fármacos y no tenemos
ningún estudio de resistencias previo. En 2005 se le simplifica el tratamiento a sólo
kaletra y se mantiene hasta la fecha con carga viral indetectable. En la segunda muestra
aparecen dos nuevas mutaciones de resistencia en la PR y se mantienen las que ya tenía
presentes en la primera muestra (menos la G48R que desaparece) once años antes.
30
RT
FECHA SAMPLE CV L10I D30N M46I G48R G73S L100V M184I G190R M230I
1. jun. 2003 muestra-1 <50 90,7% NO NO 12,6% 9,4% NO 13,6% 9,8% 24,0%
17. ene. 2014 muestra-2 <50 87,7% 6,0% 11,8% NO 24,4% NO 14,8% 12,6% 11,5%
PRPACIENTE DO12
El paciente DO16 también pertenece a la rama de los tres fármacos y tampoco
tenemos ningún estudio de resistencias previo. En 2005 también se le simplifica el
tratamiento a sólo kaletra y se mantiene hasta la fecha con carga viral indetectable. En
la segunda muestra aparecen dos nuevas mutaciones de resistencia y no se detectan las
cuatro mutaciones que estaban presentes en la primera muestra once años antes.
31
1.4. DISCUSIÓN
En este estudio no se pretende comparar la eficacia de la monoterapia con la
terapia triple compuesta por el mismo fármaco más 2 análogos de nucleósidos, pues ya
hay estudios que demuestran la eficacia de la monoterapia (McKinnon JE et al., 2011,
Pulido F et al., 2008, Arribas JR et al., 2009)sino que pretende estudiar la estabilidad
del reservorio celular y la evolución del mismo a lo largo del tiempo, unos diez años
más tarde.
En teoría, todas las variantes circulantes pueden integrarse en forma de provirus
en las células y estar representadas en el reservorio de células latentemente infectadas.
El tratamiento antirretroviral (TARV) es incapaz de afectar a provirus que no se
encuentran en replicación, por lo que el VIH es capaz de persistir en este reservorio de
células latentemente infectadas (1 de cada 105-106 células CD4+ infectadas) (Chun et
al., 1997; Finzi et al., 1997) durante largos periodos de tiempo (vida media, 44 meses)
(Finzi et al., 1999), pudiendo ser fuente potencial de nuevos ciclos de replicación. La
existencia de este pequeño reservorio de células latentemente infectadas es la causa
principal de que el TARV no sea capaz de erradicar completamente el virus de los
individuos infectados (Chun et al., 2005).
La evolución de las quasiespecies con resistencia a los antirretrovirales (ARV)
dentro de un individuo dependerá de la generación de variabilidad genética en el virus y
a la selección de variantes resistentes al fármaco durante la terapia, en un proceso de
competición continua entre las variantes genéticas con mejor eficacia biológica o
replicativa. El desarrollo de resistencias a drogas estará por tanto subordinado a la
facilidad para adquirir una mutación particular (o conjunto de mutaciones), el efecto de
la mutación de resistencia a la susceptibilidad del fármaco, a la medida en que la
replicación del virus continúa durante el tratamiento y a la concentración del fármaco,
siendo más frecuente la aparición de resistencias cuando el virus está expuesto a niveles
subóptimos del inhibidor.
Dada la cinética de replicación y la tasa de mutación, ha sido estimado que cada
mutación puntual posible se produce entre 104 y 105 veces al día en los pacientes no
tratados (Coffin, 1995). Este hecho implica que la mayoría de las mutaciones de
resistencia a drogas están posiblemente presentes incluso antes de iniciar la terapia. Sin
32
embargo, no parecen existir virus con mutaciones de resistencia suficientes para replicar
en presencia de múltiples drogas en pacientes previamente no tratados e infectados con
virus sensible. De hecho, una vez se ha alcanzado la supresión del VIH-1 en personas
previamente no tratadas, normalmente la supresión persiste indefinidamente si no se
interrumpe el tratamiento.
La emergencia de nuevos genotipos dominantes que sustituyen al virus sensible
durante el tratamiento requiere de una replicación viral residual y podría seguir dos
posibles mecanismos: emergencia de una nueva mutación en un genotipo dominante
(Bonhoeffer et al., 1995; Charpentier et al., 2004; Lech et al., 1996; Ribeiro y
Bonhoeffer, 2000) o selección de un genotipo derivado de una quasiespecie preexistente
a bajo nivel (Charpentier et al., 2004; Ribeiro y Bonhoeffer, 2000), fenómeno que se
explicaría dadas las cifras de mutación, replicación y del tamaño del genoma del VIH-1.
En este estudio demostramos la existencia de variantes que perduran en el
reservorio durante más de diez años, esto lo vemos en todos los pacientes menos en el
DO8 y DO11 que durante ese tiempo tuvieron varios episodios de viremia transitoria
detectable (blips), incluso uno de los pacientes, el DO11 terminó en fallo virológico y
eso pudo hacer que cambiase completamente el perfil de variantes de su reservorio
celular. Además detectamos mutaciones que no se habían detectado con anterioridad lo
que apoya la teoría de que el reservorio latentemente podría evolucionar con el tiempo
por replicación residual y producir nuevas variantes sin necesidad de ser detectable en
plasma. Esta conclusión, puede verse apoyada por un estudio de Changin A et al., donde
identifican reservorios con capacidad de replicación. (Changin A et al., 2015).
Entre las conclusiones finales podemos añadir que el software DeepCheck que
se actualiza periódicamente y que cuesta unos 30-50$ por muestra, dependiendo del
número de muestras analizadas por año (Ram D et al., 2014) es una buena apuesta para
el análisis de mutaciones de resistencia en el VIH-1. (ABL proporcionó el software
DeepChech de forma gratuita en este estudio).
Otra consideración a tener en cuenta, es que sería muy interesante ampliar este
trabajo con un estudio de evolución de las secuencias mediante la construcción de
árboles filogenéticos. Pues si vemos evolución de provirus a lo largo del tiempo en
pacientes con CV indetectable significaría que existe efectivamente replicación residual.
CAPÍTULO 2:
“BIO-SIERRA”
DISEÑO DE UNA APLICACIÓN
PARA ANÁLISIS DE MUTACIONES
DE VIH-1
34
2.1. INTRODUCCIÓN
El avance de las tecnologías Next Generation Sequencing (NGS) está
permitiendo obtener una gran cantidad de información genómica en tiempos y costes
cada vez más reducidos, sin embargo será una inversión perdida si los datos generados
no pueden ser analizados adecuadamente. Se espera que NGS pueda tener un gran
impacto en el diagnóstico y el descubrimiento de SNP (Voelkerding KV et al., 2009),
siempre que haya herramientas disponibles que hagan la detección de variantes y la
interpretación de los resultados secuenciados de forma sencilla y automatizada.
Ya hay algunas herramientas disponibles para el análisis de datos de NGS y
están en continuo crecimiento, pero muchas de ellas están diseñadas para hacer una
tarea específica y rara vez ofrecen un análisis de amplio espectro. Y las pocas
herramientas disponibles para esto son paquetes comerciales.
En este trabajo hemos desarrollado una aplicación en leguaje C# (Sharp) para
análisis de amplicones de VIH-1 procedentes de la plataforma GS. Junior de la
tecnología 454 que permite procesar y almacenar los datos en una base de datos
relacional.
Roche ha desarrollado una herramienta para el análisis de amplicones llamada
AVA (Amplicon Variant Analyzer). Es fácil de usar pero tiene ciertas limitaciones ya
que sólo admite los archivos SFF propios de dicha tecnología y carece de un
almacenamiento estructurado de los datos, es decir archivos de texto plano en lugar de
almacenamiento en una base de datos (De Schrijver et al., 2010).
2.1.1. NET FRAMEWORK 3.5
Microsoft .NET Framework, es un componente de software que se incluye en los
sistemas operativos de Microsoft como Windows XP, Windows Vista o Windows 7.
Provee soluciones para requerimientos comunes de los programas y gestiona o
administra la ejecución de programas escritos específicamente para este Framework. El
objetivo principal de esto es crear un marco de desarrollo de software sencillo
reduciendo las vulnerabilidades y aumentando la seguridad de los programas
desarrollados por los programadores.
35
Las soluciones previamente codificadas que forman la biblioteca .NET, cubren
un largo rango de necesidades de la creación de programas. Los programadores las
emplean y combinan con sus propios códigos en sus programas.
Con esta plataforma Microsoft incursiona de lleno en el campo de los servicios
web y establece al XML como norma en el transporte de información en sus productos
y lo promociona como tal en los sistemas desarrollados utilizando sus herramientas.
2.1.2. C# (SHARP), EL LEGUAJE PREDILECTO DEL .NET
FRAMEWORK.
El lenguaje más usado de todos los tiempos sin duda es el C++ por su gran
alcance y el alto grado de control que brinda al programador, sin embargo su inminente
dificultad hizo que lenguajes tan “superficiales” como el Visual Basic llegaran a las
manos de todos por su sencillez y sobre todo por su velocidad de desarrollo.
Era necesario que hubiera un lenguaje de programación entre Microsoft Visual
Basic y C/C++ que permitiera crear aplicaciones rápidamente y que a su vez permitieran
un alto grado de control, para que los programadores que no quisieran cambiarse de
C/C++ a Visual Basic no perdieran el control del bajo nivel al que estaban
acostumbrados.
La sintaxis y estructuración de C# es muy parecida a la de C++ o Java, puesto
que la intención de Microsoft es facilitar la migración de códigos escritos en estos
lenguajes a C# y facilitar su aprendizaje a los desarrolladores habituados a ellos
(Ferguson J et al., 2009). Sin embargo, su sencillez y el alto nivel de productividad son
comparables con los de Visual Basic. Este lenguaje se presentó en Orlando Florida en
el año 2000.
2.1.3. IDE (INTEGRATED DEVELOPMENT ENVIRONMENT) PARA
.NET.
Un IDE es una Entorno Integrado de Desarrollo que brinda a un programador
varias herramientas entre ellas una interfaz gráfica de usuario (GUI), un intérprete,
coloración de sintaxis entre otras; para facilitar el trabajo a la hora de programar.
36
El .NET Framework consta internamente de compiladores para los lenguajes
promocionados por Microsoft, entre los que se encuentran C# y Visual Basic
principalmente. Teniendo la posibilidad de realizar nuestros programas sin pagar un
solo centavo por licencias de programas, al ser el .NET framework una aplicación
freeware que se puede descargar de Internet.
Pero hay que estar conscientes que esto involucra escribir nuestro código en
algún editor de texto que ya dispongamos como el Bloc de Notas, y hacer la respectiva
compilación desde un entorno de consola de comandos (DOS). Así como no disponer
de diseñadores gráficos para las aplicaciones con formularios.
Para solucionar este problema, es de gran utilidad el uso de un IDE para la
tecnología .NET, y es por ello que Microsoft lanza al mercado el IDE más usado en el
mundo para esta tecnología, conocido como: Microsoft Visual Studio.NET, que sirve
como IDE para todos los lenguajes de Microsoft.
2.1.4. MICROSOFT SQL SERVER
Microsoft SQL Server (http://es.wikipedia.org/wiki/SQL_Server) es un sistema
de gestión de bases de datos relacionales (SGBD) basado en el lenguaje Transact-SQL
(Lenguaje de Consulta Estructurado), capaz de poner a disposición de muchos usuarios
grandes cantidades de datos de manera simultánea.
Microsoft SQL Server constituye la alternativa de Microsoft a otros potentes
sistemas gestores de bases de datos como son Oracle, Sybase ASE, PostgreSQL o
MySQL.
37
2.2. MATERIAL Y MÉTODOS
� EQUIPO
El equipo que hemos utilizado para el desarrollo de la aplicación fue un
ordenador portátil LG R510, con las siguientes características:
• Procesador: Intel(R) Core(TM) Duo CPU 8400 @2.26GHz 2.27GHz
• Memoria RAM: 4,00 GB
• Disco Duro: 250 GB
• Tipo de Sistema: Sistema operativo de 32 bits (Windows 7 Ultimate SP1)
� CREACIÓN DE LA ESTRUCTURA DE BASE DE DATOS
La aplicación fue desarrollada y probada en SQL Server 2014. La base de datos
se utiliza fundamentalmente para ejecutar consultas de manipulación y definición de
datos mediante objetos pertenecientes a la biblioteca ADO (ActiveX Data Objects) que
usamos para recuperar, modificar, insertar o borrar un conjunto de registros de la base
de datos.
Antes de ejecutar la aplicación hemos creado la estructura de base de datos, para
ello utilizamos el DBMS (Sistema Manejador de Bases de Datos) SQL Server 2014
Management Studio.
� Diagrama y Definición de Tablas
En este punto mostraremos el diagrama de la base de datos y haremos una breve
descripción de las tablas que forman dicha base de datos.
38
Fig. 2.1. Esquema de la base de datos. Fuente: Propia del autor.
� BS_PACIENTE
En la tabla BIOSierra PACIENTE se registran los datos de los pacientes: el
Nombre y apellidos en la columna “Nombre” y el Número de Historia en “NHistoria”
(el número de historia se ha designado con un nvarchar por si se decide añadir el NH
delante del número: ej. NH2142). El “ID_Paciente” es la clave principal de la tabla y es
un entero que coincidirá con el número de historia (ej. 2142).
Fig. 2.2. Tabla BS_PACIENTE de la base de datos. Fuente: Propia del autor.
39
� BS_MUESTRAS
En la tabla muestras se registran: como clave principal el “ID_Muestra” que es
el número de la muestra (se le ha designado como nvarchar porque si la misma muestra
se procesa más de una vez, se espera que lleve el mismo número y una coletilla como
por ejemplo: 20036128 y la repetición podría ser 20036128-2 o 20036128-b…etc.), el
“ID_Paciente” es el número de historia como hemos descrito anteriormente, el
“ID_Run” es el identificador de la carrera dónde se procesó esa muestra, el “ID_Mid”
es el identificador del Mid que identifica a esa muestra, “CV” es la carga viral que tiene
la muestra y “Descripción” es una campo libre para que el usuario escriba lo que crea
pertinente, por ejemplo si se trata de una muestra de plasma o sangre total…etc.
Fig. 2.3. Tabla BS_MUESTRAS de la base de datos. Fuente: Propia del autor.
� BS_SEQS_POBLACIONALES
En esta tabla registran las secuencias poblacionales de los pacientes, es decir, las
muestras que se han procesado por el método Sanger: como clave principal tenemos el
“ID_SeqP” que es el número de la muestra (se le ha designado como nvarchar porque si
la misma muestra se procesa más de una vez, se espera que lleve el mismo número y
una coletilla como por ejemplo: 20036128 y la repetición podría ser 20036128-2 o
20036128-b…etc.), el “ID_Paciente” es el número de historia como hemos descrito
anteriormente, “CV” es la carga viral que tiene la muestra y “Descripción” es una
campo libre para que el usuario escriba lo que crea pertinente, por ejemplo si se trata de
una muestra de plasma o sangre total…etc., “Fecha” es el día en el que se hizo la
secuenciación y “SeqP” es la secuencia de nucleótidos.
40
Fig. 2.4. Tabla BS_SEQS_POBLACIONALES de la base de datos. Fuente: Propia del autor.
� BS_RUNS
La tabla BS_RUNS registra el nombre de la carrera “ID_Run” como calve
principal y la “Fecha” que es el día en el que se hizo la secuenciación.
Fig. 2.5. Tabla BS_RUNS de la base de datos. Fuente: Propia del autor.
� BS_MIDS
En esta tabla se registran el “Nombre” del Mid (por ejemplo MID20), la
“Descripción” que es la secuencia del mid, normalmente 10 nucleótidos y como clave
principal tenemos el “ID_Mid” que es un entero y que coincide con el número de Mid.
(en el ejemplo anterior el ID_Mid sería 20).
Fig. 2.6. Tabla BS_MIDS de la base de datos. Fuente: Propia del autor.
41
� BS_PRIMERS
En esta tabla se registran los primers que van a determinar cada amplicón o
región en el genoma. El identificador “ID_Region” es una clave principal y es un
número entero (por ejemplo si se trata del amplicon A el ID_Region es 1…). El
“ID_ForwRev” es el identificador que identifica si el primer es forward o reverse (en
caso de ser reverse se marca con un “bit”), el “ID_Comp” es el identificador del primer
reverso complementario, “Nombre” es el nombre del primer y “Descripción” es la
secuencia de nucleótidos.
Fig. 2.7. Tabla BS_PRIMERS de la base de datos. Fuente: Propia del autor.
� BS_DATOS_BRUTOS
En esta tabla se registran los datos brutos, es decir la información de los fastq
antes de ser procesados. “ID_Run” es el identificador de la carrera, “ID_Seq” es el
identificador propio de cada secuencia, “Seq” es la secuencia de nucleótidos y “SeqQ”
es la secuencia de calidad.
Fig. 2.8. Tabla BS_DATOS_BRUTOS de la base de datos. Fuente: Propia del autor.
42
� BS_DATOS_PREPROCESADOS
En esta tabla se registran los datos después de ser pre-procesados. En el
preprocesado lo que se hace es identificar los MIDs con el “ID_Mid” y una vez
identificados en la secuencia, se cortan los 10 nucleótidos correspondientes a ese MID
(se hace lo mismo en la secuencia de calidad, se cortan los 10 primeros caracteres y en
las secuencias en las que no se identifica ningún Mid se guardan sin “trimar” en la tabla
y sin identificador). En el preprocesado también se identifica mediante una “query” o
consulta el “ID_Region” y el “ID_ForwRev” descritos anteriormente en la tabla
BS_PRIMERS. Del mismo modo el “ID_Run” es el identificador de la carrera,
“ID_Seq” es el identificador propio de cada secuencia, “Seq” es la secuencia de
nucleótidos y “SeqQ” es la secuencia de calidad como ya se describió en la tabla
BS_DATOS BRUTOS, la única diferencia es que la secuencia y la calidad en esta tabla
se guardan “trimadas” si se identifico el Mid correspondiente.
Fig. 2.9. Tabla BS_DATOS_PREPROCESADOS de la base de datos. Fuente: Propia del autor.
� BS_SEQS_REFERENCIA
En esta tabla se registran las secuencias de referencia que se usarán
posteriormente para el alineamiento. El “ID_SeqR” es la clave principal, se trata del
identificador de la secuencia de referencia y es un número entero. “Nombre” es el
nombre de la secuencia y “SeqR” es la secuencia de nucleótidos.
43
Fig. 2.10. Tabla BS_SEQS_REFERENCIA de la base de datos. Fuente: Propia del autor.
� BS_DATOS_ALINEADOS
En esta tabla se registran los datos después de que se haya hecho el
alineamiento. Se identifican mediante una “query” o consulta los identificadores
“ID_Region” y el “ID_ForwRev” descritos anteriormente en la tabla BS_PRIMERS, del
mismo modo el “ID_Run” es el identificador de la carrera, “ID_Seq” es el identificador
propio de cada secuencia, “ID_SeqR” es el identificador de la secuencia de referencia
que se utilizó en el alineamiento, “Seq” es la secuencia de nucleótidos y “SeqQ” es la
secuencia de calidad como ya se describió en la tabla BS_DATOS BRUTOS, “ID_Mid”
es el identificador del mid de las secuencias que se han alineado. “Inicio” es un número
entero y es la coordenada de inicio dónde la secuencia empieza a alinear respecto a la
referencia. Por último “Fin” es un también número entero y es la coordenada de fin
dónde la secuencia termina de alinear respecto a la referencia.
Fig. 2.11. Tabla BS_DATOS_ALINEADOS de la base de datos. Fuente: Propia del autor.
44
� Programación en Visual Studio con C#
En este apartado se describirán algunos detalles de la programación para el
desarrollo de la aplicación y algunos ejemplos de código. (Sólo se describirán algunas
partes, pues la explicación total del desarrollo y el código excederían la extensión
máxima del trabajo).
Al abrir el editor Microsoft Visual Studio 2012 se muestra una página de inicio
como en la siguiente figura:
Fig. 2.12. Página de inicio. Fuente: Propia del autor.
Para comenzar un nuevo proyecto se le da al botón de Nuevo proyecto, debajo
de Iniciar y a continuación en el menú de la Fig. 2.13 elijo la opción de programación
Visual C# y una Aplicación de Windows Forms.
Fig. 2.13. Opciones de programación. Fuente: Propia del autor.
45
o Agregar la referencia Web al proyecto
En el Explorador de soluciones, hacemos clic en el nombre del proyecto y, a
continuación, hacemos clic en Agregar referencia de servicio.
Fig. 2.14. Explorador de soluciones. Fuente: Propia del autor.
Nos aparece el cuadro de diálogo Agregar referencia de servicio.
Fig. 2.15. Agregar referencia de servicio. Fuente: Propia del autor.
46
En el cuadro de diálogo Agregar referencia de servicio, hacemos clic en el botón
Avanzado. Nos aparece el cuadro de diálogo Configuración de servicio de referencia.
Fig. 2.16. Configuración de servicio de referencia. Fuente: Propia del autor.
En el cuadro de diálogo Configuración del servicio de referencia, hacemos clic
en Agregar referencia Web. Aparece el cuadro de diálogo Agregar referencia Web.
Fig. 2.17. Agregar referencia Web. Fuente: Propia del autor.
47
En el cuadro URL, escribimos la dirección URL del servicio Web que deseamos
utilizar (En este caso el de Stanford).
En los servicios Web que se encuentran en este cuadro de URL, seleccionamos
el servicio Web que deseamos utilizar. En el campo Nombre de referencia Web,
escribimos un nombre que va a utilizar en el código para acceder al servicio Web
seleccionado mediante programación. Hacemos clic en Agregar referencia
Un espacio de nombres basado en el nombre de referencia Web es creado por la
construcción de una jerarquía de carpetas anidadas. Dentro de la carpeta más interior, se
crea un archivo .wsdl que hace referencia al servicio Web, junto con los archivos de
soporte, como el descubrimiento (.disco y .discomap) archivos, que incluyen
información acerca de dónde se encuentra el servicio Web.
.
o Contenido del Proyecto Visual Studio
Fig. 2.18. Explorador de soluciones. Fuente: Propia del autor.
En el explorador de soluciones podemos identificar 3 partes bien diferenciadas
que vamos a detallar a continuación:
48
� Web References
En esta parte podemos ver la referencia al servicio Web de Stanford, el añadido
de esta referencia ya lo hemos detallado en el punto anterior Agregar la referencia
Web al proyecto.
� Clases de terceros
En este apartado podemos ver el conjunto de clases con el código que hemos
reutilizado en nuestra aplicación (La fuente de estas clases es: Jaime García Hernández).
A continuación detallaremos cuáles son y para que se utilizan:
ClsExportarExcel.cs
Esta clase la utilizamos para exportar el contenido de cualquier
DataGridView a una hoja Excel.
ClsMyItem.cs
Esta clase la utilizamos para guardar el los ComboBox de la aplicación un
contenido con un formato predefinido.
ClsMyOwnFileProcessor.cs
Esta clase la utilizamos para guardar las propiedades de una conexión SQL
en un fichero de texto y posteriormente cargarlas del mismo en nuestra
aplicación.
ClsMyOwnQueries.cs
Esta clase la utilizamos para guardar toda la lógica SQL de nuestra
aplicación, sustituyendo las consultas SQL del tercero por las nuestras.
ClsMyOwnUtilities.cs
Esta clase la utilizamos para evitar que se reabran formularios en la
aplicación.
ClsMySQLConnection.cs
Esta clase la utilizamos para conectar y lanzar consultas en la BD.
ClsMyWait.cs
Esta clase la utilizamos para lanzar un formulario modal de espera.
49
� Windows Forms
En este apartado podemos ver todos los formularios (Pantallas) que muestra
nuestra aplicación. En estos formularios se encuentra la lógica de la misma, siendo el
formulario principal e inicio de nuestra aplicación FrmPrincipal. Dentro de este
formulario principal iremos lanzando los diferentes procesos de nuestra aplicación y
lanzando el resto de formularios descritos en la imagen del explorador de soluciones.
o Conectar a la Base de Datos
50
Para conectar a la Base de Datos usamos una clase de acceso y gestión de los
datos (ClsMySQLConnection). Utilizando los distintos métodos y propiedades de la clase
conectamos y ejecutamos consultas en nuestra base de datos. La conexión sería:
Establecemos las propiedades de la conexión y después ejecutaríamos la
subrutina Connect:
o Importar Datos
Para Importar datos hacemos la extracción de un fichero fastq (Para importar
Runs) o fasta (Para importar Poblacionales) volcando los datos en nuestra BD. Como
ejemplo veremos el código de extracción del fasta:
Como podemos ver en la imagen vamos leyendo del fichero guardando en
variables el ID de secuencia, la secuencia y la Carga Viral por separado para, más
adelante, guardar los campos en la Base de Datos utilizando la clase de conexión
(ClsMySQLConnection) y la clase con la lógica SQL (ClsMyOwnQueries).
51
o Cargar Datos en DataGridView
Una vez conectados a la Base de Datos e importados los datos de Runs o
Poblacionales podríamos cargar el contenido de lo importado en un DataGridView
vamos a ver como ejemplo como hace el proceso para cargar una Run de los datos
brutos:
Como podemos ver en el siguiente código cargamos el resultado de una consulta
utilizando el método ExecuteThatSelectQuery de la clase de conexión en un DataTable
(DTDatosBrutos) y este DataTable lo enchufamos al DataGridView (DGDB), que le
hemos pasado por parámetro a la rutina, a través del objeto DataSource del
DataGridView que obtiene o establece el origen de datos cuyos datos se están
mostrando en el control System.Windows.Forms.DataGridView.
52
o Preprocesar datos
Una vez cargados los Datos Brutos los preprocesaremos, a continuación
describiremos el proceso de preprocesamiento de datos.
Para el preprocesamiento de datos utilizamos un INSERT-SELECT cruzando las
partes de la secuencia de la tabla de DATOS_BRUTOS donde se encuentran el MID y
el PRIMER con las tablas de MIDS y PRIMERS de nuestra BD insertando así los
campos en la tabla de DATOS_PREPROCESADOS sin los nucleótidos que forman
parte del MID de la secuencia.
53
o Alinear Datos Preprocesados
A continuación detallaremos como se realiza el alineamiento de los datos.
Como se ve en la imagen anterior lo primero que hacemos es recuperar los datos
preprocesados de la tabla mediante una consulta que filtrará dichos datos por Run y
Mid. Después componemos el directorio y el nombre del fastq que vamos a construir a
partir de dichos datos. Construimos el fastq a partir de los mismos y construimos el
fasta de la secuencia de referencia a partir de las secuencia de referencia seleccionada en
el CombolBox. A continuación ejecutamos el alineador InDelFixer de la forma
siguiente:
Y por último importamos del fichero SAM que genera el alineador los datos a
guardar en la tabla de DATOS_ALINEADOS de nuestra Base de Datos.
54
o Enviar Secuencia al Web Service Stanford
A continuación detallaremos como hacemos el proceso de utilización del Web
Service de Stanford. Para ello utilizaremos como ejemplo el envío de una secuencia con
la opción Procesar Secuencia Seleccionada del DataGridView de Datos Preprocesados
de nuestra aplicación:
En primer lugar en la subrutina ProcesarSecuencia definimos un array para
guardar la secuencia/s contenida/s en el DataGridView.
Después guardamos la secuencia/s del DataGridView seleccionado en el array
de secuencias definido previamente.
Por último procesamos la secuencia/s llamando al Web Service de Stanford.
El Web Service nos devuelve un Xml con las diferentes tablas de resultados, este
Xml lo almacenamos en un DataSet para su posterior mostrado en nuestra aplicación.
55
o Resultados Totales del Web Service Stanford
En este apartado detallaremos como se muestran los resultados totales del Web
Service. Este Formulario hace un mostrado en Bruto del resultado del DataSet donde
hemos guardado el Xml que nos devuelve el Web Service, sin filtrar por secuencia
dichos resultados, este filtrado lo hacemos en la pestaña de Resultados.
Al seleccionar la tabla del DataSet geneData cargaremos en contenido de dicha
tabla en el DGResultados y llamaremos a la rutina de ObtenerResultadosTotales donde
calcularemos el contenido DGVGTotales.
En ObtenerResultadosTotales calcularemos DGVGTotales en función de la tabla
seleccionada en el ComboBox Resultado.
56
En nuestro ejemplo la tabla seleccionada es geneData, lo que haremos es contar
cuantas de nuestras secuencias son PR, RT o IN y después mostraremos en el
DataGridView de Totales (DGVGTotales) el número de secuencias analizadas de cada
gen.
57
2.3. RESULTADOS
La aplicación consigue conectarse sin problemas a la base de datos SQL server,
la etapa de extracción o “parsing” de los formatos de entrada fasta y fastq la hace
perfectamente importándolos directamente a la base de datos relacional.
En el preprocesado identifica y corta las etiquetas MID mediante una consulta o
“query” siempre que no haya ningún error en la secuencia, este mismo proceso lo lleva
a cabo para la identificación de los primers y añade a la secuencia la región a la que
pertenece bien sea el amplicón 1, 2, 3 o 4, además de asignarle a la lectura “forward” o
“reverse” según proceda.
Para el análisis de resultados las secuencias seleccionadas son enviadas a base de
datos de Stanford ( HIV RT and Protease Sequence Database) haciendo uso de su Web
Service llamado “Sierra” (http://hivdb.stanford.edu). El programa realiza un análisis a
partir de la secuencia de la PR y la RT o una lista de mutaciones (Rhee et al., 2003),
comparando la secuencia de interés con una secuencia consenso de subtipo B derivada
de un alineamiento de secuencias de subtipo B de la Base de Datos de VIH de Los
Álamos (hiv-web.lanl.gov). Cada mutación de resistencia asociada a un compuesto
recibe una puntuación de penalización y la puntuación total para cada uno de los
fármacos corresponde a la suma de todas las puntuaciones asociadas a resistencia a un
compuesto determinado. Con la puntuación total, el programa emite un informe con uno
de los siguientes niveles de resistencia para cada uno de los compuestos anti-VIH
aprobados por la FDA: sensible (puntuación 0-9) (no se ha demostrado reducción en la
respuesta a este fármaco en aislados con estas mutaciones); potencial bajo nivel de
resistencia (puntuación 10-14) (presencia de mutaciones que no producen resistencia
por sí solas, pero indican la posibilidad de que se seleccionen por los fármacos); bajo
nivel de resistencia (puntuación 15-29) (sensibilidad reducida in vitro y/o respuesta
virológica subóptima al tratamiento); resistencia intermedia (puntuación 30-59) y alto
nivel de resistencia (puntuación >60) (alta resistencia de los aislados in vitro con el
mismo perfil de mutaciones y/o respuesta virológica escasa/nula al tratamiento
observada en pacientes infectados con aislados de genotipo similar). Las mutaciones
que causan hipersensibilidad a un fármaco tienen una puntuación negativa.
58
El Web Service nos devuelve un Xml con los resultados de cada secuencia
analizada, que incluye entre otras cosas las mutaciones encontradas, la resistencia a los
fármacos, el alineamiento frente a su referencia, el subtipo del virus, un análisis de
hipermutación o actividad de APOBEG3G, este enzima celular introduce cambios
G�A en determinadas secuencias de VIH-1 (Goff, 2003; Harris et al., 2003; Yu et al.,
2004).
Todos los resultados que nos interesan son extraídos y se visualizan en pantalla,
además se pueden exportar en formato Excel. También se hace una estadística y
resumen de las mutaciones totales y la cobertura, pues como he comentado el Web
Service nos devuelve el resultado de cada secuencia, no hace el cálculo global. Se hace
también el análisis de las secuencias que han fallado, el total de secuencias
hipermutadas..etc.
La aplicación también hace el alineamiento de las secuencias frente a una
referencia incluida en la base de datos y que el usuario elegirá previamente, este paso lo
hace con el alineador InDelfixer que es una herramienta java y posteriormente en el
mismo proceso de alineación se extraen los datos del fichero de salida reads.sam y se
vuelcan en la base de datos. (Para ver más detalles mirar el Anexo, que incluye una guía
básica de usuario).
Para probar el funcionamiento de aplicación se analizaron las mismas muestras
del capítulo 1. Y a continuación mostramos unas tablas con las comparaciones.
PACIENTE DO2
APLICACIÓN FECHA SAMPLE CV V32A M46I G48R E40F M41L K70R L74V K103E E138R M184V L210W T215Y M230I
26. abr. 2002 Sanger 5195 NO NO NO NO SI NO NO NO NO SI SI SI NO
DeepCheck 1. jun. 2003 muestra-1 <50 1,6% 4,5% NO NO 64,4% NO NO NO NO 71,7% 71,6% 77,7% 10,4%
BioSierra 1. jun. 2003 muestra-1 <50 1,7% 4,4% NO NO NO NO NO 3,9% 28,5% 71,4% 74,6% 76,5% NO
DeepCheck 17. ene. 2014 muestra-2 <50 NO NO 25,4% 12,4% 66,3% 2,7% 5,4% NO NO 44,7% 64,5% 65,6% NO
BioSierra 17. ene. 2014 muestra-2 <50 NO NO 18,3% NO NO 0,8% 2,7% 5,1% NO 45,8% 63,0% 62,1% NO
RTPR
PACIENTE DO8
APLICACIÓN FECHA SAMPLE CV G48E N88S K65R K103E M184I G190R M230I
DeepCheck 1. jun. 2003 muestra-1 <50 NO 1,01% NO NO NO NO NO
BioSierra 1. jun. 2003 muestra-1 <50 NO 0,4% NO 1,3% NO NO NO
DeepCheck 17. ene. 2014 muestra-2 <50 13,7% NO 2,1% NO 15,7% 15,9% 16,7%
BioSierra 17. ene. 2014 muestra-2 <50 5,1% NO 1,3% NO 10,6% 10,0% NO
RTPR
59
APLICACIÓN FECHA SAMPLE CV A71T G73S M184I G190R F227L M230I
DeepCheck 1. jun. 2003 muestra-1 <50 11,3% 1,5% 2,6% 2,0% NO 2,4%
BioSierra 1. jun. 2003 muestra-1 <50 6,0% 0,19% 2,4% 1,8% NO NO
18. oct. 2013 Sanger 900160 NO NO NO NO NO NO
DeepCheck 17. ene. 2014 muestra-2 <50 33,64% NO NO NO 4,6% NO
BioSierra 17. ene. 2014 muestra-2 <50 20,4% NO NO NO 4,6% NO
PACIENTE DO11 RTPR
PACIENTE DO12 RT
APLICACIÓN FECHA SAMPLE CV L10I D30N M46I G48R G73S L100V M184I G190R M230I
DeepCheck 1. jun. 2003 muestra-1 <50 90,7% NO NO 12,6% 9,4% NO 13,6% 9,8% 24,0%
BioSierra 1. jun. 2003 muestra-1 <50 89,8% NO NO 10,7% 5,1% NO 9,9% 6,9% NO
DeepCheck 17. ene. 2014 muestra-2 <50 87,7% 6,0% 11,8% NO 24,4% NO 14,8% 12,6% 11,5%
BioSierra 17. ene. 2014 muestra-2 <50 87,8% 6,0% 11,9% NO 13,6% 1,1% 12,6% 10,1% NO
PR
PACIENTE DO16 PR
APLICACIÓN FECHA SAMPLE CV L24I G73S N88D E138G M184I G190R T215Y 230I
DeepCheck 1. jun. 2003 muestra-1 <50 NO NO 2,6% 2,9% NO 3,7% NO 4,6%
BioSierra 1. jun. 2003 muestra-1 <50 NO NO 1,6% 2,3% NO 3,0% NO NO
DeepCheck 17. ene. 2014 muestra-2 <50 NO 1,9% NO NO NO NO 32,6% NO
BioSierra 17. ene. 2014 muestra-2 <50 1,57% 0,7% NO NO 1,0% NO 46,1% NO
RT
En el paciente DO2 la aplicación no detecta las primeras mutaciones de la RT
E40F y M41L, además hay una diferencia significativa en el porcentaje de las
mutaciones K70R y L74V, eso se puede explicar porque en el análisis de los resultados
la base de datos de Stanford nos devuelve todas las secuencias del amplicón dos como
fallidas, ya que este amplicón cubre parte de la proteasa (desde la posición 2487 a 2549,
un total de 62 nucleótidos) y parte de la RT (desde la posición 2550 a 2836, con un
total de 286 nucleóticos), debido a esto no alcanza el tamaño mínimo para que se le
pueda asignar un Subtipo a esa secuencia en ninguno de los genes y las rechaza. Por lo
tanto perdemos todas las posiciones que deberían estar cubiertas con este amplicón y
que no solapan con ningún otro (ver Fig. 1.7. del capítulo 1).
Nuestra aplicación tampoco detecta la mutación M230I en ninguno de los
pacientes, esta mutación es extremadamente rara y normalmente seleccionada in vitro
por Rilpivirina (RPV) y los efectos en los fármacos no análogos de nucleósidos no están
estudiados (NNTI).
El resto de diferencias están en mutaciones que se encuentran con frecuencias
muy bajas, no detectándose por alguno de las dos aplicaciones si establecemos el punto
de corte en el 1% y podría tratarse de ruido de fondo.
60
2.4. DISCUSIÓN
En vista a la comparación de los resultados con la aplicación Deepcheck
podemos decir que son muy similares y que BIOSierra es capaz de detectar las
mutaciones con bastante precisión exceptuando la limitación que presenta con el
amplicón número dos. Esto se puede solucionar con un nuevo diseño del experimento,
además se podría utilizar la nueva química plus de 454 que es capaz de secuenciar hasta
un máximo de 800pb.
Los MIDs son detectados y recortados correctamente, sin embargo este paso
tiene una limitación ya que sabemos que la tecnología comente errores en la
secuenciación y sólo detectamos aquellos MIDs que no tiene ningún error en la
secuencia, en próximas versiones se pretende añadir un proceso en el que el usuario
pueda elegir si quiere ser exigente en este punto o permitir algún error (mistmach).
El software AVA (Amplicon Variant Analyzer) de Roche permite un desajuste
de dos errores en el reconocimiento de la secuencia MID, si comparamos nuestros datos
con los del AVA en los datos que hemos analizado anteriormente de un total de 89810
secuencias nuestra aplicación deja sin reconocimiento de MID 1269 (1,4%) frente a las
596 (0,66%) que deja el AVA sin asignación de MID, lo que significa que un 0,66% de
las secuencias tienen más de dos errores en los 10 primeros nucleótidos que es lo que se
corresponde a la etiqueta MID.
Además nuestra aplicación tiene la limitación que los amplificados usan el
mismo MID en ambos primers (directo y reverso), para la detección de dos primers con
diferentes MIDs asociados a una misma muestra habría que diseñar otro proceso o
consulta, sin embargo en la actualidad hay disponibles alrededor de 100 MIDs
disminuyendo la necesidad de mezclarlos.
Esta misma limitación la encontramos en la detección de la región, pues de
momento no se ha incluido un proceso en el que se permita algún desajuste en el
reconocimiento de los primers.
El proceso de alineamiento todavía no está terminado. Se espera poder alinear y
obtener los resultados de las variantes para enviar al Web Service Sierra un listado de
mutaciones y no todas las secuencias, ahorrando de esa manera tiempo en la ejecución
del proceso. Además el departamento técnico de la base de datos de Stanford nos
61
advirtió que su aplicación no está preparada para recibir datos de secuenciación masiva
y que buscásemos la manera de colapsar los datos, en próximas mejoras se pretende
incluir un proceso de colapsado de datos en la etapa de preprocesamiento de los datos.
En esta etapa también se quiere incluir un filtrado de secuencias por longitud
mínima para evitar problemas tanto en el alineamiento como para reducir el volumen de
datos que se envía al Web Service.
Entre las recomendaciones del departamento técnico de Stanford se encuentra el
no enviar más de mil secuencias de una vez, cuando el número de secuencias
preprocesadas es superior a mil hemos creado un proceso para enviarlas de mil en mil.
En una versión más ambiciosa del proyecto se pretendería no depender de
ninguna herramienta externa para el análisis de los datos y sustituir tanto el InDelFixer
como el Web Service Sierra por un desarrollo propio.
Aunque las bases de datos están bien diseñadas y son consultadas de forma
inteligente, las operaciones se convertirán en un cuello de botella como el número de
secuencias obtenidas en la Secuenciación sea demasiado elevado (La secuenciación
Illumina está típicamente en gamas de miles de millones, mientras que 454 produce
algunos millones de secuencias).
La aplicación BioSierra está en continuo desarrollo y mejora a medida que más y
más datos de secuenciación tenemos disponibles para validar y mejorar los procesos.
62
REFERENCIAS
1. Avidor, B., Girshengorn, S., Matus, N., Talio, H., Achsanov, S., Zeldis, I., Fratty, I.S.,Katchman, E., Brosh-Nissimov, T., Hassin, D., Alon, D., Bentwich, Z., Yust, I., Amit,S., Forer, R., Vulih Shultsman, I., Turner, D., 2013. Evaluation of a benchtop HIVultradeep pyrosequencing drug resistance assay in the clinical laboratory. J. Clin.Microbiol. 51, 880–886
2. Arribas JR, Pulido F, Delgado R, et al. Lopinavir/ritonavir as single-drug therapy for maintenance of HIV-1 viral suppression: 48-week results of a randomized, controlled, open-label, proof-of-concept pilot clinical trial (OK Study) Journal of Acquired Immune Deficiency Syndromes: JAIDS. 2005;40:280–287.
3. Arribas JR, Delgado R, Arranz A, et al. Lopinavir-ritonavir monotherapy versus lopinavir-ritonavir
and 2 nucleosides for maintenance therapy of HIV: 96-week analysis. Journal of Acquired Immune Deficiency Syndromes: JAIDS. 2009;51:147–152.
4. Barre-Sinoussi F, Chermann J.C, Rey F, Nugeyre M.T, Chamaret S, Gruest J, Dauguet C, Axler-Blin C, Vezinet-Brun F, Rouzioux C, Rozenbaum W, and Montagnier L. (1983). Isolation of a T-lymphotropic retrovirus from a patient at risk for acquired immune deficiency syndrome (AIDS). Science 220, 868-871.
5. Bonhoeffer,S., Holmes,E.C., and Nowak,M.A. (1995). Causes of HIV diversity. Nature 376, 125.
6. Buzon, M.J., Codoner, F.M., Frost, S.D., Pou, C., Puertas, M.C., Massanella, M., Dalmau,J., Llibre, J.M., Stevenson, M., Blanco, J., Clotet, B., Paredes, R., Martinez-Picado,J., 2011. Deep molecular characterization of HIV-1 dynamics under suppressiveHAART. PLoS Pathog. 7, e1002314.
7. Charpentier,C., Dwyer,D.E., Mammano,F., Lecossier,D., Clavel,F., and Hance,A.J. (2004). Role of minority populations of human immunodeficiency virus type 1 in the evolution of viral resistance to protease inhibitors. J. Virol. 78, 4234-4247
8. Codoner, F.M., Pou, C., Thielen, A., Garcia, F., Delgado, R., Dalmau, D., Alvarez-Tejado,M., Ruiz, L., Clotet, B., Paredes, R., 2011. Added value of deep sequencing relativeto population sequencing in heavily pre-treated HIV-1-infected subjects. PLoSONE 6, e19461
9. Coffin,J.M. (1995). HIV population dynamics in vivo: implications for genetic variation, pathogenesis, and therapy. Science 267, 483-489.
10. Chargin A, Yin F, Song M, Subramaniam S, Knutson G, Patterson BK. Identification and Characterization of HIV-1 Latent Viral Reservoirs In Peripheral Blood. J Clin Microbiol. 2015 Jan;53(1):60-6
11. Charpentier C, Dwyer D.E, Mammano F, Lecossier D, Clavel F, and Hance A.J. (2004). Role of
minority populations of human immunodeficiency virus type 1 in the evolution of viral resistance to protease inhibitors. J. Virol. 78, 4234-4247.
12. Chun,T.W., Nickle,D.C., Justement,J.S., Large,D., Semerjian,A., Curlin,M.E., O'Shea,M.A., Hallahan,C.W., Daucher,M., Ward,D.J., Moir,S., Mullins,J.I., Kovacs,C., and Fauci,A.S. (2005). HIV-infected individuals receiving effective antiviral therapy for extended periods of time continually replenish their viral reservoir. J. Clin. Invest. 115, 3250-3255.
13. De Schrijver J, De Leeneer K, Lefever S, Sabbe N, Pattyn F, Van Nieuwerburgh F, et al. Analysing 454 amplicon resequencing experiments using the modular and database oriented Variant Identification Pipeline. BMC BIOINFORMATICS. 2010;11
14. Ferguson Jeff; Patterson Brian; Beres Jason (2003). La biblia de C#. Ed.Anaya Multimedia. España.
Diciembre/2009.
63
15. Finzi D, Hermankova M, Pierson T, et al. Identification of a reservoir for HIV-1 in patients on highly active antiretroviral therapy. Science. 1997;278:1295-1300
16. Finzi,D., Blankson,J., Siliciano,J.D., Margolick,J.B., Chadwick,K., Pierson,T., Smith,K., Lisziewicz,J., Lori,F., Flexner,C., Quinn,T.C., Chaisson,R.E., Rosenberg,E., Walker,B., Gange,S., Gallant,J., and Siliciano,R.F. (1999). Latent infection of CD4+ T cells provides a mechanism for lifelong persistence of HIV-1, even in patients on effective combination therapy. Nat. Med. 5, 512-517.
17. Goff,S.P. (2003). Death by Deamination: A Novel Host Restriction System for HIV-1. Cell 114, 281-283.
18. Gottlieb M.S, Groopman J.E, Weinstein W.M, Fahey J.L, and Detels R. (1983). The acquired immunodeficiency syndrome. Ann. Intern. Med. 99, 208-220.
19. Harris,R.S., Bishop,K.N., Sheehy,A.M., Craig,H.M., Petersen-Mahrt,S.K., Watt,I.N., Neuberger,M.S., and Malim,M.H. (2003). DNA deamination mediates innate immunity to retroviral infection. Cell 113, 803-809.
20. Hirsch,M.S., Gunthard,H.F., Schapiro,J.M., Brun-Vezinet,F., Clotet,B., Hammer,S.M., Johnson,V.A., Kuritzkes,D.R., Mellors,J.W., Pillay,D., Yeni,P.G., Jacobsen,D.M., and Richman,D.D. (2008). Antiretroviral drug resistance testing in adult HIV-1 infection: 2008 recommendations of an International AIDS Society-USA panel. Clin. Infect. Dis. 47, 266-285.
21. http://prinseq.sourceforge.net
22. https://github.com/armintoepfer/InDelFixer
23. http://www.454.com/
24. http://www.lifetechnologies.com/es/en/home/brands/ion-torrent.html
25. http://es.wikipedia.org/wiki/SQL_Server
26. http://hivdb.stanford.edu
27. Hu W.S, and Temin H.M. (1990). Genetic consequences of packing two RNA genomes in one retroviral particle: pseudodiploidy and high rate of genetic recombination. Proc Natl Acad Sci U S A 87, 1556-1560.
28. Huse S, Huber J, Morrison H, Sogin M, Welch D: Accuracy and quality of massively parallel DNA pyrosequencing.Genome Biology 2007, 8:R143.
29. Jiang, Q., Turner, T., Sosa, M.X., Rakha, A., Arnold, S., Chakravarti, A., 2012. Rapid andefficient human mutation detection using a bench-top next-generation DNAsequencer. Hum. Mutat. 33, 281–289
30. Lech,W.J., Wang,G., Yang,Y.L., Chee,Y., Dorman,K., McCrae,D., Lazzeroni,L.C., Erickson,J.W., Sinsheimer,J.S., and Kaplan,A.H. (1996). In vivo sequence diversity of the protease of human immunodeficiency virus type 1: presence of protease inhibitor-resistant variants in untreated subjects. J. Virol. 70, 2038-2043
31. Kearney,M., Palmer,S., Maldarelli,F., Shao,W., Polis,M.A., Mican,J., Rock-Kress,D., Margolick,J.B.,
Coffin,J.M., and Mellors,J.W. (2008). Frequent polymorphism at drug resistance sites in HIV-1 protease and reverse transcriptase. AIDS 22, 497-501.
32. Marmor M, Hertzmark K, Thomas S.M, Halkitis P.N, and Vogler M. Resistance to HIV infection. Journal of Urban Health, 83(1):5–17, 2006
64
33. McKinnon JE, Arribas JR, Pulido F, et al. The level of persistent HIV viremia does not increase after successful simplification of maintenance therapy to lopinavir/ritonavir alone. AIDS. 2006;20:2331–2335.
34. McKinnon JE, Delgado R, Pulido F, Shao W, Arribas JR, Mellors JW: Single genome sequencing of
HIV-1 gag and protease resistance mutations at virologic failure during the OK04 trial of simplified versus standard maintenance therapy. Antivir Ther. 2011;16(5):725-32.
35. MMWR. Morb. Mortal. Wkly. Rep. (1981) Pneumocystis pneumonia-Los Angeles. 30, 250-252.
36. Niu B, Fu L, Sun S, Li W: Artificial and natural duplicates in pyrosequencing reads of metagenomic data. BMC Bioinformatics 2010, 11:187
37. Murphy, F., Fauquet, C. M., and Bishop, D. H. L. Virus taxonomy - the classification and
nomenclature of viruses: sixth report of the International Committee of Taxonomy of viruses. (1995).
38. Palmer S, Kearney M, Maldarelli F, et al. Multiple, Linked Human Immunodeficiency Virus Type 1 Drug Resistance Mutations in Treatment-Experienced Patients Are Missed by Standard Genotype Analysis. Journal of Clinical Microbiology. 2005;43:406–413.
39. Pulido F, Arribas JR, Delgado R, et al. Lopinavir-ritonavir monotherapy versus lopinavir-ritonavir
and two nucleosides for maintenance therapy of HIV. AIDS. 2008;22:F1–F9.
40. Pulido F, Delgado R, Perez-Valero I, et al. Long-term (4 years) efficacy of lopinavir/ritonavir monotherapy for maintenance of HIV suppression. J. Antimicrob. Chemother. 2008;61:1359–1361.
41. Rama D, Leshkowitzb D, Gonzalez D, Forerd R, Levye I, Chowersf M, Lorberg M, Hindiyeh M, Mendelsona,E, Mor O:Evaluation of GS Junior and MiSeq next-generation sequencingtechnologies as an alternative to Trugene population sequencing inthe clinical HIV laboratory. J. Virol. Methods (2014)
42. Rhee,S.Y., Gonzales,M.J., Kantor,R., Betts,B.J., Ravela,J., and Shafer,R.W. (2003). Human immunodeficiency virus reverse transcriptase and protease sequence database. Nucleic Acids Res. 31, 298-303.
43. Ribeiro,R.M. and Bonhoeffer,S. (2000). Production of resistant HIV mutants during antiretroviral therapy. Proc. Natl. Acad. Sci. 97, 7681-7686.
44. Schmieder R and Edwards R: Quality control and preprocessing of metagenomic datasets. Bioinformatics 2011, 27:863-864
45. Siliciano JD, Siliciano RF. A long-term latent reservoir for HIV-1: discovery and clinical
implications. J Antimicrob Chemother. 2004;54:6-9.
46. Voelkerding KV, Dames SA, Durtschi JD: Next-generation sequencing: from basic research to diagnostics. Clin Chem 2009, 55(4):641-658.
47. Yu,Q., Konig,R., Pillai,S., Chiles,K., Kearney,M., Palmer,S., Richman,D., Coffin,J.M., and
Landau,N.R. (2004). Single-strand specificity of APOBEC3G accounts for minus-strand deamination of the HIV genome. Nat. Struct. Mol. Biol. 11, 435-442
48. Zagordi, O., Klein, R., Daumer, M., Beerenwinkel, N., 2010. Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies. NucleicAcids Res. 38, 7400–7409
49. Zennou,V., Petit,C., Guetard,D., Nerhbass,U., Montagnier,L., and Charneau,P. (2000). HIV-1 genome
nuclear import is mediated by a central DNA flap. Cell 101, 173-185.
65
ANEXO
Guía básica de Usuario:
1. Entramos en la aplicación haciendo doble clic en el icono "BIOSierra".
2. Accedemos a la pantalla de inicio de la aplicación.
3. Conectamos a la base de datos relacional.
• Desde el menú.
66
• O haciendo clic en el botón de conectar a la base de datos de la barra de herramientas. Se abre una nueva ventana y le damos a conectar.
4. Importamos lo datos.
• Desde el menú.
• O haciendo clic en el botón de importar datos de la barra de herramientas. Se abre una nueva ventana y tenemos dos opciones: una para importar Datos Brutos y otra para importar Secuencias Poblacionales.
67
� Si elegimos la opción de Impotar Datos Brutos, importaremos un archivo fastq y se debe seleccionar la fecha de la carrera o run.
� Si elegimos la opción Importar Secuencias poblacionales, hay que rellanar los datos requeridos: Nombre del Paciente, Número de Historia, Carga Viral de la muestra (CV)... Estos datos de volcaran directamente a la base de datos relacional. (El nombre de la muestra se coge directamente del archivo fasta que se importa, así que es necesario comprobar que se llama igual que la muestra).
� Se selecciona el directorio y el archivo.
68
5. Si hemos importado una secuencia poblacional, la podremos visualizar en la pestaña Datos Brutos. Como se van almacenando en la base de datos una vez importadas se podrían visualizar todas las que el usuario haya guardado.
6. Si hemos importado un Run (fastq), lo podremos visualizar en la pestaña Datos Brutos. Al igual que anteriormente se van almacenando en la base de datos y una vez importados se podría elegir el run que se desea visualizar y procesar.
� Una vez que tenemos el run seleccionado en la pantalla de visualización se le da al botón de Preprocesar Datos.
69
7. Una vez que hemos preprocesado los datos nos vamos a la pestaña de Datos Preprocesados y los visualizamos. Al igual que antes los datos se van almacenando en la base de datos y una vez volcadas se podría elegir el run que se desea visualizar y continuar procesando.
� En la etapa de preprocesado se le asigna la etiqueta o MID, que identifica la muestra y se recorta o trima esa etiqueta, es decir, se eliminan los nucleótidos correspondientes. Si el proceso no identifica el MID la secuencia se queda como al principio.
� En esta etapa también se hace una identificación de los primers de
amplificación, asignando una región (1, 2, 3 o 4), dependiendo del amplicón que corresponda, además se hace la asignación de forward o reverse a las lecturas según corresponda. Si se trata de una lectura reverse se visualizará un check en la casilla ID_ForwRev, si la lectura es forward no se producirá ningún cambio.
8. Una vez preprocesados los datos se procederá a enviar las secuencias al Web
Service "Sierra" de la base de datos de Stanford que nos devolverá un Xml con los resultados.
• Desde el menú.
� Podemos enviar sólo una Secuencia Seleccionada, bien sea del Run o una secuencia poblacional.
� O podemos enviar todas las secuencias.
70
• O haciendo clic en los botones de la barra de herramientas.
9. Cuando finalice el proceso aparecerá una ventana de Datos Obtenidos Correctamente y le damos a aceptar para pasar a la pestaña de Resultados.
10. En la pestaña de Resultados, visualizamos los resultados de cada una de las secuencias analizadas según las vayamos seleccionando.
71
� En los resultados podemos visualizar la secuencia seleccionada, la proteína que mapea PR, RT o ambas y el subtipo. Las mutaciones que tiene, las drogas o fármacos con el score y el nivel de resistencia, si tiene Frame Shift, Codones Stop, Hipermutación y los Comentarios asociados a las mutaciones.
11. Visualización de Datos Totales. Esta opción lo que hace es mostrar los datos en bruto que nos devuelve el Web Service (Xml), sin filtrarlo por secuencia. De aquí es de dónde se sacan las estadísticas de los resultados totales. Podemos acceder a ellos:
• Desde el menú.
• O haciendo click en el botón de la barra de herramientas.
12. Se abre una ventana con un ComboBox para que el usuario seleccione el resultado que quiere visualizar.
72
• Mostramos algunos ejemplos de visualización de datos:
� Hay dos botones para exportar los resultados de las tablas a Excel. El de Resultado exporta la tabla de la parte superior (Tabla de Resultados) y el de Totales exporta la tabla de abajo (Totales).
13. Acceso a las tablas auxiliares de la base de datos.
73
• Desde el menú: Seleccionando Administrar Tablas.
• O haciendo clic en el botón de la barra de herramientas.
• Se abre una ventana para acceder a la tablas y poder modificarlas o alimentarlas añadiendo más datos sin necesidad de tener que ir a la base de datos SQL server.
14. Exportar tablas de las pestañas principales a Excel.
74
• Desde el menú: Seleccionando Exportar Excel.
• O haciendo clic en el botón de la barra de herramientas.
15. Ayuda (Es un proceso que tampoco está acabado y de momento sólo incluye: Acerca de... que tiene el nombre de la aplicación y la versión).
• Desde el menú.
• O haciendo clic en el botón de la barra de herramientas.
• Se abre la siguiente ventana:
75
16. Para salir de la aplicación le damos al botón Salir.
PRÓXIMAS FUNCIONES DE LA APLIACIÓN
17. La aplicación puede hacer un alineamiento.
• Este proceso todavía no está terminado. Se espera poder alinear y obtener los
resultados de las variantes para enviar al Web Service un listado de mutaciones y no todas las secuencias, ahorrando de esa manera tiempo en la ejecución de ese proceso.
• Además el departamento técnico de la base de datos de Stanford nos advirtió que su aplicación no está preparada para recibir datos de secuenciación masiva y que buscásemos la manera de colapsar los datos y no enviásemos más de mil secuencias de una vez.
76
� En la pantalla Datos Alineados, seleccionamos el Run y el MID que queremos alinear, seleccionamos también una secuencia de referencia y le damos al botón Alinear Datos.
� Se despliega la terminal para que podamos ver cómo va el proceso de alineamiento. (Este paso se hace con el alineador InDelfixer v1.1 que es una herramienta java).
18. Se importa el archivo read.sam que nos devuelve el alineador a la aplicación y a la base de datos.
• Como comentaba este proceso no está finalizado y todavía no hace la extracción completa e importación de los 11 campos obligatorios del formato .sam.
� De momento importamos la secuencia de nucleótidos y la de calidad (con las modificaciones que incluye el alineador), el inicio o posición de la primera base más a la izquierda y la cadena CIGAR.
Recommended