View
212
Download
0
Category
Preview:
Citation preview
"Análisis de la variabilidad genética y dinámica de transmisión del VIH
población adulta y perteneciente a
Estudiante: Patricia Rojas Sánchez
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE S
CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS:
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
Data Base
DIRECTOR DE LA TESIS (TUTOR DE
CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER):
FECHA: 13-01-2016
"Análisis de la variabilidad genética y dinámica de transmisión del VIH
perteneciente a diferentes regiones geográficas”
Estudiante: Patricia Rojas Sánchez
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2014-2015
CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS: Universidad de Stanford,
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA): Dr. Robert Shafer
CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER): José María Fernández
1
"Análisis de la variabilidad genética y dinámica de transmisión del VIH-1 en
diferentes regiones geográficas”
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
INSTITUTO DE SALUD CARLOS III
Universidad de Stanford,
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
José María Fernández
2
Índice Tablas y figuras: .................................................................................................................................. 3
Abstract: .............................................................................................................................................. 4
CAPÍTULO I ....................................................................................................................................... 5
Introducción ........................................................................................................................................ 5
1.1. Generalidades del VIH ......................................................................................................... 5
1.2. Diversidad Genética del VIH ............................................................................................... 8
1.3. Variantes Genéticas del VIH ................................................................................................ 9
1.4. Patogenia y TAR de VIH ................................................................................................... 10
1.5. Resistencia a fármacos antirretrovirales............................................................................. 11
1.6. Situación epidemiológica del VIH ..................................................................................... 13
1.7. Grupo receptor y bioinformática ........................................................................................ 14
2. Enunciado de las prácticas .................................................................................................... 15
3. Organización de la memoria de trabajo: ............................................................................... 16
CAPÍTULO II ................................................................................................................................... 17
“Conocer y analizar la variabilidad genética del VIH-1 en población adulta procedente de países de recursos limitados” ....................................................................................................................... 17
1. Objetivos y Justificación del trabajo: .................................................................................... 17
2. Materiales y Métodos: ........................................................................................................... 18
3. Resultados: ............................................................................................................................ 22
4. Discusión: .............................................................................................................................. 29
5. Limitaciones del estudio: ...................................................................................................... 31
CAPÍTULO III .................................................................................................................................. 32
“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1” ................................................................................................. 32
1. Objetivos y Justificación del trabajo: .................................................................................... 32
2. Materiales y Métodos: ........................................................................................................... 33
3. Resultados: ............................................................................................................................ 35
4. Discusión: .............................................................................................................................. 41
5. Limitaciones: ......................................................................................................................... 42
CAPÍTULO IV .................................................................................................................................. 43
Conclusiones finales.......................................................................................................................... 43
BIBLIOGRAFIA: ............................................................................................................................. 44
3
Tablas y figuras:
Las tablas y figuras se enumeran por orden de aparición, están compuestas por dos dígitos,
el primero hace referencia al capítulo en el que aparece y el segundo al orden de aparición
en dicho capítulo.
Capítulo I: Introducción
Figura I.1. Estructura del virión del VIH.
Figura I.2. Organización del genoma del VIH.
Figura I.3. Ciclo infectivo y replicativo del VIH.
Figura I.4. Clasificación del VIH.
Figura I.5. Prevalencia de la infección por VIH en población adulta (rango edad 15-49).
Tabla I.1. Listado de mutaciones de resistencia en población naïve y pretratada.
Capítulo II: Conocer y analizar la variabilidad genética del VIH-1 en población adulta
procedente de países de recursos limitados
Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC.
Tabla II.1. Número de secuencias disponibles en ProbeDB para cada gen (RT, PR e INT) y
región.
Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT.
Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR.
Tabla II.4. Número de secuencias flanqueantes diferentes y frecuencia máxima de la
secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT.
Capítulo III: Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión
en población adulta y naïve infectada por VIH-1. Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar
3,376 secuencias pol.
Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3,376
secuencias pol.
Figura III.3. Frecuencia de DRM en los diferentes clústeres para d ≤ 1.
Figura III.4. Distribución de DRM por pacientes d ≤ 1.
Figura III.5. Frecuencia de DRM en los diferentes clústeres d ≤ 1,5.
Figura III.6. Distribución de DRM por pacientes d ≤ 1,5.
Tabla III.1. Comparación de la organización de los virus en clúster en función de dos
programas diferentes y dos valores de distancias genéticas diferentes.
4
Abstract:
Background: In low- and middle-income countries (LMICs) standard genotypic resistance testing for HIV-1 drug resistance is not routinely available. The major obstacle in the knowledge of the virus is the extreme genetic variability of HIV-1. Additionally, drug resistant mutations in naïve patients seem to be frequent in HIV infected population. This fact may reduce the susceptibility to some antiretroviral treatment (ART).
Methods: We analysed sequences from two different data set from the Stanford HIV Drug Resistance Database. The first has sequences from six LMIC regions. A web site was created to characterize variability relevant to the detection of 6 clinically important drug resistance mutation (DRM) positions: 65, 103, 106, 181, 184 and 190 at RT and 74 and 82 at PR. The second data set is formed by sequences from HIV-1 infected-naïve patients. We developed software to determine the genetic distances between sequences and to characterize the clustering of sequences using scripts and established network analysis.
Results: 26.522 RT and 23.998 PR sequences were included in genetic variability analysis. The total number of distinct wildtype and mutant codons at each DRM position ranged from four for position 184 to 11 for position 190 at RT and one for position 74 to three for position 82 at PR. In the flanking segments, between 11 and 15 of the 24 flanking nucleotide positions were variable in that two or more nucleotides present at frequencies of ≥1%. A total of 3.376 sequences from naïve HIV-1-infected patients were analysed. We developed a program to calculate genetic distances and a total of 5.693.619 distances comparisons were performed. We could find a total of 1.785 HIV-1 sequences pair with distance ≤1%. The most common DRM found in this population were 90M, 41L, 67N, 215D, 103N and 181C.
Conclusion: Our analysis characterizes the extent and nature of the sequence variability at and surrounding eight candidate DRMs by position, subtype, region. We also developed an online program to perform customized queries regarding the variability in HIV-1. Also, analysis of genetic distance can be a predictive tool for resistance mutations, if two individuals appear to have similar genetic distance, they may belong to a particular cluster of transmission.
5
CAPÍTULO I
Introducción
1.1. Generalidades del VIH
El virus de la inmunodeficiencia humana (VIH) es el agente infeccioso causante del síndrome
de inmunodeficiencia adquirida (SIDA). Es un virus ARN clasificado dentro de la familia de los
retrovirus humanos (Retroviridae) y perteneciente al género Lentivirus (1).
Su origen se remonta a múltiples transmisiones zoonóticas del virus de la inmunodeficiencia
del simio (VIS) desde diversos primates no humanos, que tuvieron lugar en África central y
occidental a principios del siglo XX (2).
Se trata de un virus con forma esférica y diámetro de 100-120 nanómetros. El virión está
constituido por una envoltura externa o bicapa lipídica tomada de la membrana de la célula
humana infectada durante el proceso de salida de nuevas partículas virales por gemación.
En la envoltura se encuentra la glicoproteína gp120 unida a la glicoproteína transmembrana
gp41 en forma de trímeros. Bajo la envoltura se sitúa la matriz proteica, y en el interior se
encuentra la cápside icosaédrica. Dentro de ésta se localizan tanto las enzimas virales como
el material genético del virus, constituido por dos cadenas sencillas de ARN de polaridad
positiva de aproximadamente 9,8 kb, asociadas a las proteínas de la nucleocápside (3).
El genoma del VIH codifica tres genes principales, gag, pol y env, que son comunes a todos
los retrovirus. Adicionalmente, existen en el virus otros genes encargados de codificar los
componentes de la partícula vírica y de regular la expresión de los mismos.
El gen gag codifica principalmente las proteínas estructurales que conforman la matriz
(p17), la cápside (p24) y la nucleocápside (p9). El gen pol codifica a las proteínas virales
proteasa (PR), transcriptasa inversa (TI) o retrotranscriptasa (RT) e integrasa (INT) que
participan en la maduración viral, síntesis de ADN a partir del ARN del virus y en su
integración en el genoma celular, respectivamente. El gen env codifica el precursor de las
glicoproteínas de la envoltura.
Finalmente, la capa interna contiene un nucleoide, constituido por dos copias del ARN viral,
y las nucleoproteínas p6 y p7, que estabilizan dichas moléculas de ARN (4) (Figura I.1).
6
El VIH-1 posee además otros genes adicionales con capacidad reguladora (tat, vif, vpr, vpu, y
nef) (5, 6), esenciales para que se lleve a cabo el ciclo viral a través de las proteínas que
codifican. En los extremos 5’ y 3’ del genoma se encuentran secuencias largas repetidas
(LTR), que permiten la circularización e integración en el genoma celular (Figura I.2)
Figura I.1. Estructura del virión del VIH
Figura I.2. Organización del genoma del VIH
El ciclo infectivo y replicativo del VIH puede resumirse en siete etapas principales (Figura
I.3):
1) Interacción entre el virión y su célula diana (linfocitos T CD4+ principalmente) por medio
de la glicoproteína viral gp120, del receptor celular CD4, y de otras proteínas de membrana
celular que actúan como correceptores de virus, entre las que destacan CCR5 y CXCR4.
2) Fusión de la envuelta del virión con la membrana celular, con la liberación en el
citoplasma celular de la cápside viral. Internalizada la partícula viral, la cápside se
desensambla y libera el genoma viral.
3) Síntesis de ADN a partir del ARN viral (transcripción inversa), mediado por la TI. Una vez
sintetizado, el ADN proviral se acopla a una serie de factores celulares y virales, formando el
complejo de preintegración.
4) Este complejo es transportado al núcleo, donde mediante la acción de la INT viral y las
secuencias LTR se integra en el genoma celular, constituyendo la forma proviral del VIH.
Una vez integrado, el VIH puede permanecer latente, replicarse de forma controlada o
7
experimentar una replicación masiva, con el consiguiente efecto citopático sobre la célula
infectada.
5) La replicación del VIH comienza mediante la transcripción del ADN proviral utilizando la
maquinaria celular, produciendo ARN genómico viral y ARNm viral. Una vez en el
citoplasma, el ARNm proporciona la información para la síntesis de proteínas virales. La
traducción genera poliproteínas, o precursores proteicos, que deben ser procesados en
fragmentos funcionales.
6) Las proteínas virales procesadas son ensambladas y se produce el proceso de gemación a
través de la membrana celular.
7) El último paso es la maduración por la acción de la proteasa viral que procesa las
poliproteínas precursoras para formar el virión infectivo (7)
Figura I.3. Ciclo infectivo y replicativo del VIH. Adaptación de: National Institutes of Allergy and Infectious Diseases, EE.UU.
(http://www.niaid.nih.gov/topics/HIVAIDS/Understanding/Biology/pages/hivreplicationcycle.aspx).
8
1.2. Diversidad Genética del VIH
Una de las principales características del VIH es su gran heterogeneidad genética, debida a la
combinación de su alta tasa de replicación y sus elevadas tasas de mutación y
recombinación. Se estima que cada 2,5 días, alrededor de 1010 y 1012 viriones son creados y
destruidos. Además, por cada ciclo replicativo, se producen aproximadamente 0,3
sustituciones nucleotídicas y de 2-3 eventos de recombinación en cada cadena de ARN viral
(8).
Es importante señalar que las mutaciones (inserciones y delecciones), permanecen en el
genoma debido a que la TI carece de actividad correctora de errores, siendo incapaz de
eliminar los nucleótidos erróneamente incorporados durante la transcripción inversa. Todo
ello hace que las infecciones de VIH están caracterizadas por una gran diversidad genética,
tanto poblacional como intrahuésped (9, 10), dotando al VIH de una alta capacidad para
generar variabilidad genética y antigénica. Esto le permite burlar la respuesta inmune del
huésped. Además, dicha diversidad reduce significativamente la durabilidad de los
tratamientos antirretrovirales (TARs) (11).
Como consecuencia de lo expuesto anteriormente, dentro de un individuo infectado, el
virus se organiza como una población altamente heterogénea de distintas variantes, con
genomas íntimamente relacionados pero no idénticos (“cuasiespecie viral”). Se trata de un
proceso constante de generación de mutantes, caracterizado por la competición entre ellos
y por la acción de eventos de selección positiva y/o negativa en las variantes generadas.
Estos procesos tienen como resultado la dominancia del genoma o genomas virales con
mayor eficacia biológica o fitness (variantes mayoritarias), rodeado de un amplio espectro
de mutantes (variantes minoritarias) con un extenso rango de fenotipos (12).
Todas estas variantes circulantes pueden integrarse en forma de provirus en las células y así
estar representadas en el reservorio de linfocitos latentemente infectados. Si el medio en el
que replican cambiase, por ejemplo por la respuesta inmunitaria o por la exposición a
fármacos antirretrovirales (ARV), la selección positiva seleccionaría la variante de la
cuasiespecie que llevara aquellos cambios que supusieran una ventaja competitiva en ese
ambiente replicativo.
9
1.3. Variantes Genéticas del VIH
A nivel global, la variabilidad del virus se traduce en la aparición de numerosas cepas
(Figura I.4), que son el objeto de estudio de la epidemiología molecular. Basándose en su
homología genética, el VIH se clasifica en dos tipos, 1 y 2 (13, 14). El VIH-1 es el más
extendido y es el responsable de la mayor parte de los casos de infección por VIH en el
mundo. El VIH-2, identificado en 1986 (14), es más cercano filogenéticamente al VIS que al
VIH-1 y parece ser menos patogénico y menos transmisible.
Atendiendo a su alta variabilidad genética, el VIH-1 ha sido clasificado en cuatro grandes
grupos según su homología genética de secuencias génicas completas o parciales. Estos son:
grupo M (main), grupo O (outlier), grupo N (no-M, no-O) y el reciente grupo P. Los virus del
grupo M han sido subdivididos en nueve subtipos hasta el momento (A-D, F-H, J, K) así
como en recombinantes entre ellos. Los virus recombinantes o mosaico del VIH-1 llevan
fragmentos genómicos de distintos subtipos de los viriones parentales. Estas formas
recombinantes pueden ser circulantes (CRF, circulating recombinant forms) o únicas (URF,
unique recombinant forms). Las CRF son recombinantes entre subtipos con secuencia
completa y puntos de recombinación comunes y que han sido reconocidos en más de tres
individuos infectados no relacionados epidemiológicamente. Hasta el momento se han
descrito 74 CRF (15), cada uno designado por un número identificativo y por los subtipos
genéticos que están presentes en su genoma. Los URF son recombinantes intersubtipo y se
han encontrado en individuos aislados o en grupos de personas infectadas relacionadas
epidemiológicamente, pero no comparten los puntos de recombinación entre subtipos
observados en los CRF conocidos, lo que no permite agruparlos con ellos.
Figura I.4. Clasificación del VIH
Los grupos O, N y P presentan baja prevalencia y se encuentran restringidos a África
subsahariana occidental y central o a casos aislados originarios de esa región. Solo el VIH-1
grupo M se ha expandido desde África, el origen de la pandemia, al resto de continentes,
10
siendo responsables del 97% de los cerca de 35 millones de infecciones estimadas a nivel
mundial. La distribución geográfica de los subtipos del grupo M es muy heterogénea y, poco
a poco, los límites geográficos entre subtipos van desapareciendo.
La infección por variantes no-B del VIH-1 tiene implicaciones epidemiológicas, clínicas y
terapéuticas. En mayor detalle, Las variantes no-B son mayoritarias globalmente y
responsables del 89% de los 34 millones de infectados a nivel mundial. Así, en África central,
por ser el epicentro de la pandemia, coexisten un gran número de variantes del VIH-1. La
forma recombinante CRF02_AG es la más frecuente en África occidental. El subtipo C
predomina en África del sur y oriental y también en la India. El subtipo A, en los países de la
antigua Unión Soviética y en ciertas regiones de África oriental. En el sudeste asiático la
variante predominante es el recombinante CRF01_AE (16).
Esta elevada diversidad genética del VIH-1 tiene graves implicaciones, tanto en el curso de la
infección del virus como en el desarrollo de SIDA, ya que los diferentes subtipos del VIH-1
así como las formas recombinantes presentan sustituciones específicas en posiciones
relacionadas con resistencias. Esto puede acelerar la aparición de virus resistentes ante
determinados TARs (16).
1.4. Patogenia y TAR de VIH
La infección por VIH se clasifica en diversas etapas, identificadas por un conjunto de
síntomas e indicadores clínicos. La fase aguda se inicia en el momento del contagio. En un
plazo de días, el VIH infecta tanto a las células expuestas como a los ganglios linfáticos.
Durante ese tiempo, el VIH se multiplica dentro del organismo hasta alcanzar niveles muy
elevados. A continuación ocurre la fase crónica o de latencia clínica. En ella el portador es
asintomático, ya que el sistema inmune tiene una gran capacidad para regenerar las células
destruidas por el virus, aunque la infección viral termina por desgastar al sistema
inmunológico. Pueden aparecer síntomas como dolor de cabeza, fiebre, picor de piel (17).
En ausencia de TAR, la mayoría de los pacientes desarrollan SIDA en 5-10 años. A causa de
esto, aumenta la carga viral (CV) y disminuye la capacidad de recuperación del sistema
inmune. En la etapa crítica final de la infección por VIH o etapa SIDA el portador posee un
sistema inmunológico muy debilitado y una reducida capacidad citotóxica hacia el virus.
Aumentan las tasas de replicación del virus, disminuyendo la capacidad de reacción ante
otros agentes causantes de enfermedades. De esta manera, el sujeto es presa potencial de
11
numerosas infecciones oportunistas que le pueden conducir a la muerte. En ausencia de
TAR, el virus se replica constantemente e infecta los linfocitos T CD4. La mayoría de los
pacientes que han desarrollado SIDA no sobreviven más de 3 años sin recibir TAR. Sin
embargo, incluso en esta fase crítica el VIH puede ser controlado mediante TAR. La
progresión de la enfermedad puede variar debido a factores asociados al virus y a factores
genéticos e inmunológicos del hospedador, existiendo progresores rápidos y lentos (17).
Los principales parámetros a evaluar durante el seguimiento del TAR son el número y
porcentaje de linfocitos T CD4+, la CV plasmática, la detección de resistencias, la
concentración plasmática de fármacos ARV, la determinación del tropismo viral, la
evaluación del nivel de adherencia al TAR y la caracterización de la variante genética
infectante.
El acceso al TAR ha cambiado drásticamente el curso de la infección por VIH, reduciendo su
morbilidad, mortalidad e incrementado la esperanza de vida de estos pacientes infectados
por el virus (18). De acuerdo con las guías internacionales (19), el TAR de elección tanto para
niños como para población adulta infectada por VIH sería una combinación de dos
inhibidores de la transcriptasa inversa análogos de nucleósidos (ITIAN) y un tercer fármaco
que podría pertenecer a la familia de inhibidores de la transcriptasa inversa no análogos de
nucleósidos (ITINAN) o inhibidores de la proteasa (IP) potenciados con ritonavir (20).
En países de elevados recursos donde existe un fácil acceso al TAR, los pacientes infectados
por VIH presentan una buena situación clínica e inmunológica. No obstante, en los países de
recursos limitados donde existen graves problemas de acceso al TAR, con dosis inadecuadas
y apenas existe monitorización de la infección, los pacientes tienen un mayor riesgo de sufrir
fracaso virológico (21).
1.5. Resistencia a fármacos antirretrovirales
La detección de variantes virales resistentes a los fármacos puede realizarse mediante
técnicas genotípicas o fenotípicas. Los ensayos genotípicos detectan cambios específicos en
la región genética viral que codifica las proteínas diana de los fármacos ARV (TI, PR, INT y
proteínas de la envoltura). Las fenotípicas determinan la respuesta de la población viral
mayoritaria a concentraciones crecientes de los distintos fármacos ARV (22).
La interpretación apropiada de los estudios genotípicos se desarrolla mediante algoritmos
12
computarizados que requieren una actualización continuada. En Internet se puede acceder
a excelentes bases de datos públicas para la interpretación de genotipo, entre otras:
• http://engine.euresist.org/data_analysis/viral_sequence/new
• http://www.geno2pheno.org/
• http://sierra2.stanford.edu/sierra/servlet/JSierra
También se han identificado las mutaciones más relevantes asociadas a resistencia para
pacientes no tratados (naïve) (23) y para aquellos con experiencia previa al TAR (24) (Tabla
I.1).
La transmisión de variantes del VIH-1 resistentes a ARV ha sido ampliamente documentada,
y esta transmisión se ha asociado a fracaso al TAR (25, 26). Estos mutantes resistentes
pueden quedar archivados por meses o años en el ADN proviral, en el genoma de la célula
hospedadora, y emerger al ser seleccionados por el TAR (27). Por ello, es recomendable
realizar un ensayo de resistencia en todo paciente no tratado. En esta situación es preferible
un ensayo de resistencia genotípico porque, además de determinar la presencia de
mutaciones a ARV, nos permite identificar el subtipo viral. En un paciente que recibe TAR
con fracaso virológico, la no detección de mutaciones obedece mayoritariamente a falta de
adherencia al TAR. Para la determinación genotípica de resistencias a fármacos
antirretrovirales existen técnicas comerciales que amplifican mediante PCR el gen pol del
VIH-1 (ViroSeq® HIV-1 genotyping system de Abbott Molecular y TruGene® HIV‐1 genotyping
assay de Siemens Healthcare Diagnostics). También existen métodos no comerciales de
amplificación basados en PCR caseras, de menor coste.
Existen determinadas posiciones (65, 103, 106, 181, 184 y 190) asociadas a mutaciones de
resistencia en la RT, que se estiman que son 98% sensibles para detectar nivel alto o
intermedio de resistencias a ITIAN o ITINAN en pacientes con fracaso de primera línea que
habían sido tratados con ITIAN/ITINAN y 60% sensible para detectar nivel alto o intermedio
de mutaciones de resistencias asociadas a dichas familias. Además, se ha observado con
frecuencia una amplia resistencia cruzada a los IP en el VIH que presentan mutaciones en las
posiciones 30, 46, 82, 84 y 90 del gen de la PR (28 ).
13
Tabla I.1 Listado de mutaciones de resistencia en población naïve (Bennet 2009) y pretratados (IAS 2014) Cada
número corresponde con la posición del aminoácido y cada letra indica el cambio del aminoácido.
1.6. Situación epidemiológica del VIH
El VIH sigue siendo un importante problema de salud pública mundial, después de haberse
cobrado más de 34 millones de vidas hasta ahora. En 2014, 1,2 millones de personas
fallecieron a causa del VIH en todo el mundo. El África subsahariana, donde había 25,8
millones de personas infectadas por el VIH en 2014, es la región más afectada. Casi el 70%
del total mundial de nuevas infecciones por VIH se registra en esta región.
Figura I.5. Prevalencia de la infección por VIH en población adulta (15-49) Extraído de: http://www.who.int/gho/hiv/hiv_013.jpg?ua=1
PACIENTES NAÏVE (TDR MUTATION) BENNETT 2009
PACIENTES TRATADOS (IAS 2014)
PI ITIAN ITINAN MAJOR PI MINOR PI ITIAN ITINAN L23I L24I D30N V32I M46I/L I47V/A G48V/M I50V/L F53L/Y
I54V/L/M/A/T/S G73S/T/C/A
L76V V82A/T/F/S/C/M/L
N83D I84V/A/C I85V
N88D/S L90M
M41L K65R
D67N/G/E T69D/ins K70R/E L74V/I
V75M/T/A/S F77L Y115F F116Y Q151M M184V/I L210W
T215Y/F/I/S/C/D/V/E K219Q/E/N/R
L100I K101E/P K103N/S V106M/A V179F
Y181C/I/V Y188L/H/C G190A/S/E P225H M230L
D30N V32I M46I/L I47V/A G48V I50L/V I54M/L Q58E T74P L76V
V82A/T/F/S/L N83D I84V N88S L90M
L10V/I/R/F/C V11I G16E
K20R/M/I/T/V L24I
L33I/V/F E34Q
M36I/L/V K43T F53L/Y
I54V/T/A/S D60E I62V L63P
I64L/M/V H69K/R
A71V/I/T/L G73C/S/T/A
V77I V82I/ N83D I85V N88D
L89M/V/I I93L/M
M41L A62V K65R D67N
T69insertion K70R/E L74V V75I F77L Y115F F116Y Q151M M184V/I L210W
T215Y/F/rev K219Q/E
V90I A98G L100I
K101E/H/P K103N/S V106M/A/I V108I
E138A/G/K/Q/R V179D/F/T/L Y181C/I/V Y188C/L/H G190S/A H221Y P225H F227C M230L/I
14
Es importante señalar que se calcula que solo el 53% de las personas con VIH conocen su
estado serológico. En 2014, aproximadamente 150 millones de niños y adultos de 129 países
de ingresos bajos y medios se beneficiaron de la realización de pruebas de detección del VIH
y a mediados de 2015 había 15,8 millones de personas infectadas por el VIH que recibían
terapia antirretrovírica en todo el mundo (29)
No obstante, En África subsahariana, varios países han logrado disminuciones notables en la
prevalencia del VIH en jóvenes (de 15 a 24 años). En esta región, la prevalencia del VIH en
mujeres y hombres jóvenes disminuyó un 42 % de 2001 a 2012. Aun con esta tendencia
favorable, la prevalencia del VIH en las mujeres jóvenes continúa siendo más de dos veces
superior a la de los hombres jóvenes en toda África subsahariana (29).
Además, entre 2000 y 2015 las nuevas infecciones por el VIH han disminuido en un 35%, y
las muertes relacionadas con el SIDA en un 24%, lo cual significa 7,8 millones de vidas
humanas salvadas gracias a los esfuerzos internacionales que llevaron a la consecución
mundial de las metas de los Objetivos de Desarrollo del Milenio relacionadas con el VIH. La
ampliación del TAR a todas las personas con VIH y el aumento de las opciones preventivas
podrían ayudar a evitar 21 millones de muertes relacionadas con el sida y 28 millones de
nuevas infecciones para 2030 (29).
1.7. Grupo receptor y bioinformática
El departamento de Enfermedades Infecciosas de la Universidad de Stanford (California,
EEUU) incluye diversos laboratorios e investigadores en los que se une la investigación en
laboratorio con la ciencia computacional y la bioinformática. Los proyectos actuales del
grupo se enfocan en epidemiología molecular, resistencia a fármacos antirretrovirales,
inmunidad intrínseca, funciones específicas del virus y variación del virus inducida por el
hospedador. El grupo del Dr. Robert Shafer cuenta con una amplia experiencia en la
aplicación de técnicas bioinformáticas para la detección y el estudio de mutaciones de
resistencias y clúster de transmisión del VIH utilizando muestras de distintas cohortes del
mundo. Además, este grupo es el creador de la Base de Datos de Mutaciones de Resistencia
del VIH (HIV Drug Resistance Database, http://hivdb.stanford.edu/). Esta página web fue
creada en 1998 y se ha convertido desde entonces en la herramienta de referencia a nivel
mundial no solo para predecir las mutaciones de resistencia del VIH y susceptibilidad a
15
fármacos, sino para obtener una gran variedad de información relacionada con la
epidemiología del virus.
Como se ha comentado anteriormente, la rápida tasa de mutación del virus y su alta
diversidad genética convierten al VIH en un agente infeccioso difícil de combatir, pero
también hacen que sea el objeto de estudio adecuado de herramientas bioinformáticas que
permiten deducir hipótesis evolutivas a partir de esta variación genética. La aparición de
métodos informáticos y estadísticos cada vez más eficaces (particularmente los métodos
que aplican la inferencia Bayesiana) ha permitido un gran auge en el estudio de la evolución
molecular de múltiples virus, especialmente el VIH. De esta forma, se han podido desarrollar
métodos para caracterizar la variabilidad genética del virus a nivel de posición de
aminoácido, así como datar los eventos de transmisión en árboles filogenéticos basados en
la tasa de evolución del virus. Además, y debido a que las nuevas tecnologías de
secuenciación se están imponiendo a gran velocidad, el volumen de datos está
incrementado enormemente. Por ello, a nivel técnico, la bioinformática ha tenido que
avanzar muy rápidamente en estos últimos años con el fin de brindar programas que se
encargan de manipular y analizar tan elevado número de datos (30). Existen diversos
lenguajes de programación y lenguajes de consulta, que se están empleando con mayor
frecuencia para el análisis de datos, siendo SQL (Structured Query Language) uno de ellos.
Está diseñado para la recuperación y gestión de grandes conjuntos de datos generados por
los usuarios, para recuperar de forma sencilla información de interés de bases de datos, así
como hacer cambios en ellas.
2. Enunciado de las prácticas
Se trata de un proyecto multidisciplinar, ya que se aúnan diferentes disciplinas como
bioinformática, epidemiología y biología molecular.
Este proyecto está formado por dos sub-proyectos independientes:
1. Conocer y analizar la variabilidad genética del VIH-1 en población adulta procedente de
países de recursos limitados.
2. Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en
población adulta y naïve infectada por VIH-1.
Debido a que las poblaciones de estudio analizadas en cada sub-proyecto son diferentes,
en este trabajo se presentará la metodología, resultados y discusión de cada uno de estos
proyectos de forma independiente.
16
3. Organización de la memoria de trabajo:
Esta memoria está compuesta por cuatro capítulos principales:
Capítulo I: Se trata de una introducción al mundo del VIH-1 y sobre el grupo receptor en el
que se han realizado las prácticas. Esta primera parte es fundamental para conocer y
entender los aspectos bioinformáticos, epidemiológicos y moleculares que se van a tratar en
los capítulos siguientes. En este capítulo, además, se incluye una breve descripción de los
dos proyectos realizados.
Capítulo II y III: Corresponden a los sub-proyectos: “Conocer y analizar la variabilidad
genética del VIH-1 en población adulta procedente de países de recursos limitados” y
“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población
adulta y naïve infectada por VIH-1”, respectivamente. Cada uno de ellos está formado por
los apartados justificación y objetivos, materiales y métodos, resultados, discusión y
limitaciones del trabajo. Además el Anexo I (MainProgram.cgi) correspondientes al Capítulo
II y los Anexos II (DistanceCalculator) y III (Network.R) corresponden al Capítulo III.
Capítulo IV: En este capítulo se exponen las principales conclusiones extraídas de los
capítulos II y III.
17
CAPÍTULO II
“Conocer y analizar la variabilidad genética del VIH-1 en población adulta
procedente de países de recursos limitados”
1. Objetivos y Justificación del trabajo:
Determinar la diversidad genética del VIH-1 a nivel poblacional y en sus tres genes
principales (PR, RT, INT) es esencial para comprender la respuesta viral al TAR.
En los países de elevados recursos, donde existe un acceso temprano al TAR, los pacientes
infectados por VIH presentan una buena situación clínica e inmunológica. Por el contrario,
en los países de recursos limitados (LMIC, de sus siglas en inglés: low and middle income
countries), el acceso al TAR es más limitado, las dosis de fármacos son inadecuadas y
existe falta de monitorización de la infección, lo que tiene una implicación directa en el
incremento del riesgo de fracaso virológico (21). Además, cerca del 90% de la población
infectada por VIH a nivel mundial presenta infección por variantes no-B del VIH-1. El
conocimiento de las mutaciones de resistencia y su relevancia clínica de las mismas en estas
variantes no-B aún es escaso.
En este capítulo se analizan aproximadamente 100.000 secuencias de PR y RT y 10.000
secuencias de INT, con el fin de llevar a cabo una caracterización de la variación observada
en cada aminoácido en la PR, RT e INT. Este interés radica en que diferencias en la secuencia
de codones, en posiciones concretas asociadas a mutaciones de resistencia, pueden
predisponer al virus de diferentes subtipos a codificar determinadas sustituciones
aminoacídicas. Esto hace posible que la diversidad genética del VIH pueda influenciar el tipo
de mutación de resistencia después de haber sido expuesto a un fármaco determinado, ya
que esta diversidad genética puede afectar también el grado de resistencias cruzadas a
antirretrovirales de distintas familias.
Para analizar esta variabilidad genética del VIH, se ha diseñado una interfaz web que
permite mostrar los nucleótidos y su frecuencia para una posición de aminoácido
seleccionada, así como para la secuencia que flanquean dicho aminoácido. Para llevar a
18
cabo este proyecto, hemos considerado diferentes hebras (central, forward y reverse) para
cada gen (RT, PR y INT), país y subtipo.
Por tanto, consideramos que esta herramienta puede ser muy útil para personal clínico,
investigadores, laboratorios de salud pública que llevan a cabo herramientas de diagnóstico
y genotipado de resistencias; especialmente en LMIC, donde estas pruebas son muy escasas.
Además, la adecuada detección, descripción y monitorización de la transmisión de las
diferentes variantes del VIH -1 en regiones representativas es esencial para poder controlar
la epidemia del virus (31).
2. Materiales y Métodos:
Todos los datos virológicos y epidemiológicos de los pacientes infectados por VIH fueron
cedidos por el grupo Stanford HIV Drug Resistance Database Team. Es importante señalar
que, debido a cláusulas de confidencialidad no se pueden mostrar los datos completos ni las
queries diseñadas para crear las tablas que configuran las bases de datos.
2.1. Población y secuencias de estudio
Para llevar a cabo este trabajo se realizó un análisis de las secuencias del VIH (grupo M) de
los genes PR, RT e INT, cedidas por el grupo Stanford HIV Drug Resistance Database (HIVDB)
y generadas a partir de plasma mediante PCR (32). Cada secuencia está asociada a un país
de origen, año de colección y tratamiento de cada paciente en el momento de extracción de
las muestras.
Los análisis epidemiológicos se llevaron a cabo teniendo en cuenta la distribución de cada
secuencia a nivel mundial, así como la prevalencia de cada subtipo en cada región de origen.
En el caso de existir más de una secuencia por paciente, se seleccionó la más antigua, lo que
se denominará de ahora en adelante como secuencia única.
2.2. Análisis de la variabilidad genética
Para caracterizar la variabilidad genética del VIH-1 en los genes PR, RT e INT, se determinó la
proporción de cada aminoácido en cada posición de los 8 subtipos más comunes del VIH-1
grupo M (A, B, C, D, F, G, CRF01_AE y CRF02_AG) y para cada LMIC (Southern Anfrica,
19
Central Africa, West Africa, South Africa, SSEA e India).1
Para el análisis de variabilidad a nivel de secuencia, el aminoácido consenso en cada
posición fue el consenso de todo el pool de secuencias, muy semejante en todos los casos a
la secuencia consenso del VIH-1 subtipo B.
Cada posición aminoacídica podrá ser conocida para los subtipos más comunes y LMICs. De
esta manera, se muestra tanto la prevalencia del codón wild type como mutante.
Para analizar la variabilidad posicional se cuantificó la proporción de cada uno de los 4
nucleótidos posibles (A, C, G, o T) para cada una de las posiciones de ácidos nucleicos
flanqueantes de dicha posición (Central, Forward (5') y Reverse (3')).
Todas estas opciones se encontraban disponibles para cada gen (RT, PR e INT), región (West
Africa, Central Africa, East Africa, South Africa, SSEA y India) y subtipo más frecuente (A, B,
C, D, F, G, CRF01_AE y CRF02_AG).
Brevemente, el contenido de información se relaciona con el grado de certeza con la que
cualquier base puede ser predicha para ocupar una posición de nucleótido específico.
Las posiciones de nucleótidos altamente conservadas tienen el mayor contenido de
información, mientras que las posiciones más variables tendrán un menor contenido de
información.
2.3. MySQL y manejo de datos
Los datos virológicos y epidemiológicos de la población adulta infectada por VIH-1 se
encontraban almacenados en una base de datos MySQL llamada ProbeDB.
MySQL es un sistema de gestión de bases de datos relacional y multiusuario. Para llevar a
cabo esta interfaz web se ha empleado este sistema de gestión de datos, en combinación
con el uso de máquinas virtuales, desde las que se ha realizado el proyecto, y lenguaje de
programación Perl. Para simplificar, supondremos que disponemos de las credenciales
(usuario y contraseña) del administrador de la base de datos (normalmente, usuario root y
su contraseña) necesarias para conectarse con el servidor.
La base de datos ProbeDB estaba compuesta inicialmente por 9 tablas diferentes. Las tablas
denominadas _ProbeSubtypePcnt, tblSubtypes, rtblRegions, tblSequences y tblIsolate
fueron las que se emplearon para poder analizar la variabilidad genética del VIH-1 en países
1. Se establece la nomenclatura en inglés, ya que es como aparece en los scripts generados para llevar a cabo la aplicación web.
20
de recursos limitados. La información almacenada en estas tablas se describe a
continuación:
• _ProbeSubtypePcnt: En ella se encuentra almacenada la información referente a la
prevalencia, en forma de porcentaje, de cada subtipo (A, B, C, D, G, X01, X022) para
cada secuencia única.
• tblSubtypes: Información referente a cada subtipo (A, B, C, D, G, X01, X02) para cada
secuencia (no única).
• RtblRegions: Se trata de una tabla glosario en la que se relaciona cada región y país
de origen.
• TblSequences: Almacena todas las secuencias disponibles.
• TblIsolates: Incluye la información virológica y epidemiológica de cada paciente y su
secuencia.
Con el fin de almacenar la información virológica y epidemiológica en el menor número de
tablas posibles y así disminuir el tiempo de procesamiento, se generaron dos nueva tablas:
• tblorigens: en la cual se almacenaba la información referente al origen de cada
secuencia permitiendo una clasificación directa en países de recursos limitados.
• tblGeneNAs: En esta tabla se almacena las secuencias de cada paciente para cada
gen (RT, PR e INT) y el nucleótido (A, C, G, T) para cada posición.
Finalmente, se generó un script en lenguaje de programación Perl en el que únicamente se
emplearon las tablas tblorigens, tblGeneNAs y tblSubtypes, con el fin de hacer el programa
más eficiente. El script completo del programa (MainProgram.cgi) puede consultarse en el
Anexo I.
2.4. Diseño de la aplicación web
Los recursos necesarios para poder realizar esta aplicación web fueron los siguientes:
1. MySQL (https://www.mysql.com/) y los datos de VIH almacenados en una instancia.
2. El script principal (MainProgram.cgi) fue creado utilizando Perl (https://www.perl.org) y
genera contenido HTML.
3. El protocolo Common Gateway Interface (CGI) fue necesario para procesar las peticiones
2 X02 y X02 hacen referencia a subtipo CRF01_AE y CRF02_AG respectivamente.
21
del usuario y preparar las respuestas.
4. Adicionalmente, se empleó el servidor web Apache HTTP server
(http://httpd.apache.org/).
Esta aplicación web puede desglosarse en tres partes principales (Input, Processing y
Output), las cuales se describen detalladamente a continuación:
1. Input: Los usuarios deben introducir ocho variables para ejecutar el programa
a) Position: se debe introducir la posición de aminoácidos de interés. Cualquier
aminoácido codificado por los genes RT, PR o INT).
b) Probe size: Se debe introducir la longitud de la sonda del oligonucleótido deseado (es
decir, la longitud de la secuencia que va a ser interrogada). Se debe tener en cuenta que
cuando la sonda supera los límites del tamaño del gen, se generará un mensaje de error
(por ejemplo, una sonda de 13 bases para el codón posición 1 focalizado en la posición
central del gen RT generará un mensaje de error).
c) Codon location: Se debe seleccionar la ubicación del codón correspondiente a la posición
de los aminoácidos de interés relativo a las bases de oligonucleótidos (central, 3 o 5').
d) Gene: Se debe seleccionar el gen de interés, ya sea RT, PR, o INT.
e) Subtype: Si se selecciona “All Subtypes” se incluirán secuencias de cualquier subtipo en la
consulta. El programa permite hacer una consulta más precisa considerando los siete
subtipos más comunes (A, B, C, D, G, 01 CRF, CRF y 02).
f) Region: Se puede seleccionar "All LMICs", que incluye todas las secuencias pertenecientes
a países de recursos limitados o limitar la consulta a una de las seis regiones LMIC (Central
Africa, East Africa, Southern Africa, West Africa, South & Southeast Asia, e India).
g) Data display: Permite seleccionar la forma en la que se presentan los valores,
mostrándose todos los resultados o limitando éstos mostrando solamente aquellos que
tienen una frecuencia> 1%
h) Nucleotide display: Permite seleccionar si se desean visualizar todas las bases, o
únicamente aquellas que difieren de la secuencia más común "consenso" en la consulta.
2. Processing: La entrada se utiliza para consultar en la base de datos (ProbeDB) que
contiene varias tablas: una tabla para cada gen que contiene todas las secuencias LMIC, y
tablas adicionales que contienen el subtipo (cuando se conoce) y la región de origen de cada
22
secuencia.
3. Output: La página que muestra el output está dividida en 3 secciones:
a) En la primera sección se enumeran los criterios de consulta que han sido introducidos por
el usuario.
b) En la segunda sección, bajo el título "Distinct Codons", se muestra una tabla con los
codones más frecuentes en la posición de aminoácidos seleccionada que cumplan los
criterios de consulta. El aminoácido aparece al lado de cada codón, al igual que el número y
el porcentaje de las secuencias para la consulta de un determinado codón en particular.
c) La tercera sección, se encuentra englobada bajo el título “Distinct Flanking Segments". En
ella se muestra las secuencias de bases distintas que flanquean los codones anteriormente
seleccionados. Cuando sólo se muestran las bases que difieren de la secuencia consenso,
tres asteriscos indican la ubicación del codón, y la base idéntica a la de consenso se indican
mediante guiones. Cabe destacar que las inserciones, que raramente están presentes,
pueden alterar la alineación de segmentos de acompañamiento.
3. Resultados:
Nota: A pesar de que la aplicación web permite analizar la variabilidad genética del VIH‐1 en sus tres
genes principales (RT, PR e INT), debido a la limitación de espacio, los resultados que se exponen a
continuación se centran en la variabilidad genética de la RT y PR. Parte de estos resultados han sido
enviados a publicar bajo el título Genetic Variability of HIV‐1 for Drug Resistance Assay Development,
Viruses (Manuscript ID viruses‐109354).
La aplicación web está disponible en: http://hivdb.stanford.edu/cgi‐bin/Probe.cgi. Esta aplicación
permite a los usuarios recuperar la información relativa a la frecuencia de cada codón para una
posición de interés en la RT, PR e INT según región geográfica y subtipo así como la información
relativa a las secuencias que flanquean dicha posición de interés.
3.1 Epidemiología del VIH-1 a nivel mundial
Un total de 205.224 secuencias (100.493 de RT; 94.294 de PR y 10.437 de INT) se
encontraban almacenadas en la base de datos ProbeDB, de las cuales, más del 50% (121.357
secuencias) correspondían a pacientes infectados por VIH-1 originarios de países de
elevados recursos, mientras que poco más del 25% (52.874 secuencias) correspondían a
23
población originaria de países con recursos limitados. En el 19% de los casos (30.993
secuencias) la región de origen era desconocida (Tabla II.1).
Dentro de las 6 regiones LMIC de interés, el sur y sureste asiático presentaban un mayor
número de secuencias de pacientes infectados por VIH-1, tanto a nivel general (33%) como
para cada gen por separado (32.6% para RT, 31.3% para PR y 52.7% para INT), seguido de
África del Este (23,5%), África del Sur (21%), África Occidental (10%), África Central (8.7%), e
India (3.7%). Respecto a las regiones No-LMIC, se pudo observar que América del Norte era
la región con una mayor frecuencia de población infectada por VIH-1, próxima al 64%,
seguida de Europa (34,4%) y Oceanía (1,2%) (Tabla II.1).
Tabla II.1. Número de secuencias disponibles en ProbeDB para cada gen (RT, PR e INT) y
región
Origen Nº sec RT Nº sec PR Nº sec INT Total
LMIC
África Central 1. 847 2.086 665 4.598
África Occidental 2.694 2.598 6 5.298
África del Este 6.195 6.054 186 12.435
África del Sur 5.988 4.959 161 11.108
SSEA 8.649 7.501 1.334 17.484
India 1.149 800 2 1.951
Total 26.522 23.998 2.354 52.874
No-LMIC
Europa 22.209 17.850 1.756 41.815
América del Norte 36.292 36.706 5.156 78.154
Oceanía 702 713 3 1.418
Total 59.203 55.269 6.885 121.357
Leyenda: Nº, número; sec, secuencia; RT, retrotranscriptasa, PR, Proteasa, INT, Integrasa, LMIC, low and
middle income countries; SSEA, Sur y sureste asiático.
3.2 Variabilidad genética del gen RT y PR del VIH-1
Se disponía de un total de 26.522 secuencias del gen RT y 23.998 secuencias del gen PR de
pacientes infectados por VIH-1, pertenecientes las 6 regiones LMIC de interés, cuya
frecuencia resultó ser (para RT y PR respectivamente) mayor en el sur y sudeste de Asia
(32,6%; 31,3%), viéndose disminuida a un 23,5% y 25,2% en África del Este; 22,6% y 20,7%
en África del Sur ; 10,1% y 10,8% en África Occidental; 6,9% y 8,7% en África Central y 4, 3%
y 3,3% en la India . Los subtipos más comunes en esta población fueron, por orden
24
decreciente, el subtipo C (22%), CRF01_AE (20%), A (11%), CRF02_AG (9%), B (6%), D (5%), y
G (2%), siendo los CRFs las formas menos frecuentes. (Figura II.1).
Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC
Leyenda: Sequence Counts, número de secuencias de cada región de recursos limitados. El diámetro del círculo que cubre cada región indica la frecuencia de cada subtipo. Subtype, Subtipo; Others, otros; X01, CRF01_AE; X02, CRF02_AG.
3.2.1. Análisis de mutaciones de resistencia en posiciones de interés en el gen RT
Se analizaron las posiciones de los aminoácidos 65, 103, 106, 181, 184 y 190 en la RT, ya que
es sabido que dichas posiciones presentan una mayor frecuencia de mutación
(http://hivdb.stanford.edu/DR/). Todos los resultados mostrados a continuación se han
obtenido empleando un tamaño de secuencia flanqueante de 24 nt y situando la posición de
interés en la región central. En concreto, se encontró que las 6 sustituciones más frecuentes
eran K65R, K103N, V106M, Y181C, M184V, y G190A. Las mutaciones K65R y G190M son
mutaciones de resistencia asociadas a ITIAN mientras que K103N, V106M, Y181C y M184V
están asociadas a ITINAN.
En la Tabla II.2 se muestra la prevalencia de los codones wild type y codones mutantes para
cada una de estas posiciones de resistencia en las secuencias RT, con una frecuencia ≥1% y
para cualquier subtipo.
Además, en estas seis posiciones se encontraron otras mutaciones de resistencia (DRMs)
menos comunes con los siguientes cambios: K65N, K103S, V106A, Y181I/V, M184I y
G190S/E/Q. También se encontraron dos mutaciones polimórficas, K103R y V106I, que no
Sequence Counts1,218
4,000
6,000
8,989
SubtypeA
B
C
D
G
Other
X01
X02
25
confieren resistencia significativa a fármacos. El número total de codones analizados (tanto
wild type como codones con DRM) para cada posición de interés varió de 4 (posición 184) a
11 (posición 190) (Tabla II.2).
Se pudo observar que en la posición 65 de la RT, cuyo aminoácido wild type es lisina (K),
aparecía codificado por el codón AAG en el 99,1% de las secuencias de pacientes infectados
por VIH-1 con subtipo C. No obstante, en más del 95% de las secuencias correspondientes a
otros subtipos esta lisina aparecía codificada por el codón AAA.
Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT
Posición DRM Codon AA A B C D G CRF_01 CRF_02
65 wt
AAA K 96,6% 97,7% 0,8% 97,6% 98,8% 98,9% 97,6%
AAG K 3,28% 2,2% 99,1% 2,4% 1,2% 1,1% 2,3%
Mutante
AGA R 84,6% 100% 3,7% 100% 100% 85,8% 93,1%
AGG R 7,7% 0 95,5% 0 0 1,8% 3,4%
AAT N 7,7% 0 0,7% 0 0 2,8% 0
AAC N 0 0 0 0 0 9,4% 3,4%
103 wt
AAA K 95,5% 95,7% 86,1% 96,5% 92,2% 95,7% 98%
AAG K 4,2% 2,1% 10,6% 3,2% 6,8% 3,8% 1,7%
AGA R 0,2% 2,3% 9,5% 9,3% 0,9% 0,5% 0,2%
Mutante
AAC N 84,1% 7,6% 77,2% 75,5% 80,7% 77,6% 82,6%
AAT N 11,2% 17,8% 18,5% 20,4% 19,3% 19,2% 16,8%
AGC S 4,7% 4,3% 4,2% 2% 0 2,5% 0,5%
ACA T 0 0 0 2% 0 0,7% 0
106 wt
GTA V 97,5% 90% 13,3% 95,3% 96,2% 86,3% 97,4%
GTG V 1,7% 2,6% 86,7% 4% 1,2% 8,4% 1,8%
ATA I 0,8% 7,4% 0 0,6% 2,6% 5,2% 0,7%
Mutante
GCA A 85,7% 70,8% 0,4% 80% 90,9% 37,5% 75%
GCG A 0 0 2,4% 0 0 0 0
ATG M 14,2% 29,2% 97,2% 20% 1% 62,5% 25%
181 wt
TAT Y 95,7% 97,5% 96,2% 95,5% 9,9% 98,4% 8,6%
TAC Y 4,3% 2,5% 3,7% 4,5% 90,1% 1,6% 91,4%
Mutante
TGT C 81,8% 96,4% 88,3% 88,4% 7,8% 90,7% 8,5%
TGC C 7,3% 0,9% 4,3% 4,6% 71,8% 3,1% 87,3%
ATT I 5,5% 0,9% 3,9% 0 0 0,2% 0
ATC I 0 0,9% 0,2% 0 1,9% 0,2% 2,1%
GTT V 5,5% 0,9% 3,2% 6,9% 0 5,7% 0,7%
26
GTC V 0 0 0 0 0,97% 0,2% 1,4%
184 wt
ATG M 100% 100% 100% 100% 100% 100% 100%
Mutante
GTG V 90,3% 78% 90,2% 89,4% 83,3% 81,5% 87,6%
GTA V 9,7% 7,3% 6,8% 9,6% 15,4% 14,7% 10,4%
ATA I 0 14,6% 2,9% 0,9% 1,3% 3,7% 2%
190 wt
GGA G 95,2% 95,3% 95,4% 96,3% 98,6% 94,6% 92,7%
GGC G 1,5% 3,2% 1,3% 0,5% 1,4% 3,4% 1,%
GGG G 3,3% 1,5% 3,4% 3,1% 0 2% 5,7%
Mutante
GCA A 73,9% 70,7% 83,4% 89,6% 92,3% 87,9% 89%
GCG A 0 1,2% 1,7% 3,4% 2,5% 2,2% 1,4%
GCC A 0 2,4% 0,74% 0 0 1,2% 0
AGC S 2,3% 24,4% 3,9% 3,4% 2,5% 2,6% 2,7%
AGT S 0 1,2% 1,8% 0 2,5% 1,9% 2,7%
TCA S 1,1% 0 0,9% 0 0 1,4% 1,4%
GAA E 2,3% 0 4,5% 0 0 1,7% 2,7%
CAA Q 0 0 2,9% 3,4% 0 0,9% 0
Leyenda: DRM, mutaciones de resistencia asociados a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.
En la posición 106, cuyo aminoácido wild type es la valina (V), aparecía codificada por el
codón GTG en el 86,7% de las secuencias de VIH-1 subtipo C, mientras que para más del 90%
de las secuencias de subtipo no-C aparecía codificada por el codón GTA.
En la posición 181, la tirosina (Y) wild type aparecía codificada por el codón TAC en > 90% de
los subtipos G y CRF02_AG pero para otros subtipos dicho aminoácido aparecía codificado,
en más del 95% por el codón TAT. Estos cambios silenciosos dan lugar a una predisposición
natural de diferentes subtipos. En la posición 106, esta predisposición conduce a un
aumento de la prevalencia de la mutación V106M en los virus de subtipo C. Para las
posiciones de resistencia 103, 184, y 190 en la RT, los virus wild type se codifican de manera
similar en todos los subtipos y mediante un codón predominante, AAC, GTG y GCA
respectivamente (Tabla II.2), mientras que en las posiciones 65, 106 y 181 presentaron
variabilidad genética en los diferentes subtipos ya que existen diferentes codones
predominantes según el subtipo. Es importante destacar que todas estas transiciones de un
solo nucleótido entre los diferentes subtipos son mutaciones silenciosas, y por tanto, no
afectan al aminoácido.
27
3.2.2. Análisis de DRM en posiciones de interés en el gen PR
Se analizaron las posiciones 30, 46, 82, 84 y 90 en el gen de la PR, empleando un tamaño de
secuencia flanqueante de 24 nt y situando la posición de interés en la región central. Se
pudo observar que, en ningún caso, salvo en la posición 82, aparecían resistencias asociadas
a IP con una frecuencia igual o superior al 1%. No obstante, encontramos en la posición 74
un codón mutante (S). Se trata de una mutación polimórfica seleccionada débilmente por la
mayoría de los IP. En la Tabla II.3 se muestra la prevalencia de los codones wild type y
codones mutantes para cada una de las posiciones de resistencia en las secuencias PR con
una frecuencia ≥1% y para cualquier subtipo.
Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR
Posición DRM Codon AA A B C D G CRF_01 CRF_02
74 wt
ACA T 99,3% 100% 99,8% 99,5% 99% 99,5% 97,4%
ACG T 0,7% 0 0,2% 0,5% 0,9% 0,5% 2,6%
Mutante
TCA S 100% 0 100% 100% 100% 100% 100%
82 wt
GTC V 98% 98,8% 97,4% 94,2% 95,4% 99% 97,7%
GTT V 1,8% 0,8% 2,3% 4,5% 4,6% 0,9% 2,2%
GTA V 0,2% 0,3% 0,2% 1,3% 0 0,1% 0,1%
Mutante
ATC I 89,3% 88,9% 94,5% 72,2% 87,7% 99,5% 96,4%
ATT I 10,7% 11,1% 5,5% 27,8% 12,3% 0,5% 3,6%
Leyenda: DRM, mutaciones de resistencia asociadas a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.
El número total de codones analizados (tanto wild type como codones con DRM) para cada
posición de interés varió de uno (para la posición 74) a 3 (para la posición 82) (Tabla II.3).
3.2.3. Regiones flanqueantes y Variabilidad Posicional
Se analizaron las secuencias flanqueantes de las 6 posiciones de interés para la RT (65, 103,
106, 181, 184 y 190 ) y dos (74 y 82) en PR para cada uno de los subtipos de interés por
separado, así como para todos los subtipos en su conjunto en regiones LMIC. En función de
dichas posiciones asociadas a DRM, pudimos observar entre 9 y 17 secuencias flanqueantes
diferentes con una prevalencia ≥1%. En más detalle, con una frecuencia igual o superior al
28
1%, se observó que para las posiciones 65, 103, 106, 181, 184 y 190 en la RT existían 17, 12,
14, 15, 13 y 9 posiciones flanqueantes diferentes respectivamente y para las posiciones 74 y
82 en la PR existían de 7 a 14 secuencias flanqueantes diferentes considerando todos los
subtipos en su conjunto (Tabla II.4). Se observó diferencia en la variabilidad genética de las
secuencias flanqueantes asociadas a las posiciones de interés según el subtipo.
Especialmente las posiciones 65 (subtipo A), 103 (subtipos A y B), 106 (subtipo B), 181
(subtipos C, G, CRF01_AE, CRF02_AG) y 74 (subtipo B) resultaron tener una elevada
variabilidad genética (Tabla II.4).
Tabla II.4. Numero de secuencias flanqueantes diferentes y frecuencia máxima de la
secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT
Nº de Secuencias flanqueantes diferentes (Frecuencia máxima encontrada)
A B C D G CRF_01 CRF_02 Todos subtipos
Posición
en RT
65 10
(29,6%)
6 (75%)
8 (60,7%)
10 (57,4%) 10 (60,7%) 9 (57,7%)
8 (57,9%)
17 (22,8%)
103 11
(29,2%)
12
(28,8%)
10 (50,6%)
11 (53,7%)
13 (48,1%)
12 (59,8%)
10 (67,1%)
12 (19,3%)
106 7 (58,9%)
11
(21,3%)
11 (42,8%)
8 (60%)
12 (42,2%)
9 (71,4%)
9 (67,7%)
14 (36,7%)
181 15 (36,8%)
14 (58,1%)
15
(28,6 %) 17
(31,4%) 18
(13,5%)
15
(20,9%)
16
(24,4%) 15
(9,9%)
184 11 (58,4%)
8 (71,6%)
10 (53%)
10 (61,2%)
12 (31,8%)
9 (62,5%)
10 (49,8%)
13 (24,2%)
190 8 (63,1%)
6 (72,6%)
11 (47,5%)
11 (66,7%)
9 (74, 8%)
7 (76,6%)
9 (42, 6%)
9 (28,9%)
Posición
en PR
74 11 (49,2%)
15
(26,6%)
9 (45,9%)
11 (42,7%)
17 (40,8%)
8 (38,2%)
13 (33,7%)
14 (31,9%)
82 7 (77,9%)
7 (80,6%)
5 (50,4%)
6 (78,4%)
5 (84,9%)
7 (81,4%)
7 (76%)
7 (69,2%)
Leyenda: CRF01, CRF01_AE; CRF02, CRF02_AG; RT, retrotranscriptasa; PR, Proteasa.
No obstante, en la mayoría de las posiciones variables de nucleótidos (del 58% al 85%
dependiendo de DRM) la variabilidad se debía únicamente a transiciones (presencia del
nucleótido A y G o C y T), las cuáles resultan de mismatches en las bases pareadas (A:C y
G:T).
29
4. Discusión:
El principal desafío técnico de este trabajo consistió en desarrollar una aplicación web que
permitiese analizar en detalle la variabilidad genética del VIH-1 en sus 3 genes principales
(RT, PR e INT) para diferentes subtipos, con el fin de identificar qué secuencias serían más
útiles para el diseño de primers o sondas universales (33, 24) para aquellos subtipos que
tienen una mayor frecuencia en países LMIC.
A la vista de los resultados, podemos observar que los países de recursos limitados, a pesar
de ser los más castigados por el VIH, siguen siendo los países menos estudiados y en los que
se analizan un menor número de muestras, dificultando así el conocimiento sobre la
variabilidad genética de esos subtipos que circulan por dichas zonas geográficas (35). Cabe
destacar que, más allá de las zonas endémicas no-B, las infecciones por VIH-1 no-B están
incrementando fuertemente en otras zonas geográficas como Europa y América del Norte.
Además, este fenómeno no tiene solo implicaciones epidemiológicas sino también clínicas,
ya que estudios anteriores han demostrado que dentro de los subtipos no-B del VIH, los
subtipos C y D son más agresivos en términos de progresión de la enfermedad.
Los resultados expuestos muestran las diferencias de variabilidad genética del virus, en 6
posiciones de aminoácidos en el gen RT y en dos posiciones en la PR del VIH-1. Estas
posiciones son conocidas por presentar una mayor frecuencia de resistencias a fármacos
antirretrovirales (36). Se puede observar que los subtipos no-B presentan una mayor
variabilidad genética que el subtipo B del VIH-1. Este hecho, asociado a la introducción de
ART en entornos de recursos limitados y al desconocimiento relativo de la capacidad de
respuesta al ART, puede hacer que el desarrollo de mutaciones de resistencias asociadas a
subtipos no-B varíe, lo que puede ser explicado por la propia variabilidad intrínseca del virus
entre los diferentes subtipos y no sólo por la presión que ejerce el fármaco antirretroviral
(37).
El impacto de determinados subtipos, en términos de aparición de mutaciones de
resistencia asociados a ITAN, se debe principalmente a la más rápida selección de DRM en el
subtipo C del VIH-1 que en los subtipos B y A. Es sabido que el incremento de la mutación
K65R en el subtipo C es debida a la naturaleza polimórfica de este subtipo (38). Tal y como
se muestra en nuestro estudio, donde la secuencia de nucleótidos en esta posición es
diferente para el subtipo B, (codon: AAA) y subtipo C (codon: AAG) tanto para wild type
como en el codón mutante (codon: AGA, subtipo B; codon: AGG subtipo C). Esto es debido
30
principalmente a que en los codones 64, 65 y 66 de la RT existe un tramo homopolimérico
de bases de adenina que difiere entre el subtipo B y C. Ésto conduce a que la RT haga una
pausa durante la síntesis de DNA bicatenario a partir del molde intermedio de una sola
hebra de DNA, proceso que es específico del template, pero independiente de la RT (39, 40,
41). De esta forma, se produce un desalineamiento posterior en el template del subtipo C y
el cebador conduce al cambio del codón wild type (AAG) al mutante (AGG) siendo
responsable del cambio K65R (41).
Respecto a las mutaciones de resistencias asociadas a ITINAN, es sabido que la mayoría de
ellas se producen tras el uso del fármaco nevirapina (NVP)
(http://hivdb.stanford.edu/DR/NNRTIResiNote.html), que se usa frecuentemente para
prevenir la transmisión vertical del virus. Estudios previos han demostrado una mayor
frecuencia de resistencia a este fármaco en las mujeres embarazadas infectadas por subtipo
C, D A y CRF02_AG, observándose ausencia de resistencias antes del embarazo (42, 43).
Por otra parte, Flys TS (44) y Johnson JA (36) revelaron que en los pacientes infectados por
el subtipo C del VIH-1 existía una mayor prevalencia de las mutaciones asociadas a NVP
(K103N y Y181C) en comparación con los pacientes infectados con subtipo A y con virus
resistentes.
Sin duda, los pacientes infectados por subtipo C del VIH-1 son más propensos al desarrollo
de mutaciones de resistencia. De hecho, la mutación V106M se selecciona comúnmente en
los virus del subtipo C después de la exposición a NVP o efavirenz (EFV)
(http://hivdb.stanford.edu/), mientras que la sustitución V106A se selecciona raramente por
estos fármacos en otros subtipos (37). Esto es debido a que la secuencia de nucleótidos en
esta posición (106) está codificada por GTA en virus de subtipo B y por GTG en el subtipo C,
tal y como se observa en nuestros resultados. Una simple transición (G-A) en la primera
posición del codón hace posible el cambio del aminoácido V-M, confiriendo elevada
resistencia a los fármacos EFV y NVP. En contraste, en los virus subtipo B, la sustitución
V106M requiere dos sustituciones (GTA-ATG) lo que hace que esta mutación se produzca
con menor frecuencia (45, 46). Otra sustitución que se encuentra con más frecuencia en
subtipo C es la mutación G190A, que es también un polimorfismo natural del subtipo C (45).
Respecto a las mutaciones de resistencia asociadas a la PR, otros estudios han demostrado
31
que la sustitución L89V se encuentra frecuentemente en los virus CRF02_AG, mientras que
la mutación T49P (asociada a tipranavir (TPV)) aparece más frecuentemente en el subtipo C
que en el subtipo B. La sustitución V82M se encuentra principalmente asociada al subtipo G,
mientras que las sustituciones V82A/F/S aparecen más frecuentemente en otros subtipos.
Es importante destacar que los genes de la proteasa y gag coevolucionan como una unidad
funcional cuando el VIH se somete a la presión de fármacos antirretrovirales inhibidores de
la PR. Las mutaciones en gag pueden actuar como sustituciones compensatorias que
pueden aumentar las tasas y niveles de resistencia a los IP, así como la capacidad replicativa
viral (47).
5. Limitaciones del estudio:
1. Las secuencias analizadas corresponden a pacientes infectados por VIH-1 que han sido
expuestos a TAR y pacientes naïve, por lo que los virus de los pacientes que presentan o han
presentado experiencia a fármacos antirretrovirales pueden exhibir menos diversidad
genética en estas 6 posiciones de aminoácidos de interés que dichas posiciones en las
secuencias de pacientes no tratados.
2. Debido a la extensión limitada del trabajo, no se ha podido analizar la variabilidad
genética del VIH-1 en posiciones que podrían ser de gran interés en el gen de la INT.
Además, los resultados expuestos están asociados a la selección de un tamaño de las
secuencias flanqueantes concreto (24 nt) y en la región central. Sería interesante poder
analizar si estos resultados son diferentes cuando el tamaño de la secuencia flanqueante y la
región varían.
3. A pesar de que el número de secuencias analizadas es elevado, los países LMIC siguen
siendo los menos estudiados aun cuando existen un mayor número de pacientes infectados
por VIH.
4. Sería interesante ampliar el trabajo al análisis de las secuencias de otros genes (como
gag) para analizar que posiciones determinadas de gag coevolucionan con el gen pol, ya que
es probable que diferentes subtipos puedan desarrollar mutaciones gag compensatorias a
diferentes velocidades.
32
CAPÍTULO III
“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1”
1. Objetivos y Justificación del trabajo:
Los cambios evolutivos en la secuencia del ADN se deben principalmente a cambios de
sustitución de nucleótidos, delecciones e inserciones. Los cambios originados como
consecuencia de sustituciones nucleotídicas se miden en términos de número de
sustituciones por sitio considerando dos secuencias homólogas de ADN. Existen muy
diversos métodos estadísticos que permiten estimar este número de sustituciones
nucleotídicas (48). A partir de datos genéticos se pueden realizar múltiples inferencias y
análisis de estructura poblacional para entender los procesos evolutivos y demográficos
subyacentes que experimentan los individuos infectados por VIH-1 que conforman estas
poblaciones (49). El origen y la expansión geográfica del VIH es objeto de múltiples estudios
que han sido capaz de caracterizarlo de forma adecuada utilizando enfoques filogenéticos
(50). Pero en muchas ocasiones, estos métodos resultan subóptimos para describir los
clústeres de trasmisión recientes del VIH.
Para realizar este trabajo se emplearon aproximaciones filogenéticas, en términos de
clúster, para analizar los patrones generales de transmisión del VIH-1 en población naïve.
Para ello, se analizaron las distancias genéticas (d) de las secuencias disponibles,
identificando qué miembros pertenecen a un mismo clúster, considerando que las
secuencias del gen pol del VIH-1 fueran genéticamente similares (d ≤1% y d ≤1,5%), y
definiendo como clúster de transmisión el formado por grupos de individuos
potencialmente conectados entre sí.
Por lo tanto, el objetivo técnico principal de este trabajo consistió en diseñar un programa
en lenguaje de programación Perl que permitiese calcular la distancia genética de
secuencias del VIH-1 (comparaciones dos a dos).
Es importante señalar que cuando se realiza secuenciación directa por PCR, es posible que el
material genético contenga mezclas alélicas, y como consecuencia, que las secuencias
presenten nucleótidos ambiguos. En la actualidad existen múltiples programas que son
capaces de calcular la distancia genética entre dos secuencias, pero en la mayoría de ellos se
33
ignoran estos codones con mezclas alélicas.
2. Materiales y Métodos:
2.1. Población de estudio
Se analizaron las secuencias pol de pacientes infectados por VIH-1 naïve que habían sido
recopiladas y cedidas por el grupo Stanford HIV Drug Resistance Database Team.
Se analizaron un total de 3.531 secuencias pol (PR+RT) de pacientes infectados por VIH-1
(grupo M), naïve y originarios del Norte de California, durante el periodo 2003- 2014
El data set final de estas secuencias pol (tras eliminar aquellas secuencias duplicadas de los
pacientes) estaba formado por 3.376 secuencias. La mayor parte de los individuos incluidos
en este estudio presentaban más de una secuencia pol tomada a lo largo del tiempo (media
de 3,5 secuencias por paciente; rango, 1–42 secuencias por paciente). Para cada individuo,
se seleccionó la primera secuencia disponible, de esta forma, se analizó únicamente una
secuencia por paciente.
La mayoría de las secuencias estaban formadas por 99 aminoácidos de la PR y cerca de 300
aminoácidos de la RT, cubriendo en la mayor parte de los individuos esas posiciones de
interés susceptibles a mutaciones de resistencias (23).
2.2. MySQL y manejo de datos
Los datos virológicos y epidemiológicos de esta población se almacenaron en una base de
datos MySQL llamada KPNew. Para crear esta nueva base datos se poblaron 4 tablas
diferentes con la información almacenada en 4 archivos txt diferentes, de este modo,
KPNew quedó configurada como:
• tblMutations: En esta tabla se incluía la información relativa a las mutaciones de
resistencias para cada individuo. Inicialmente, esta tabla contenía 3 filas por paciente. Con
filas separadas para la información relativa a los genes PR y RT y para la RT columnas
separadas para las DRMs asociadas a las familias ITIAN e ITINAN.
• blNaiveIsolates: En esta tabla se encontraba almacenada el identificador para cada
paciente y cada secuencia PR y RT.
• tblPRSequences: Esta tabla incluía la información relativa a las secuencias de la PR para
cada paciente. Contenía el número de identificación para cada secuencia y paciente, el
primer (FirstPRAA), el último (LastPRAA) número de aminoácido de la secuencia de PR para
cada secuencia y la secuencia de nucleótidos completa para la PR.
34
• tblRTSequeneces: Esta tabla tenía estructura exacta a la tabla tblPRSequences y contenía
la misma información asociada a la RT.
Con el fin de organizar el set de datos en el menor número de tablas posibles con el fin de
facilitar las posteriores consultas, la base de datos quedó organizada de la siguiente manera:
• tblSequences: Las secuencias de nucleótidos estaban almacenadas, inicialmente, en dos
tablas (tbl PR y tblRT). Posteriormente estas secuencias fueron concatenadas y almacenadas
en una nueva tabla.
Por tanto, la tabla tblSequences contenía la información relativa a las secuencias PR+RT
concatenadas para cada paciente (incluyendo firstPRAA, lastPRAA, firstRTAA, lastRTAA).
• tblmutations: Se creó esta nueva tabla a partir de la tabla tblMutations, la información
almacenada era la misma pero en este caso se simplificó para que existiese una única fila
por paciente y facilitar las consultas.
• Sequences: Esta nueva tabla se creó a partir de tblSequences con el fin de almacenar una
única secuencia por paciente.
• tbldistances: En esta tabla se almacenó la información para las distancias genéticas para
las secuencias pareadas.
2.3. Alineamiento de secuencias
El alineamiento múltiple de estas secuencias se llevó a cabo empleando el software Muscle
(http://www.drive5.com/muscle/) para Linux y empleando como secuencia consenso HXB2.
Muscle es un programa de línea de comandos que requiere el uso del terminal, devolviendo
el alineamiento múltiple en formato Fasta. Además, para visualizar y editar este
alineamiento múltiple se utilizó el programa Jalview (http://www.jalview.org/).
2.4. Cálculo de las distancias genéticas
Dado que es probable que los codones con nucleótidos ambiguos (originados por mezclas
alélicas) sean sometidos a una más rápida evolución que los codones sin esas mezclas, se
desarrolló un programa que fuese capaz de calcular las distancias genéticas incluyendo
dichas mezclas genéticas. Para ello, se creó el programa “DistanceCalculator” (Anexo II)
utilizando lenguaje de programación Perl y lenguaje de consulta SQL.
Este programa requería como input un archivo Fasta en el que las secuencias a analizar
35
estuviesen alineadas y que presentasen un apropiado marco de lectura. De este modo, la
distancia genética se calcula dos a dos entre todos los posibles pares de secuencias.
El output consiste en un fichero txt que muestra todas las distancias genéticas de forma
pareadas.
Adicionalmente, se disponía de otro programa, implementado en C++, que calculaba las
distancias genéticas según el algoritmo tn-93 (https://github.com/spond/TN93). Este
programa tiene mayor capacidad de computación que el programa creado en Perl.
A diferencia de DistanceCalculator, este programa es capaz de determinar todas las
distancias genéticas y sacar en forma de output un fichero txt relacionado con unos valores
determinados de distancia genética.
2.5. Análisis de los clúster de transmisión
Para analizar cómo había tenido lugar la transmisión del VIH-1 en esta población (y
determinar los vecinos más cercanos) se realizó un pequeño programa en lenguaje de
programación R (Anexo III) que permitió agrupar los virus en clústeres según su diversidad
genética. Los resultados fueron visualizados posteriormente utilizando el programa
Cytoscape (51). De esta forma, se analizaron las DRM presentes en cada virus con el fin de
determinar que DRM podrían estar involucradas en un determinado clúster o fenómeno de
transmisión.
3. Resultados:
Nota: Los resultados de este apartado se muestran incompletos ya que el periodo de prácticas no fue
suficiente para terminar el trabajo y por tanto muchos de ellos son aun confidenciales como las
gráficas de clústeres o árboles filogenéticos. No obstante, el grupo receptor de las prácticas quiere
que la colaboración continúe hasta que el trabajo se finalice por completo. Por tanto, los resultados
que se muestra son preliminares y pueden estar sujetos a futuros cambios.
3.1 Análisis de la distancia genética
Se analizó la distancia genética de las 3.376 secuencias pol únicas de pacientes naïve
infectados por VIH-1 mediante el programa implementado en Perl llamado
DistanceCalculator. El programa hizo un total de 5.693.619 comparaciones de secuencias
dos a dos, siendo la distancia media igual a 0,040 (ratio 0,000-0,101) y encontrando un total
de 1.785 pares de secuencias de pacientes infectados por VIH-1 con una d ≤1%.
36
Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar 3.376 secuencias pol
Leyenda: Mean Distance, distancia genética media; LowestDistance, distancia genética más baja, HighestDistance, distancia genética más elevada; Distance Bins, rangos de distancia; Total Comparision, número de comparaciones totales, Distance, distancias genéticas; Nº of pairs, número de pares pertenecientes a cada rango de distancias.
3.2 Cálculo de distancia genética empleando el programa tn-93
Dado que el programa DistanceCalculator necesitaba mucho tiempo de computación
(próximo a 6 horas) para resolver el cálculo de distancias genéticas con un set de datos tan
amplio, se utilizó el programa llamado tn-93 implementado en C++ y que además permitía
resolver los codones con mezclas. Este programa se ejecuta desde la línea de comandos y el
tiempo de computación total es segundos, por lo que resultó ser mucho más eficaz que
DistanceCalculator. Además, al tratarse de un programa tan rápido, resulta mucho más
conveniente para determinar qué virus corresponden a un clúster considerando una
determinada distancia genética.
No obstante, los resultados derivados de ambos programas resultaron ser muy similares
para d < 1% (para los valores de d < 1,5% únicamente se empleó el programa tn-93) (Figura
III.2)
37
Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3.376 secuencias pol
Leyenda: Maximum Distance, distancia genética más elevada; Mean Distance, distancia genética media; Histogram rangos de distancia.
3.3. Análisis de clúster en función de la distancia genética
Tras analizar los dos output generados por ambos programas mediante un pequeño
programa en R (Anexo III) y su posterior análisis con el programa Cytoscape, pudimos
observar que los resultados obtenidos con los programas DistanceCalculator y tn-93 fueron
similares. Además, apenas se encontró diferencia para la distribución de los virus en clúster
cuando se emplea una d <1% y d <1.5% (Tabla III.1). Es importante señalar que el número de
pacientes naïve con mutaciones de resistencia es elevado y próximo a 12% en los tres casos.
Tabla III.1. Comparación de la organización de los virus en clúster en función de dos programas diferentes y dos valores de distancias genéticas diferentes
Leyenda: d, distancia genética; DRMs, mutaciones de resistencia; No of Nodes, Número de nodos, No of Total Clusters, Números de clústeres totales; No Clusters with DRMs, número de clúster en los que se incluyen virus con DRMs; No cluster in which all patients in cluster with DRM, número de clúster en el cual todos los virus presentan mutaciones de resistencia; No Patients with DRMs, número total de pacientes con virus que tienen mutaciones de resistencia.
Tn 93 Non Mixtures d < 1.5% d <1% d <1%
No of Nodes 1464 1066 831No of Total Clusters 373 334 267
No Clusters with DRMs 64 53 48No cluster in whitch all patients in cluster with DRM 32 30 30
No Patients with DRMs 173 (11.8%) 135(12.66%) 104 (12.5%)
38
3.3.1. Análisis de clúster cuando d < 1%
Cuando se analizaron los virus de la población naïve, asumiendo una d <1%, pudimos
observar que existían 1.066 nodos y que esta población se distribuía en 334 clústeres
diferentes. Además, en el 15.9% de los clústeres estaban presentes virus con alguna
mutación de resistencia y en el 9% de los clústeres, todos sus integrantes eran virus con
DRMs (Tabla III.1). Pudimos observar que las DRMs más frecuentes era la L90M asociada a
IPs, M41L D67N, T215D asociada a ITIAN y K103N e I181C asociada a ITINAN.
En más detalle, la Figura III.3 muestra la frecuencia de cada DRM en los diferentes clústeres,
pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (19/53)
diferentes con una frecuencia > al 60% en 9 de ellos. Por otro lado, las sustituciones D67N e
I181C aparecen en menos clústeres (2 y 4 respectivamente). No obstante, cuando aparecen,
están presentes en el 100% de sus integrantes.
Además, se pudo observar que la mutación K103N estaba presente en un mayor número de
pacientes (n =50) que la sustitución L90M (n= 23), M41L (22), T215D (n= 17) y D67N (n = 10)
(Figura III.4)
Figura III.3. Frecuencia de DRM en los diferentes clústeres
IP ITIAN ITINAN
Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.
Frec
uen
cia
39
Figura III.4. Distribución de DRM por pacientes
IP ITIAN ITINAN
Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.
3.3.2. Análisis de clúster cuando d < 1.5%
Cuando se analizaron los virus de la población naïve, asumiendo una d <1.5%, pudimos
observar que existían más nodos (1.464) que cuando la d < 1%, distribuyéndose la población
en 373 clústeres diferentes vs los 334 clústeres cuando d < 1%. No obstante, la proporción
de clústeres con DRM (17,1%) fue similar a la proporción de clústeres con DRM observada
cuando d <1% (15,9%). De la misma manera, la proporción de clústeres en los que todos sus
integrantes tienen DRM fue muy similar cuando d <1% (9%) y cuando d <1.5% (8,5%) (Tabla
III.1). Para d <1.5% las DRMs más frecuentes fueron la L90M asociada a IPs, M41L D67N,
T215DE asociada a ITIAN y K103N e I181C asociada a ITINAN (Figura III.5)
En más detalle, la Figura III.5 muestra la frecuencia de cada DRM en los diferentes clústeres,
pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (22/63)
diferentes con una frecuencia > 60% en 8 de ellos. Por otro lado, las sustituciones D67N e
I181C vuelven a ser las menos representadas entre los clústeres (3 y 4), respectivamente.
Pero nuevamente, cuando parece estar presente D67N, lo hace con una frecuencia del 100%
entre sus integrantes.
Nº
de
Pac
ien
tes
40
Figura III.5. Frecuencia de DRM en los diferentes clústeres
IP ITIAN ITINAN
Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleosido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres. Figura III.6. Distribución de DRM por pacientes
IP ITIAN ITINAN
Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres.
Frec
uen
cia
N
º d
e P
acie
nte
s
41
Para los virus con d < 1.5% se pudo observar nuevamente que la mutación K103N estaba
presente en un mayor número de pacientes (n =60) seguida de la sustitución M41L (n = 28),
I181C (n = 27), L90M (n = 24), T215D (n = 23), T215E(n = 10) y D67N (n = 10) (Figura III.6)
4. Discusión:
El VIH entre dos individuos que se encuentran unidos en un clúster de transmisión
presentan una mayor homología que esos individuos infectados por VIH en los que no se ha
demostrado relación de transmisión. No obstante, los análisis filogenéticos pueden utilizarse
para identificar si existe relación entre dos individuos infectados por el virus. Esta
aproximación ha sido empleada para identificar clústeres de infección de VIH en ensayos
clínicos (52).
A la vista de los resultados expuestos anteriormente, podemos establecer que existen
mutaciones de resistencia que se transmiten con más frecuencia en esta población naïve,
siendo estas, principalmente K103N y M41L en la RT y L90M en la PR. No obstante, a pesar
de que la mutación K103N resulta ser una de las más prevalentes, es importante señalar que
esta mutación confiere alta resistencia a los fármacos EFV y NVP (ambos ITINAN) pero sigue
siendo susceptible a etravirina (ETR) y rilpivirina (RPV) así como al resto de fármacos
pertenecientes a la familia de los IPs e ITIAN. La mutación L90M reduce la susceptibilidad a
todos los IPs, excepto TPV y Darunavir (DRV). M41L es una mutación que suele aparecer
junto con T215Y. Ambas confieren alto grado de resistencia a zidovudina (AZT) y estavudina
(d4T) y una resistencia intermedia a didanosina (ddI), abacavir (ABC) y tenofovir (TDF)
(http://hivdb.stanford.edu/).
Por tanto, es importante destacar que esta población naïve nunca ha sido expuesta a ARVs y
ya ve limitada su oferta de tratamiento futuro.
Por otro lado, a pesar de que se trate de un estudio preliminar, podemos arriesgarnos a
sugerir que la distancia genética puede ser una herramienta predictora de mutaciones de
resistencia, ya que si dos individuos parecen tener una distancia genética similar, es posible
que pertenezcan a un determinado clúster de transmisión.
42
5. Limitaciones:
1. La principal limitación del trabajo radica en que no ha sido posible terminar los análisis y
por lo tanto los resultados son poco concluyentes. De este modo, no podemos
garantizar que estos resultados sean definitivos, ya que lo ideal sería comprobar los
mismos con nuevos análisis filogenéticos. Esto hace que la discusión de resultados se
vea limitada.
2. Sería interesante hacer un análisis de transmisión similar en población pretratada con el
fin de determinar si los resultados son similares y las mutaciones de resistencia siguen
un patrón de transmisión general.
3. Futuros estudios podrían centrarse en conocer el estado inmunológico de estos
pacientes (CV, CD4, CD8), ya que varios trabajos han demostrado que estos factores
clínicos pueden modular la diversidad genética del VIH y se encuentran asociados con la
aparición de mutaciones de resistencia (53).
4. Desconocemos la ruta de transmisión del virus (no sabemos si los pacientes han sido
infectados por vía vertical u horizontal). Sería muy conveniente conocer este dato ya que
el virus no va a evolucionar de la misma forma en pacientes que han sido infectados al
nacer que en pacientes que se han infectado en la edad adulta (54).
5. Dada la importancia de este estudio, según el cuál se puede observar que población que
nunca ha sido expuesta a TAR presenta mutaciones de resistencia (lo que limita la
eficacia de futuros tratamientos), hubiese sido interesante analizar aquellos pacientes
que presentasen mutaciones de resistencia a las 3 familias principales de fármacos (IP,
ITIAN e ITINAN) y analizar la susceptibilidad que presentan a los ARV con el fin de
determinar que fármacos pueden ser utilizados en esta población.
6. Sería interesante desarrollar algún modelo matemático que permitiese predecir si un
paciente presentará virus resistentes en función del clúster en el que se encuentre.
7. Las aproximaciones filogenéticas resultar ser las más convenientes para analizar cómo
ha tenido lugar la evolución del VIH en una población de estudio. Dado que las
mutaciones de resistencia son consecuencia de un proceso evolutivo, los análisis
filogenéticos serían los más adecuados para completar este proyecto. Es por ello que el
trabajo sigue en marcha y el siguiente paso consistirá en analizar los virus de población
naïve y tratada con el fin de determinar cómo se ha producido la transmisión de
mutaciones de resistencia entre esta población.
43
CAPÍTULO IV
Conclusiones finales
1. Conocer la variabilidad genética del VIH es de vital interés para desarrollar nuevas
opciones terapéuticas, nuevas herramientas de diagnóstico y conocer desde el primer
momento qué mutaciones de resistencia presenta el virus, con el fin de poder comenzar el
tratamiento de los pacientes con los fármacos más adecuados y evitar la aparición de
resistencias cruzadas.
2. Los subtipos no-B del VIH siguen siendo los menos estudiados a nivel mundial, a pesar de
ser los más patógenos y agresivos. Estos subtipos no-B del VIH son endémicos de países de
recursos limitados, pero debido a factores como el turismo y el turismo sexual, se están
diseminando por zonas geográficas como Europa y Estados Unidos.
3. Los subtipos no-B del VIH presentan una mayor variabilidad genética que los virus con
subtipo B. Este hecho, asociado a la introducción de TAR en entornos de recursos limitados
y al desconocimiento relativo de la capacidad de respuesta al TAR, puede hacer que el
desarrollo de mutaciones de resistencias asociadas a subtipos no-B varíe, lo que puede ser
explicado por la propia variabilidad intrínseca del virus entre los diferentes subtipos.
4. Los pacientes infectados por subtipo C del VIH-1 son más propensos al desarrollo de
mutaciones de resistencia.
5. El VIH entre dos individuos que se encuentran unidos en un clúster de transmisión
presentan una mayor homología que esos individuos infectados por VIH en los que no se
ha demostrado relación de transmisión.
6. Existen mutaciones de resistencia que se transmiten con más frecuencia en esta población
naïve, principalmente K103N y M41L en la RT y L90M en la PR.
7. El análisis de distancia genética puede ser una herramienta predictora de mutaciones de
resistencia, ya que si dos individuos parecen tener una distancia genética similar, es
posible que pertenezcan a un determinado clúster de transmisión.
44
BIBLIOGRAFIA:
1. Barré-Sinoussi F, Chermann JC, Rey F, et al. Isolation of a T-lymphotropic retrovirus from a patient
at risk acquired immune deficiency syndrome (AIDS). Science 1983; 220:868-71.
2. Worobey M, Gemmel M, Teuwen DE, et al. Direct evidence of extensive diversity of HIV-1 in
Kinshasa by 1960. Nature 2008; 455:661-4.
3. King AMQ, Adams MJ, Carstens EB & Lefkowitz EJ (2012). Virus Taxonomy Ninth Report of the
International Committee on Taxonomy of Viruses. Elsevier Inc., Londres.
4. Muesing MA, Smith DH, Cabradilla CD, et al. Nucleic acid structure and expression of the human
AIDS/lymphadenopathy retrovirus. Nature 1985; 313:450-458.
5. Gallo R, Wong-Staal F, Montagnier L, et al. HIV/HTLV gene nomenclature. Nature 1988; 333:504.
6. Emerman M y Malim MH. HIV-1 regulatory/accessory genes: key to unraveling viral host and host
cell biology. Science 1998; 280:1880-4.
7. Perelson AS, Neumann AU, Markowitz M, et al. HIV-1 dynamics in vivo : virion clearance rate,
infected cell life-span and viral generation time. Science 1996; 271:1582-6.
8. Jetzt AE, Yu H, Klarmann GJ, et al. High rate of recombination throughout the human
immunodeficiency virus type 1 genome. J Virol 2000; 74:1234-40.
9. Faria NR, Suchard MA, Abecasis A, et al. Phylodynamics of the HIV-1 CRF02_AG clade in Cameroon.
Infect Genet Evol 2012, 12: 453-460.
10. Maldarelli F, Kearney M, Palmer S, et al. HIV populations are large and accumulate high genetic
diversity in a nonlinear fashion. J Virol 2013; 87 :10313-23.
11. Rouet F, Rouzioux C. HIV-1 viral load testing cost in developing countries: what's new? Expert Rev
Mol Diagn 2007; 7:703-7. Review. No abstract available.
12. Briones C and Domingo E. Minority report: hidden memory genomes in HIV-1 quasispecies and
possible clinical implications. AIDS Rev 2008; 10:93-109.
13. Robertson DL, Anderson JP, Bradac JA, et al. HIV-1 nomenclature proposal. Science 2000; 288:55-6.
14. Clavel F, Guétard D, Brun-Vézinet F, et al. Isolation of a new human retrovirus from West African
patients with AIDS. Science 1986; 233:343-6.
15. Cheong HT, Chow WZ, Takebe Y, et al. Genetic Characterization of a Novel HIV-1 Circulating
Recombinant Form (CRF74_01B) Identified among Intravenous Drug Users in Malaysia:
Recombination History and Phylogenetic Linkage with Previously Defined Recombinant Lineages.
PLoS One 2015; 10:e0133883.
16. Yebra G, de Mulder M, Martín L et al. Most HIV type 1 non-B infections in the Spanish cohort of
antiretroviral treatment-naïve HIV-infected patients (CoRIS) are due to recombinant viruses. J Clin
Microbiol 2012 ;50 :407-13.
45
17. WHO|HIV/AIDS, November 2014; disponible en
http://www.who.int/mediacentre/factsheets/fs360/en/. Último acceso, 22/012/2015.
18. Rojas Sánchez P, de Mulder M, Fernandez-Cooke E , et al. Clinical and virologic follow-up in
perinatally HIV-1-infected children and adolescents in Madrid with triple-class antiretroviral drug-
resistant viruses. Clin Microbiol Infect 2015; 21:605.e1-9
19. Orientaciones clínicas aplicables a lo largo de todo el proceso asistencial: tratamiento
antirretroviral; disponible en:
http://www.who.int/hiv/pub/guidelines/arv2013/art/arv2013_chapter07_es.pdf
20. Rojas Sánchez P, Prieto L, de Ory S, et al. Impact of exposure to lopinavir-ritonavir in HIV-1 infected
children and adolescents in Madrid, Spain during 2000-2014. Sent to JAMA.
21. Rojas Sánchez P, Holguín. A Drug resistance in the HIV-1-infected paediatric population worldwide:
a systematic review. J Antimicrob Chemother 2014;69:2032-42.
22. Yebra G, de Mulder M, Martín L, et al. Most HIV type 1 non-B infections in the Spanis cohort of
antiretroviral treatment-naïve HIV-infected patients (CoRIS) are due to recombinant viruses. J Clin
Microbiol 2012; 50:407-13.
23. Bennett DE, Camacho RJ, Otelea D, et al. Drug resistance mutations for surveillance of transmitted
HIV-1 drug-resistance: 2009 update. PLoS One 2009; 4:e4724.
24. Johnson VA, Calvez V, Gunthard HF, et al. 2011 update of the drug resistance mutations in HIV-1.
Top Antivir Med 2011; 19:156-64.
25. Kuritzkes DR, Lalama CM, Ribaudo HJ, et al. Preexisting resistance to nonnucleoside
reverse-transcriptase inhibitors predicts virologic failure of an efavirenz-based regimen in
treatment-naïve HIV-1-infected subjects. J Infect Dis 2008; 197:867-70.
26. Little SJ, Holte S, Routy JP, et al. Antiretroviral-drug resistance among patients recently infected
with HIV. N Engl J Med 2002; 347:385-94.
27. Persaud D, Palumbo P, Ziemniak C, et al. Early archiving and predominance of nonnucleoside
reverse transcriptase inhibitor-resistant HIV-1 among recently infected infants born in the United
States. J Infect Dis 2007; 195:1402-10.
28. Kleyn TJ, Liedtke MD, Harrison DL, et al. Incidence of transmitted antiretroviral drug resistance in
treatment-naïve HIV-1-infected persons in a large South Central United States clinic. Ann
Pharmacother 2014 ;48:470-5.
29. Sida en cifras 2015; disponible en:
http://www.unaids.org/sites/default/files/media_asset/AIDS_by_the_numbers_2015_es.pdf
30. Otero P, Hersh W, Jai Ganesh AU. Big Data: Are Biomedical and Health Informatics Training
Programs Ready? Contribution of the IMIA Working Group for Health and Medical Informatics
Education. Yearb Med Inform 2014; 9:177-81.
46
31. de Mulder M, Yebra G, Martín L, et al. Drug resistance prevalence and HIV-1 variant
characterization in the naïve and pretreated HIV-1-infected paediatric population in Madrid, Spain.
J Antimicrob Chemother 201 ;66 :2362-71.
32. Rhee SY, Gonzales MJ, Kantor R et al. Human immunodeficiency virus reverse transcriptase and
protease sequence database. Nucleic acids research 2003, 31:298-303.
33. Robert W. Shafer, Soo-Yon Rhee, et al. HIV-1 protease and reverse transcriptase mutations for
drug resistance surveillance AIDS 2007; 21:215–223
34. Orum H, Wengel J. Locked nucleic acids: a promising molecular family for gene-function analysis
and antisense drug development. Current opinion in molecular therapeutics 2001; 3:239-243.
35. Kumar TS, Myznikova A, Samokhina E, et al. Rapid genotyping using pyrene-perylene locked nucleic
acid complexes. Artificial DNA, PNA & XNA 2013; 4:58-68.
36. Johnson JA, Li JF, Morris L, et al. Emergence of drug-resistant HIV-1 after intrapartum
administration of single-dose nevirapine is substantially underestimated. J Infect Dis 2005; 192:16-
23.
37. Santoro MM, Alteri C, Ronga L, et al. Comparative analysis of drug resistance among B and the
most prevalent non-B HIV type 1 subtypes (C, F, and CRF02_AG) in Italy. AIDS Res Hum
Retroviruses 2012;28:1285-93.
38. Domingo E, Holland JJ. RNA virus mutations and fitness for survival. Annu Rev
Microbiol 1997;51:151-78.
39. Lessells RJ, Katzenstein DK, de Oliveira T. Are subtype differences important in HIV drug resistance?
Curr Opin Virol 2012 ;2:636-43.
40. Wainberg MA, Brenner BG. The Impact of HIV genetic polymorphism and subtype Differences on
the occurrence of resistance to antiretroviral drugs. Mol Biol Int 2012;2012:256982.
41. Coutsinos D, Invernizzi CF, Xu H, et al . Factors affecting template usage in the development of
K65R resistance in subtype C variants of HIV type-1. Antivir Chem Chemother 2010;20:117-31.
42. Martínez-Cajas JL, Pant-Pai N, Klein MB, et al. Role of genetic diversity amongst HIV-1 non-B
subtypes in drug resistance: a systematic review of virologic and biochemical evidence. AIDS
Rev 2008;10:212-23.
43. Poonpiriya V, Sungkanuparph S, Leechanachai P, et al. A study of seven rule-based algorithms for
the interpretation of HIV-1 genotypic resistance data in Thailand. J Virol Methods 2008;151:79-86.
44. Flys TS, Chen S, Jones DC, et al Quantitative analysis of HIV-1 variants with the K103N resistance
mutation after single-dose nevirapine in women with HIV-1 subtypes A, C, and D. J Acquir Immune
Defic Syndr 2006;42:610-3.
45. Grossman Z, Istomin V, Averbuch D, et al. Genetic variation at NNRTI resistance-associated
positions in patients infected with HIV-1 subtype C. AIDS 2004;909-15.
47
46. Brenner B, Turner D, Oliveira M, et al; A V106M mutation in HIV-1 clade C viruses exposed to
efavirenz confers cross-resistance to non-nucleoside reverse transcriptase inhibitors. AIDS 2003
;17:F1-5.
47. Lambert-Niclot S, Flandre P, Malet I, et al. Impact of gag mutations on selection of darunavir
resistance mutations in HIV-1 protease. J Antimicrob Chemother. 2008 Nov;62 :905-8
48. Tajima F. Simple methods for testing the molecular evolutionary clock hypothesis. Genetics 1993
;135:599-607.
49. Greenbaum BD, Cocco S, Levine AJ, et al. Quantitative theory of entropic forces acting on
constrained nucleotide sequences applied to viruses. Proc Natl Acad Sci U S A 2014 ;111:5054-9.
50. Tebit DM, Arts EJ. Tracking a century of global expansion and evolution of HIV to drive
understanding and to combat disease. Lancet Infect Dis 2011; 11:45.
51. Shannon P, Markiel A, Ozier O, et al.Cytoscape: a software environment for integrated models of
biomolecular interaction networks Genome Research 2003; 13:2498-504 .
52. Eshleman SH, Hudelson SE, Redd AD, et al. Analysis of genetic linkage of HIV from couples enrolled
in the HIV Prevention Trials Network 052 trial. J Infect Dis 2011; 15;204:1918-26.
53. Pagán I, Rojas Sánchez P, Holguín A. Antiretroviral treatment, age and CD4 affect HIV-1B
evolutionary dynamics in children. Sent to Plos Pathogens.
54. Zhuang J, Jetzt AE, Sun G, et al. Human immunodeficiency virus type 1 recombination: rate, fidelity
and putative hot spots. J Virol 2002; 76:11273-82.
Recommended