View
8
Download
0
Category
Preview:
Citation preview
Facultad de Química-Farmacia
Departamento de Licenciatura en Farmacia
Nuevos Índices Topo-químicos para codificar la
estructura molecular
Autora: Elízabeth Hurtado Rodríguez
Tutores: Lic. Oscar Martínez Santiago
Dr. Yovani Marrero Ponce
Curso 2013 – 2014
PENSAMIENTO
“Las verdades que revela la ciencia superan siempre a los sueños que destruye.”
Ernest Renan
DEDICATORIA
En la vida de cualquier ser humano existen personas sin las
cuales, ese tránsito extasiado y efímero por el mundo no tiene
sentido. Es por ello que quiero dedicar esta tesis a:
Mis Padres. Mi madre Anabel Rodríguez Pérez.
Gracias por existir y ser fuente de inspiración para todo lo que hago en la vida. Gracias por los sacrificios y desvelos que has tenido para no preocuparme y facilitarme la vida. Espero nunca defraudarte y que siempre estés orgullosa de mi. Gracias por todo…y por haberme formado como mujer.
Mi novio.
Por su dedicada entrega, amor y apoyo en los momentos más difíciles; sin
él hubiera sido imposible la realización de este trabajo y mi trayectoria por
la universidad.
Mis abuelos.
Que hicieron de la niña una joven de bien.
Mis tíos.
Por su apoyo y consejos incondicionales.
Mis primos.
Mi hermana Arianna.
Por todo el amor y cariño, por todo el apoyo que me has brindado. Saber que puedo contar contigo significa mucho para mí.
Mi tutor Oscar.
Por otorgarme su amistad y conocimientos, y orientarme en el camino de hacer aportes a la ciencia.
Mis amigos, y todos aquellos que aportaron un granito de arena en formar en mí una profesional preparada para el futuro….
MUCHAS GRACIAS.
Agradecimientos
La gratitud es el más legítimo pago al esfuerzo ajeno, es reconocer que todo lo que somos, es la suma del sudor de los demás. Que un hombre solo no vale nada, y que la dependencia humana, además de necesaria, es hermosa.
José Martí. Agradezco a: Mis profesores.
Por el ejemplo y la dedicación con que depositaron en mí los más actuales y refinados conocimientos de la carrera y otras ciencias vitales para desempeñarme como una buena profesional. Mis compañeros de aula.
Por acompañarme en los buenos y malos momentos de mi vida universitaria. Por servir de sostén y contraparte a mis ideas, como yo lo he sido con ellos.
RESUMEN
Resumen
En el presente trabajo se definió una nueva familia de Índices de Derivada del Grafo
(GDI) utilizando un novedoso procedimiento matemático. Este conjunto de índices
topo-químicos fueron definidos con el fin de describir la estructura química y se basan
en representaciones matriciales de la estructura molecular y posteriormente el cálculo de
las correspondientes derivadas del grafo para derivada de orden superior y derivada
mixta. Estos nuevos Índices Topológicos (ITs) fueron validados realizando un estudio
QSAR con la base de datos de Esteroides de Cramer, donde además se determinaron los
índices atómicos (LOVIs) para agrupaciones de dupla, terna y cuaterna de átomos. La
modelación del logK para estas 31 moléculas mostró un buen desempeño obteniéndose
resultados satisfactorios y estadísticamente superiores a los mostrados en la literatura.
Se realizaron además cálculos para agrupaciones de Duplas, Ternas, y Cuaternas de
átomos basados en representaciones hipermatriciales de todas las moléculas incluidas en
las ocho bases de datos reportadas por Sutherland como adecuadas para validar nuevos
Descriptores Moleculares. Los cálculos fueron realizados utilizando el software
TOMOCOM-CARDD 1.0 en su módulo DIVATI. En este trabajo se realizó además la
modelación de varias actividades biológicas de las bases de datos antes mencionadas y
se utilizó el software MobyDigs para la determinación de los modelos de regresión
lineal y validación de los mismos. Los resultados se comparan satisfactoriamente con
los resultados reportados en la literatura y mostraron que los nuevos índices de Derivada
del Grafo constituyen una poderosa herramienta para el diseño molecular.
ABSTRACT
Abstract
In the current work was defined a new family of Graph Derivative Indices (GDI)
using a novel mathematical procedure. This set of topo-chemical indices was defined
with the purpose of describing the chemical structure and they are based on the matrix
representation of the molecular structure and the further calculation of the
corresponding ones graph derivatives, for superior order derivative and mixed
derivative. This new Topological Indices (ITs) were validated carrying out a QSAR
study with the Cramer´s Steroids database, where the atomic indices (LOVIs) were also
determined for Duplex, Triple and Quadrupleatoms groupings. The modeling of logK
for these 31 molecules showed a good acting, obtaining satisfactory results and
statistically superiors to those shown in the literature.
In this research were also carried out calculations for Duplex, Triple and
Quadrupleatoms groupings, based on hypermatrix representations of all the molecules
included in eight datasets, reported for Sutherland as appropriate to validate new
Molecular Descriptors. The calculations were carried out using the TOMOCOM-
CARDD 1.0 software in their DIVATI module. In this work was also carried out the
modeling of several biological activities of the datasets before mentioned and the
MobyDigs software was used for the determination of the linear regression models and
validation of the same ones. The results are compared satisfactorily with those reported
in the literature and showed that the new Graph Derivative Indices constitute a powerful
tool for molecular design.
GLOSARIO
GLOSARIO
µk k-ésimo momento espectral 2D Bidimensional 3D Tridimensional ANOVA ANalysis Of VAriance between groups. Análisis de Varianza AV Análisis de Variabilidad CoMFA Comparative Molecular field Analysis DIVATI Derivative Type Índices. DM Descriptor Molecular F Razón de Fisher experimental GA Genetic Algorithm. Algoritmo Genético GDIs Graph Derivative Índices. Índices de Derivada del Grafo IC50 Concentración Inhibitoria 50 pKi Constante de Inhibición pK Log (1/pK) Constante de Afinidad IMMAN
Information Theory based CheMoMetric Analysis. Análisis de Informática Química basado en la Teoría de información
ITs Índices Topológicos LGO Procedimiento de validación interna cruzada ‘leave-group-out’ LNO Procedimiento de validación interna cruzada ‘leave-n-out’ LOO Procedimiento de validación interna cruzada ‘leave-one-out’ NEM Nueva Entidad Molecular q2 Coeficiente de correlación al cuadrado del procedimiento de validación
cruzada LOO q2
boot Varianza de la validación cruzada “bootstrapping” q2
ext Coeficiente de correlación al cuadrado del procedimiento de validación externa qk(x) k-ésimo Índice cuadrático total de la matriz de adyacencia entre vértices de un
pseudografo molecular QSAR Quantitative Structure Activity Relationships QSPR Quantitative Structure Property Relationships R Coeficiente de correlación R2 Coeficiente de determinación o coeficiente de correlación al cuadrado RLM Regresión Linear Múltiple s Desviación estándar scv Desviación estándar del procedimiento de validación cruzada LOO SE Serie de entrenamiento SP Serie de predicción TOMOCOMD TOpological MOlecular COMputer Design VC Validación cruzada
ÍNDICE
ÍNDICE
1 INTRODUCCIÓN. ..............................................................................................................................3
2 MARCO TEÓRICO. ...........................................................................................................................9
2.1 ELEMENTOS DE TEORÍA DE GRAFOS. .................................................................................................9
2.1.1 Grafos ponderados y su representación matricial..................................................................9
2.1.2 Diferenciación de Grafos y Mografos. ..................................................................................12 2.1.3 Derivadas de Orden Superior. ...............................................................................................15
2.1.4 Derivadas Mixtas...................................................................................................................15 2.1.5 Derivadas Sobre n-elementos. ...............................................................................................15
2.2 DEFINICIÓN DE SUCESOS. .................................................................................................................16
2.2.1 Caminos terminales. ..............................................................................................................16 2.2.2 Incidencia vértice camino. .....................................................................................................16
2.2.3 Camino de longitud K. ...........................................................................................................17
2.2.4 Quantum. ...............................................................................................................................17 2.2.5 Subgrafos de Sach..................................................................................................................17
2.2.6 Huellas...................................................................................................................................17
2.2.7 Huellas MACCS....................................................................................................................18 2.2.8 Huellas de E-state..................................................................................................................18
2.2.9 Huellas de subestructura. ......................................................................................................18
2.2.10 Refractividad atómica e hidrofobicidad............................................................................18
2.2.11 Multiplicidad.....................................................................................................................18
2.3 DEFINICIÓN DE LOS GDI PARA PARES (DUPLA), TRÍOS (TERNA), Y CUARTETOS (CUATERNA), DE
ÁTOMOS.....................................................................................................................................................18
2.3.1 Derivada para pares de átomos.............................................................................................18
2.3.2 Extensión de los GDI a relaciones atómicas n-dimensionales. .............................................26
2.4 HIPERMATRIZ DE FRECUENCIA DE RELACIONES ...............................................................................27
2.5 ÍNDICES DE DERIVADA DEL GRAFO BASADO EN RELACIONES DE N-ÁTOMOS...................................30
2.6 QUÍMICA GRAFO-TEÓRICA Y TOPOLOGÍA MOLECULAR. ...................................................................33
2.6.1 Introducción a la Química Grafo-Teórica y a la Topología Molecular. ...............................33
2.6.2 Representación topológica de moléculas...............................................................................33
2.6.3 Invariante grafo-teórica. .......................................................................................................34
2.6.4 Índices bidimensionales (2D) basados en la topología molecular ........................................34
2.6.5 Índices topológicos de primera generación...........................................................................35
2.6.6 Índices topológicos de segunda generación. .........................................................................36
2.6.7 Índices topológicos de tercera generación. ...........................................................................39
2.7 PROPIEDADES QUE DEBE POSEER UN NUEVO ÍNDICE TOPOLÓGICO....................................................40
2.8 MÉTODOS QUIMIOMÉTRICOS. ..........................................................................................................42 2.8.1 Quimiometría en la Informática Química..............................................................................42
2.8.2 Regresión lineal múltiple (RLM) ...........................................................................................42
2.8.3 Principio de la parsimonia para seleccionar el número óptimo de variables. ......................42 2.8.4 Análisis de la varianza...........................................................................................................43
2.9 VALIDACIÓN INTERNA Y EXTERNA DE MODELOS.............................................................................44
2.9.1 Validación Interna. ................................................................................................................44 2.9.2 Validación externa.................................................................................................................45
2.10 OUTLIERS. TÉCNICAS PARA LA SELECCIÓN DE LOS MISMOS. .......................................................45
2.11 ALGORITMO GENÉTICO COMO MÉTODO DE SELECCIÓN DE PARÁMETROS. ...................................45 2.12 ANÁLISIS DE VARIABILIDAD (AV). .............................................................................................47
3 MATERIALES Y MÉTODOS..........................................................................................................48
3.1 BASES DE DATOS EMPLEADAS. .........................................................................................................48
3.2 HERRAMIENTAS COMPUTACIONALES. ..............................................................................................50
3.2.1 Programas Informáticos desarrollados en el CAMD-BIR.....................................................50
3.3 IMMAN SOFTWARE. ANÁLISIS DE VARIABILIDAD (AV).................................................................51
3.4 MOBYDIGS SOFTWARE. REGRESIÓN LINEAL MÚLTIPLE (RLM). .....................................................52
4 ANÁLISIS Y DISCUSIÓN DE LOS RESULTADOS. ...................................................................54
4.1 NUEVOS ÍNDICES BASADOS EN CONCEPTOS DE DERIVADA DISCRETA DE UN GRAFO DE ORDEN
SUPERIOR Y DERIVADA MIXTA. TEORÍA Y APLICACIONES. .......................................................................54
4.1.1 Índices de Derivada de Orden Superior. Definición. ............................................................54 4.2 ÍNDICES DE DERIVADA MIXTA DEL GRAFO. DEFINICIÓN. ................................................................59
4.3 ESTUDIO QSAR-COMPARATIVO DE LOS GDI BASADOS EN CONCEPTOS DE DERIVADA DE ORDEN
SUPERIOR Y DERIVADA MIXTA. ................................................................................................................60 4.3.1 Estudio QSAR de la base de datos de esteroides. ..................................................................60
4.4 ESTUDIO QSAR-COMPARATIVO PARA VALIDAR EL DESEMPEÑO DE LAS FAMILIAS DE GDIS. ..........68
4.5 ANÁLISIS DEL DESEMPEÑO DE LAS FAMILIAS DE LOS GDIS BASADAS EN ENFOQUES DE
REPRESENTACIÓN N-DIMENSIONAL DE ESTRUCTURAS QUÍMICAS. ..............................................................76
ÍNDICE
4.6 UBICACIÓN DE LOS GDIS EN EL RANKING DE LOS MEJORES RESULTADOS REPORTADOS PARA ESTAS
BASES DE DATOS . ......................................................................................................................................79
5 CONCLUSIONES............................................................................................................................. .80
6 RECOMENDACIONES....................................................................................................................81
7 BIBLIOGRAFÍA............................................................................................................................. ...82
8 ANEXOS............................................................................................................................. ...................89
INTRODUCCIÓN
“El secreto de la creatividad está en dormir bien y abrir la mente a las posibilidades infinitas. ¿Qué
es un hombre sin sueños?”
Albert Einstein
INTRODUCCIÓN
3
1 INTRODUCCIÓN.
El diseño/descubrimiento de fármacos asistido por computadoras ofrece una
alternativa al mundo real de síntesis y evaluación (1). Este procedimiento engloba todas
las técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y optimización
de compuestos con propiedades deseadas (2) y ha jugado un rol fundamental en el
desarrollo de un número de fármacos que están ahora en el mercado (3). Este tipo de
estudio se basa en el uso de un mundo “virtual” de hipótesis, generadas por computadoras
y probadas en la práctica, estos procedimientos ‘in sílico’ evitan los procesos actuales de
síntesis y bioensayos.
Los elevadísimos costos (más de 800 millones de dólares)(4) que presentan los
métodos tradicionales de ‘prueba y error’ para la obtención de Nuevas Entidades
Moleculares (NEM) y su baja efectividad han dirigido la atención de los investigadores
hacia soluciones mucho más asequibles, rápidas, económicas y efectivas. Muchas de
estas soluciones hacen uso de Invariantes Matemáticas, las cuales cuantifican
información química contenida en la estructura molecular y son de gran aplicación actual
en diversos estudios de:1) similitud/disimilitud molecular, 2) cribado virtual 3) minería
de datos y 4) relación estructura-actividad/propiedad/toxicidad (QSAR/QSPR/QSTR).
Estas invariantes son aparentemente ventajosas respecto a parámetros químico-físicos
que comúnmente se utilizan para describir y entender efectos hidrófobos, estéricos y/o
electrónicos de sustituyentes en las moléculas (como la constante sigma de Hammett) y son
denominados Descriptores Moleculares (DMs).
Los Descriptores Moleculares son el resultado final de un procedimiento lógico y
matemático en el cual se transforma la información química codificada en una
representación simbólica de la molécula en un número de utilidad (5).
La naturaleza de los DMs depende de cuál haya sido el proceder utilizado para la
definición de los mismos. En ese sentido se pude tener en cuenta la fórmula química (0D),
los fragmentos químicos que contiene la estructura química (1D), rasgos topológicos (2D),
geométricos (3D), electrónicos de las moléculas, etc.(6-8).
Los DMs que cuantifican información contenida en la representación estructural de las
moléculas son denominados Índices Topológicos (ITs) y estos a su vez se pueden
distinguir en topo-estructurales (recogen solo información de adyacencia y/o distancia) y
INTRODUCCIÓN
4
topo-químicos (incluyen también características químico-físicas de átomos y/o fragmentos
presentes) (9).
Otro grupo de descriptores, llamados químico-cuánticos describen rasgos electrónicos de
las moléculas basados en el uso de la función de onda molecular. Los descriptores
geométricos tienen información de los rasgos estructurales 3D de las moléculas en una vía
explícita (10), tales como distancia y ángulos de enlaces o en una vía implícita, en forma de
descriptores topográficos (11).
Es evidente que los DMs jugarán un rol cada vez mayor en el desarrollo científico
futuro, de hecho, la disponibilidad de gran número de fuentes diversas de descriptores
teóricos de información química será útil para comprender mejor las relaciones entre la
estructura molecular y las evidencias experimentales. Todo esto es posible gracias al
aprovechamiento de los métodos poderosos de cómputo, nuevos algoritmos
computacionales y computadoras más rápidas. Sin embargo, aún son herramientas
fundamentales el razonamiento deductivo y de analogía, las hipótesis y teorías arriesgadas,
la determinación y la interpretación (9).
Específicamente, los ITs han comenzado a ocupar un lugar importante dentro del
conjunto de descriptores moleculares utilizados en diversos estudios donde se aplican
métodos de Química-Matemática, siendo probablemente el diseño/descubrimiento de
nuevos compuestos bioactivos, una de las más activas áreas de investigación donde se
aplican estos descriptores a problemas biológicos.
En la Universidad Central "Marta Abreu" de las Villas existen grupos de investigación
que han desempeñado un papel relevante en ese sentido, los cuales dirigen sus
investigaciones al desarrollo de nuevos principios activos para la industria farmacéutica en
las ramas de la medicina veterinaria, humana y la sanidad vegetal.
Perteneciente a la Facultad de Química y Farmacia de la propia universidad, el Grupo
de Descubrimiento Molecular Asistido por Computadora e Investigaciones Bioinformáticas
(CAMD-BIR Unit, por sus siglas en inglés) presenta resultados relevantes en este campo.
Este grupo ha orientado sus investigaciones hacia la utilización de diferentes métodos para
los estudios QSAR, priorizando el desarrollo y aplicación de nuevos descriptores grafo-
teóricos para el diseño molecular de compuestos orgánicos potencialmente bioactivos.
En el CAMD-Bir existe una tradición en la utilización de ITs grafo-teóricos marcada por
la definición de los índices cuadráticos, lineales y bilineales moleculares por el Dr. Yovani
INTRODUCCIÓN
5
Marrero Ponce y col, estos ITs han sido aplicados con éxito a diversos estudios de relación
estructura-actividad/propiedad (12-15).
Recientemente han sido definidos en este grupo nuevas familias de índices topo-
químicos basados en el uso de la Derivada Discreta de un grafo, conocidos como Índices
de Derivada del Grafo (GDI, Acrónimo de las siglas en inglés de Graph Derivative
Indices) (16, 17). Hasta el momento han sido definido más de 8000 DMs, (9) siendo estos
últimos años los de mayor aporte en este sentido. Sin embargo, la comunidad científica
mantiene un creciente interés en la creación de nuevos DMs que recojan mayor y diferente
contenido de información que lo codificado por los descriptores existentes. Los objetivos
fundamentales de las nuevas formulaciones propuestas para caracterizar la estructura
química deben ir encaminados a lograr mayor versatilidad en los descriptores y
consecuentemente en la información cuantificada, por esa razón la búsqueda de nuevas
estrategias y herramientas para codificar adecuadamente la estructura molecular desde
diversas ópticas sigue siendo un área donde los investigadores de este campo
(fundamentalmente químicos teóricos) dedican grandes esfuerzos.
Aún existen varias limitaciones en los DMs actuales, (18) entre los cuales podemos
destacar:
No existe una única variable (DM) capaz de codificar toda la información química
extrínseca e intrínseca de la estructura molecular.
Muchos de los DMs se definen (o al menos pueden ser representados) empleando el
mismo procedimiento de vector-matriz-vector.
Aún existen muchas propiedades moleculares no adecuadamente descritas por los
DMs existentes.
Varios DMs necesitan redefinirse a formas más simples o generalizadas en aras de
disminuir el costo computacional sin comprometer su calidad, y al mismo tiempo aumentar
su versatilidad.
Varios DMs son definidos globalmente, o sea, no poseen definiciones para
fragmentos o átomos de la estructura molecular.
La mayor parte de los ITs utilizados actualmente han sido definidos de forma global, (5,
18) lo cual significa una gran limitación pues, muchas propiedades/actividades de las
moléculas dependen de regiones específicas (descripción local) o de una combinación de
aspectos locales y totales de la estructura molecular. La definición local de los ITs (para un
determinado fragmento o núcleo base, átomo o grupo de átomos en una molécula) es una
INTRODUCCIÓN
6
de las 13 propiedades deseadas para un nuevo índice propuesta por Randic (19). Se hace
interesante destacar además, que la mayor parte de los ITs han sido definidos a partir de
matrices de adyacencia y de distancia topológica (5). Estas matrices son cuadradas y
simétricas; propiedades interesantes que han favorecido su uso en la definición de DMs.
Así por ejemplo, los principales ITs definidos hasta el momento hace uso de ellas
(Momentos Espectrales, índices de Randic y de Valencia, el índice del Estado
Electrotopológico, descriptor de Wiener, etc.) o de una combinación de las mismas, como
es el caso de los índices de carga.
En contraste, la matriz de incidencia posee características no deseadas (ej., no cuadrada
y asimétrica) para los químicos matemáticos por lo que ha sido escasamente utilizada como
fuente de ITs. Matrices de Incidencia y Frecuencia serán usadas en este trabajo como base
en la descripción de grafos moleculares y fuente para la generación de nuevos ITs basados
en el uso de la Derivada Discreta de un grafo o mografo que represente la estructura
molecular de sustancias orgánicas.
Analizado la información anteriormente expuesta es perfectamente posible constatar que
los descriptores moleculares existentes en la actualidad no posibilitan siempre una
descripción totalmente adecuada de la estructura molecular y es necesario definir nuevos
DMs bidimensionales (2D), que recojan nuevos contenidos de información y permitan
describir y/o estimar diferentes propiedades químico-físicas y biológicas fundamentalmente
de compuestos orgánicos y así posibiliten el estudio de sistemas químicos con un gasto
mínimo de recursos materiales y tiempo.
Toda la información anterior tributa a que se plantee el siguiente problema científico:
¿Cómo definir nuevos DMs, que recojan mayor y diferente contenido de información de
la estructura molecular, permitiendo así describir y/o estimar diferentes propiedades
biológicas de compuestos químicos?
Como vía para solucionar el problema científico se formula la siguiente hipótesis:
Es posible aplicar conceptos de Derivada Discreta de Orden Superior y Derivada
Mixtas a grafos químicos-matemáticos de estructuras orgánicas para definir nuevas familias
de DMs locales y globales, que codifiquen mayor y diferentes contenidos de información
que los ITs existentes, permitiendo así su uso en el diseño ‘racional’ de nuevas entidades
moleculares.
Para demostrar la anterior hipótesis y dar respuesta al problema científico planteado,
se proponen los siguientes objetivos:
INTRODUCCIÓN
7
Objetivo general:
Definir una nueva familia de Índices Topo-Químicos moleculares 2D (Totales y Locales
para átomos y grupos de átomos) basados en la aplicación de conceptos de Álgebra Lineal
y Derivada de Grafos de Orden Superior y Mixtas, en Matemática Discreta para la
codificación de información química y que sean ortogonales a los ITs existentes.
Objetivos Específicos:
Desarrollar nuevos Descriptores Topo-químicos basados en el uso del concepto de
Derivada de Orden Superior y Derivada Mixta de un Grafo en Matemática Discreta
sobre pares de átomos que tengan definición local, respecto a 12 sucesos (grafo-teóricos, de
huellas y magnitudes físico-químicas).
Aplicar invariantes (globales y locales sobre agrupaciones atómicas de interés) que
generalicen la “forma tradicional” de obtención de DMs como combinación lineal de
índices atómico (LOVIs).
Validar los nuevos GDI sobre dimensiones superiores desarrollando modelos para la
evaluación de Derivadas sobre n-átomos, empleando representaciones hipermatriciales de
las estructuras.
Evaluar el desempeño de los GDI de Orden Superior y Mixtos propuestos a través
estudios QSAR comparativos.
La novedad científica de este trabajo está fundamentada en la definición de dos nuevas
familias de ITs, basados en el cálculo de Derivadas del grafo molecular respecto a un
suceso prefijado. En la definición de esta invariante grafo-teórica se utilizan, por primera
vez, matrices e hipermatrices de frecuencia de relaciones y ha sido extendida para evaluar
derivadas de orden superior y mixtas, conformando así una nueva familia de ITs capaces de
codificar la estructura química de forma local y global, teniendo en cuenta heteroátomos,
insaturaciones y efectos electrónicos en la estructura molecular.
En esta tesis se realizan los siguientes aportes:
Aporte Teórico: Se definen nuevos Índices Topo-Químicos basados en el
cálculo de las Derivada del Grafo Molecular como invariante grafo-teórica, para lo cual se
definen nuevas representaciones matriciales nunca antes utilizadas en la generación de un
ITs, tales como las matrices e hipermatrices de frecuencia de relaciones. Este DMs ha sido
definido de forma local (para átomos y agrupaciones atómicas) y total (considerando toda
la molécula) introduciéndose el uso de un grupo considerable de Operadores Matemáticos,
INTRODUCCIÓN
8
colectivamente conocidos como Invariantes y que generalizan la forma tradicional de
obtener descriptores totales y/o locales de agrupaciones atómicas, como combinación lineal
de índices atómicos.
Aporte Práctico: Se desarrolló un programa interactivo en JAVA, conocido
como DIVATI (Acrónimo DIscrete DeriVAtive Type Indices), un nuevo módulo del
programa TOMOCOMD-CARDD 1.0 (acrónimo de TOpological Molecular COMputer
Design Computed-Aided ‘Rational’ Drug Design) con el que se puede calcular de forma
rápida y automatizada los valores GDI de estructuras químicas representadas como grafos
moleculares. Se realizaron aplicaciones en la modelación de propiedades químicas,
químico-físicas y biológicas de compuestos orgánicos demostrándose las potencialidades
de estos índices para estudios QSPR/QSAR y el diseño de fármacos.
Este programa es de libre utilización por la comunidad científica y corre sobre cualquier
plataforma.
Aporte Metodológico: La aplicación de un conjunto de métodos y
procedimientos para evaluar la calidad de los DMs, el estudio de variabilidad y los estudios
QSAR que proporciona un esquema de procedimientos útiles en el análisis de DMs de
forma general. Del mismo modo, el uso de las invariantes (normas, medias, invariantes
estadísticas y algoritmos clásicos) como generalización del uso de la combinación lineal de
las contribuciones atómicas puede usarse para todos los DMs definidos a nivel de local.
Además, la extensión de los GDI definidos para relaciones binarias a dimensiones
superiores (terna y cuaterna) pudiera emplearse para redefinir y así extender y/o generalizar
los DMs definidos hasta el momento que solo usan relaciones bidimensionales (ij).
MARCO TEÓRICO
"La ciencia es el gran antídoto contra el veneno del entusiasmo y la superstición”.
Adam Smith
MARCO TEÓRICO
9
2 MARCO TEÓRICO.
2.1 Elementos de Teoría de Grafos.
2.1.1 Grafos ponderados y su representación matricial.
Matemáticamente el concepto de grafo `G´ puede ser definido según: sea V un
conjunto finito de vértices y E un conjunto de aristas que unen pares no ordenados de los
elementos de V, ⟨ ⟩ (20-22). Este concepto puede ser introducido de manera más
rigurosa como sigue: considérese un conjunto no vacío V = [vi / i =1, 2,…, n], un
conjunto E = [ei / i =1, 2,…,m] y una aplicación , la cual asocia a cada elemento de E
con un par no ordenado de elementos de V. Esta aplicación es denominada la aplicación
de incidencia asociada con un grafo y le da singularidad al grafo para un conjunto V
dado. Por tanto, para cada ei existe un par no ordenado [vi, vj] tal que (e) = [vi, vj]. En
este caso los dos conjuntos E y V junto con la aplicación forman un grafo.
Un arco (arista) e unido a un vértice v se denomina incidente al vértice v y este
vértice es llamado coincidente al arco e. Los vértices vi y vj se llaman adyacentes si
existe una arista ek tal que ek= [(vi, vj)/viVvjV], (o sea, si existe una arista que los
une). Dos aristas se denominan adyacentes si ellas tienen un vértice en común. El
número de aristas incidentes a un vértice vi se conoce como grado del vértice i y denota
[(vi)].
Si en G hay aristas múltiples (pares de vértices que están unidos por más de una
arista), el grafo G se llama grafo con aristas múltiples o multigrafo. Las aristas de la
forma (vi, vi), se denominan lazos o bucles y los grafos que las presentan se llaman
grafos con lazos o pseudografos (ver Figura 1).
Figura 1. A) Grafo simple; B) Multigrafo; y C) Pseudografo.
En el trabajo actual solo usaremos pseudografos no orientados, por lo que las
definiciones que a continuación daremos, están relacionadas con la teoría de
pseudografos (se sobrentiende pseudografos no orientados). Estas definiciones de los
MARCO TEÓRICO
10
términos más utilizados en los grafos moleculares son muy útiles para describir varias
características estructurales de estos.
En un multigrafo, el grado del vértice vi [(vi)] es el número de aristas del multigrafo
que son incidentes al vértice vi. En un pseudografo, el grado del vértice vi es igual al
número total de aristas (que no sean lazos) incidentes a este vértice, más el número de
lazos incidentes a él.
Un camino (P) es una sucesión de aristas con vértices comunes. La longitud (l) de un
camino es el número de aristas del mismo. Así por ejemplo, camino de longitud cero
(P0) es una sucesión de vértices que contiene solo un vértice.
Al extraer vértices de un grafo y sus arcos incidentes se obtiene un subgrafo
⟨ ⟩ del grafo G, donde . Kier y Hall (23) clasifican los subgrafos
según su orden o tipo. Así los subgrafos pueden clasificarse como path (camino, senda)
si todos los vértices tienen grado menor o igual a dos, si todos los vértices poseen grado
superior a dos, entonces se clasifica como cluster (grupo) y si existen vértices que
cumplan con una gama variada de grados (menores y mayores que dos) en el mismo
subgrafo, entonces estamos en presencia de un subgrafo de tipo path-cluster. Si el
subgrafo es cíclico se dice que es de tipo chain. El orden de un subgrafo viene expresado
por el número de aristas que este posea.
Para lograr una descripción más completa de los grafos, asígnese a cada vértice
(V = [vi / i =1, 2,…, n]) del grafo ⟨ ⟩ un peso wi del conjunto de pesos W
= [wi / i =1, 2,…]. Análogamente póngase un peso pi del conjunto de pesos P = [pi / i =1,
2,…] en correspondencia a cada elemento del conjunto E = [ei / i =1, 2,…, m]. Como
resultado obtenemos conjuntos de vértices y arcos ponderados [(vi,wi) / i =1, 2, …, n] y
[(ei,pi) / i =1, 2,…,m] respectivamente, los que en su conjunto definen un Grafo
Ponderado ⟨( ) ( )⟩, el que estrictamente dicho ya no es un grafo sino una
función definida sobre los vértices y los arcos del grafo (22).
Los grafos pueden representarse matricialmente en forma algebraica (24-26). La
descripción numérica de la estructura de los compuestos químicos, es esencial para la
manipulación computacional de las moléculas y para los cálculos de los índices
moleculares que de ella se derivan. Así por ejemplo, la matriz de adyacencia ( )
[ ] del grafo G no ponderado con n vértices, es la matriz cuadrada simétrica nxn y
los elementos se definen de la siguiente forma:
MARCO TEÓRICO
11
{
Donde E representa el conjunto de las aristas de G. En la matriz de adyacencia A(G)
la fila i y columna i corresponden al vértice vi de G. Como un ejemplo sencillo, en la
Figura 2 se muestra el grafo molecular y la matriz de adyacencia del 1-etil-2-metil-
ciclopropano.
Una propiedad interesante de A(G) viene dada por el hecho de que la matriz Ak(G) da
el número de caminos unitarios de longitud k que unen los vértices vi y vj. Esto permite
interpretar los elementos aij como el número de caminos unitarios, de orden (longitud) k,
entre los vértices vi y vj (ver Figura 2).
100000
010000
001000
000100
000010
000001
6
5
4
3
2
1
654321
0
v
v
v
v
v
v
vvvvvv
A
010000
101000
010110
001010
001101
000010
6
5
4
3
2
1
654321
1
v
v
v
v
v
v
vvvvvv
A
101000
020110
103111
011211
011130
001101
6
5
4
3
2
1
654321
2
v
v
v
v
v
v
vvvvvv
A
Figura 2.Grafo molecular y matrices de adyacencia de la molécula de 1-etil-2-metil-
ciclopropano.
La matriz de adyacencia del grafo molecular G ponderado sería ( ) [ ] (22)
y cada elemento vendrá dado por:
{
( )
La matriz de distancia ( ) [ ]de un grafo G con n vértices, es la matriz
simétrica nxn (cuadrada) y los elementos se definen de la siguiente forma (24, 25):
{
Donde dij es la longitud del camino más corto entre los vértices vi y vj de G. Por
ejemplo, la matriz de distancias topológicas entre vértices del grafo molecular de la
molécula de 1-etil-2-metil-ciclopropano (ver Figura 2) se representa en la Figura 3.
MARCO TEÓRICO
12
012334
101223
210112
321012
321101
432210
6
5
4
3
2
1
654321
v
v
v
v
v
v
vvvvvv
D
Figura 3. Matriz de distancias topológicas entre vértices de la molécula de 1-etil-2-
metil-ciclopropano.
Para un grafo G, se define la matriz diagonal, DEG =DEG(G), donde la entrada i-
ésima es igual al grado del vértice vi, i y todos los demás elementos son iguales a cero.
La Matriz de incidencia: para un grafo G, con una ordenación de vértices (v1, v2,…vn)
y aristas (e1, e2,… em), entonces la matriz de incidencia del grafo para esa ordenación es
la matriz de m filas y n columnas ijbB
Definida por la condición de que:
ji
ji
ij evsi
evsib
0
1
Como ejemplo podemos citar que siendo:
G=⟨( ) ( ) ( ) ( ) ( ) ( )⟩ (Ver Figura 4) la matriz de
incidencia de G, respecto a la ordenación de sus vértices A, B, C, D, E, F y sus aristas
( ) ( ) ( ) ( ) ( ), es la matriz:
A
B
C
D
FE
100010
010010
001100
000110
000011
BF
BE
CD
BC
AB
FEDCBA
e
e
e
e
e
vvvvvv
D
Figura 4. Grafo y matriz de incidencia que lo representa.
Existe un gran número de matrices que caracterizan estructuralmente a un grafo
molecular y han servido para computar varios ITs. Algunos ejemplos son la matriz
Laplaciana L(w, G), la matriz de Detour, []ij (27), la matriz de Detour-distancia, [-D]ij
(27), la matriz de distancia-valencia [Dval(p, q, w, G)]ij(19), la matriz de resistencia-
distancia [(w)]ij(28), la matriz de conductancia eléctrica [EC(w)]ij (28), la matriz de
Wiener inversa [RW(w, G)]ij (29), la matriz de Szeged [Szu]ij (30), entre otras.
MARCO TEÓRICO
13
2.1.2 Diferenciación de Grafos y Mografos.
En el Análisis Matemático el concepto de derivada caracteriza el grado de variación
en una función al realizarse una pequeña variación en su argumento, dicho concepto de
derivada se basa en el del límite. En la Matemática Discreta no existe el concepto de
límite y por tanto, es imposible trasladar el concepto de derivada tal como se conoce,
desde la matemática continua a la discreta (22).
Antes de introducir una definición formal de la derivada de un grafo, primeramente se
dejarán claros determinados conceptos importantes para poder entender a cabalidad el
significado de la misma y sus grades posibilidades de aplicación en la química grafo-
teórica.
Primeramente defínase un suceso (S), el cual es verdadero cuando se cumplen
determinadas condiciones al proceso examinado. Cada suceso S determina una matriz
binaria bidimensional nxmijqQ ][ , a cada columna de la cual le corresponde
biunívocamente una condición, comprendida en al menos un suceso verdadero, y a cada
fila, una colección de condiciones, con las cuales el suceso tiene lugar y qij es:
{
En otras palabras, cada suceso determina un modelo con matriz de incidencia Q , las
condiciones que se comprenden en el suceso son letras del modelo y las colecciones de
condiciones para las cuales el suceso es verdadero serían palabras del modelo (22).
Las intensidades de participación de las distintas condiciones (letras) en las
colecciones de condiciones (palabras) para las cuales el suceso es verdadero las
caracterizaremos utilizando las frecuencias de su inclusión. Para ello es necesario
introducir la matriz de frecuencia de relaciones nxnijfF ][ que caracteriza un modelo con
matriz de incidencia nxmijqQ ][)( .
Se denomina matriz de frecuencia de relaciones nxnijfF ][ una matriz, a cada fila y
columna de la cual le corresponde biunívocamente una condición, y un elemento fij es
igual al número de palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i
= j entonces fi corresponde al número de palabras que incluyen la letra i. Siendo fi la
MARCO TEÓRICO
14
frecuencia propia de la letra i y fij es la frecuencia recíproca de las letras i y j,
correspondientemente.
De la definición de la matriz de frecuencia de relaciones, se desprende que la misma
es simétrica respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada
letra es mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fij.
También se puede demostrar que:
xQQF T (2.1)
Siendo TQ la matriz transpuesta de la matriz de incidencia [Q(Ψ)] del modelo Ψ.
Es posible entonces, determinar el grado de heterogeneidad de los componentes del
grafo respecto a un suceso dado y caracterizar esta heterogeneidad por la derivada
SG de un grafo G respecto al suceso S.
Llámese derivada SG de un grafo (G) respecto a un suceso (S), un grafo
ponderado no orientado <V,(U, P)>, cuyo portador coincide con el portador de un
modelo determinado por este suceso y un par de vértices (vi,vj) está ponderado por la
razón de la frecuencia )()( ijjiji ffff de su participación incompatible a la
frecuencia fij de la participación compatible en el suceso S (22):
),( ji vvS
G
=
ij
jiji
f
fff )2( (2.2)
Con la particularidad de que:
(vi , vj) U, si S
G
(vi, vj) = ∞
(vi , vj) U, si S
G
(vi, vj) = una magnitud finita diferente de cero
(vi = vj) si S
G
(vi, vj) = 0
A continuación, ilustremos entonces el concepto de derivada del grafo con un
ejemplo (22).
Ejemplo # 1
Sea el grafo G (ver Figura 5.A.). Se desea determinar la frecuencia de participación
de las diferentes aristas en la formación de esqueletos del grafo. El grafo G contiene 8
MARCO TEÓRICO
15
esqueletos [subgrafos de orden 3, sin diferenciar tipo (ver Figura 5.B.)]. Se puede
conocer la frecuencia buscada, por ejemplo, conociendo el número de inclusiones de
cada arista en los esqueletos. Por ejemplo, la arista “a” participa 5 veces en la formación
de los esqueletos, la arista “c” 4 veces, etc. La frecuencia buscada puede caracterizarse
mejor, si a la par de los números indicados anteriormente, determinamos números que
caractericen el grado de participación no uniforme de pares de aristas del grafo (derivada
del grafo para parejas de elementos), en la formación de esqueletos del grafo, para ello
debemos obtener las correspondientes matrices de incidencia y de frecuencia para el
modelo determinado por nuestro suceso (formación del esqueleto del grafo por las
diferentes aristas), y de este modo calcular los valores de derivada SG para los pares
de aristas del grafo:
Figura 5.A) Grafo del Modelo. B) Subgrafos según el suceso. C) Derivadas.
Las matrices de incidencia y de frecuencia, para este modelo, son:
11010
10110
01110
11001
10101
01101
10011
01011
Q
52233
25233
22422
33252
33225
xQQF T
Los elementos de la matriz (F) determinan la SG , que es un grafo ponderado, con
portador [a, b, c, d, e] y dos vértices de este grafo son adyacentes, si el valor de la
derivada sobre la arista formada por estos vértices es distinta de cero o infinito. Los
valores de derivada para los pares de aristas del grafo son:
MARCO TEÓRICO
16
0.3),(...........................................................5.2),(,0.3),(
ed
S
Gca
S
Gba
S
G
Con estos valores puede formarse el grafo SG (Figura 5.C.)
Como puede observarse, para determinar la derivada de un grafo, según un suceso
(S), es necesario:
Construir un modelo determinado por un suceso previamente fijado.
Hallar la matriz de frecuencia de relaciones correspondiente al modelo.
Calcular los valores de derivada SG sobre los pares de elementos (átomos o
enlaces) del grafo (molécula).
2.1.3 Derivadas de Orden Superior.
Denótese derivada K
K
SG
de orden K según el suceso (S), la derivada de la
derivada de orden K-1 según el mismo suceso (22):
1
1
K
K
K
K
S
G
SS
G (2.3)
2.1.4 Derivadas Mixtas.
Llámese derivada Mixta (22) según los sucesos (Sa y Sb), a la derivada respecto a un
suceso (Sa) de la derivada respecto a un suceso (Sb):
baba S
G
SSS
G2
(2.4)
2.1.5 Derivadas Sobre n-elementos.
Hasta este punto ha sido examinanda la intensidad de participación de pares de
elementos en un suceso determinado. Sin embrago, de modo análogo se puede
determinar la uniformidad de participación de tres, cuatros……n elementos en el suceso
generalizando el concepto de derivada. Para ello es necesario introducir el concepto de
hipermatriz de frecuencia de relaciones (22).
Examínese el modelo Ψ = < M, S1, S2,……Sn> y tomemos una matriz N-dimensional
MARCO TEÓRICO
17
][ ...21 NiiifF , i1, i2,. . ., iN = 1,. . . | M |. Las posiciones según cada dimensión de la
matriz N-dimensional las enumeraremos con números de la serie natural 1, 2, 3,… M .
Póngase en correspondencia biunívoca a cada letra Mm un número de esta serie
natural y colocaremos las letras Mmi por las respectivas posiciones de cada
dimensión de la matriz N-dimensional. Cada elemento Niiif ,...,, 21
de esta matriz es igual al
número de palabras que comprenden letras correspondientes a los números Niii ,...,, 21 .
No se duplican los índices iguales por su escritura. La matriz formada de este modo se
denominara matriz N-dimensional de frecuencias de relaciones o bien hipermatriz de
frecuencia de relaciones, si no interesa la dimensión de esta matriz.
Si entre los índices Niii ,...,, 21 y un elemento Niiif ,...,, 21
existen al menos dos índices de
escritura distinta este elemento se llama frecuencia recíproca de letras correspondientes
y, en caso contrario, frecuencia propia de letras. La frecuencia Niiif ,...,, 21
que tiene k
índices diferentes se denomina frecuencia de orden k.
De esta forma es posible generalizar la fórmula de derivada para n elementos:
21
21
121
21
121
21
212121
121,
,...,...,
,...,,...,,
...
1
...
1
...
21 )1(...)1(...21
),...,(
iiii
iiiiiii
iiiiiii
iii
n
iiiii
i
i
mmm
n
nn
n
n
n
fnffff
mmmS
G
(2.5)
2.2 Definición de sucesos. Ahora definiremos brevemente distintos tipos de sucesos que amplían el espectro de
posibilidades de obtención de estos índices topológicos. Cada suceso determina una
matriz de incidencia y una matriz de frecuencia para duplas, ternas y cuaternas, según
sea el número de vértices analizados en la inclusión de los subgrafos generados por cada
suceso.
2.2.1 Caminos terminales.
Este suceso se define por la formación de los subgrafos i-j de tipo camino (path) en
un grafo G, el cual cumple con la condición de que los vértices (vi y vj) tienen grado de
valencia de vértice (δ) igual a uno.
2.2.2 Incidencia vértice camino.
Este suceso se deriva de la definición propuesta, por Janezic y colaboradores, de la
matriz VP de incidencia de vértices en el conjunto de caminos (31). Se deduce que dado
MARCO TEÓRICO
18
V un conjunto de vértices {vi} y P un conjunto de caminos, entonces la matriz de
incidencia se define como:
{ ( ) { } { }
Donde n (i,j) es el número de incidencias de vi en el conjunto de caminos p de orden j.
Nótese que para mantener el mismo formato seguido en las definiciones presentadas
hasta ahora, se trabaja con la transpuesta de VP, es decir VPT, representado como VP*,
en el sentido que las entradas de las filas representan el grupo de los subgrafos de un
orden n y las entradas de las columnas el número de veces que se incluyen los vértices
en los grupos de subgrafos anteriores, contrario a la definición de la matriz inicial
propuesta por Janezic y colaboradores.
2.2.3 Camino de longitud K.
Este suceso surge de la exploración de los caminos de longitud k en un grafo G dado.
Estos caminos pueden ser de auto-evasión, esto es, sin repetir ningún vértice (v1 ≠ vk), o
de auto-retorno, esto es, comenzando y terminando en el mismo vértice (v1 = vk). Sin
embargo en un grafo G con muchos vértices, los caminos de este tipo son muy
numerosos y podrían dar lugar a redundancia. De esta forma consideramos necesario
fijar en 10 el orden máximo de subgrafos (kmax=10) de los caminos generados.
2.2.4 Quantum.
El suceso quantum está basado en la eliminación de la aristas que unen a los vértices
vi y vj del grafo G, con reemplazamiento. El uso del término quantum no está
relacionado con la teoría cuántica. Se escogió simplemente en referencia a la
eliminación de unidades discretas (es decir aristas) de G. Los subgrafos resultantes se
usan para construir la matriz de incidencia. Este es un procedimiento sucesivo que puede
ser realizado desde 1 hasta n-1 aristas.
2.2.5 Subgrafos de Sach.
Nuestro interés radica en el uso de los subgrafos generados al tomar como criterio el
teorema de Sach para construir la matriz de incidencia y su correspondiente matriz de
frecuencia. En este criterio, G se divide en subgrafos usando las siguientes
consideraciones (32, 33):
a) Subgrafos aislados constituidos por dos vértices conectados por una arista.
b) Ciclos aislados o componentes de tipo anillo (con multiplicidad m≥ 3).
MARCO TEÓRICO
19
Usando estas consideraciones, se construyen conjuntos de subgrafos (Sk), donde k
indica el número de vértices que constituyen un subgrafo dado. Estos subgrafos,
construidos con estas consideraciones, solamente aristas y ciclos aislados, se llaman
grafos de Sach.
2.2.6 Huellas.
En términos simples, una huella química es una lista de valores binarios (conocida
como una lista de bits o bit string en inglés, la cual corresponde a una búsqueda en
cuanto a la presencia o no de determinadas características (tipos de átomos o
fragmentos) en la estructura molecular. Existen varias huellas, la mayoría de las cuales
están implementados en librerías de Quimiometría y Bioinformática como CDK (34,
35), Joelib (36).
2.2.7 Huellas MACCS.
Las huellas MACCS uno de los tipos de huellas más populares usados en análisis de
similitud/diversidad. Varias longitudes de listas para huellas MACCS se han reportado
en la literatura (37). Entre estas, la más populares son las de 960 bit y 166 bit de
longitud basadas en descriptores 2D.
2.2.8 Huellas de E-state.
Estas huellas se derivan de un conteo de fragmentos del estado electrotopológico (o
subgrafos), definidos por Kier y Hall sobre la base del estado electrónico y topológico
de átomos(o grupo de átomos) en una molécula (38-41).
2.2.9 Huellas de subestructura.
Las huellas de subestructuras se componen de un conjunto de 307 bits, por el hecho
de que supone estructuras representativas de prácticamente todos los grupos funcionales,
orgánicos e inorgánicos, conocidos en química molecular medicinal, contrario a las
huellas MACCS y E-state. No es sorprendente por tanto que estas huellas son las más
comprensibles e interpretables en términos de química orgánica.
2.2.10 Refractividad atómica e hidrofobicidad.
Este suceso sigue un enfoque único, diferente de todos los anteriores por estar
relacionado con determinadas propiedades químico-físicas atómicas. La estructura
conceptual de este suceso propone una evaluación de la contribución de las entidades
MARCO TEÓRICO
20
químicas (o grupos) en la vecindad de un vértice en su refractividad molar atómica (MR)
e hidrofobicidad (log p), esta última expresada en términos de valores de coeficiente de
partición.
2.2.11 Multiplicidad.
Este suceso se define a partir de la formación de los subgrafos de tipo camino de
orden 1 del grafo simple derivado de la molécula examinada, o sea, tomando como
colección de condiciones las aristas del grafo. Se observa que la matriz de incidencia
resultante es una matriz de incidencia clásica. Solo que en este caso las entradas de la
matriz no serán valores booleanos sino el valor del número de enlaces que existan entre
los átomos incidentes en la arista correspondiente.
2.3 Definición de los GDI para pares (dupla), tríos (terna), y
cuartetos (cuaterna), de átomos.
2.3.1 Derivada para pares de átomos.
Con el avance del tiempo, el paso de los años, la recopilación de información
experimental y como fruto de la experiencia acumulada ha permitido a los químicos
asegurar que las propiedades químicas, físicas y biológicas de manera general, de
cualquier sustancia se deben fundamentalmente a su estructura química. Desde hace
muchos años atrás los químicos hemos utilizado diferentes forma de representar las
posibles estructuras de las moléculas y las más comunes representaciones desarrolladas
y semidesarrolladas de las moléculas (sobre todo de moléculas orgánicas) no son más
que un grafo químico. Por lo que es lógico pensar en un posible tratamiento matemático
y aplicación de conceptos de la matemática discreta y el álgebra lineal a estos grafos
químicos, surgiendo así toda una disciplina conocida como química grafo-teórica.
Veamos qué ocurre si aplicamos los conceptos y definiciones anteriores a la química
y discutamos más adelante como podemos obtener provecho, de este elegante
tratamiento teórico, y su aplicación directa en la generación de nuevos descriptores
topológicos y el diseño molecular. Pongamos en práctica, a través de un ejemplo, los
aspectos discutidos anteriormente además de algunos nuevos formalismos que serán
introducidos en la medida que sea necesario.
Si tenemos una molécula sencilla como la de metilbutano (ver Figura 6), cuya
estructura química es:
MARCO TEÓRICO
21
H3C
CH
CH2
CH3
CH3
Figura 6. Estructura molecular del metilbutano.
Obviando los átomos de hidrogeno y consideramos cada átomo de carbono como un
vértice y los enlaces entre ellos, aristas, podemos entonces representar dicha molécula
con el siguiente grafo molecular:
c1
c2 c3
a b
c5
c4
c
d
Figura 7. Grafo Molecular con hidrógenos suprimidos de la molécula de
metilbutano.
Este grafo está en correspondencia con la estructura química anterior. En el mismo,
los átomos de carbono etiquetados con las letras C1, C2, C3, C4 y C5 están representados
como vértices del grafo molecular y a, b, c, y d constituyen aristas que representan los
enlaces químicos establecidos entre dichos átomos.
Definamos entonces, un nuevo suceso a la formación de la estructura molecular a
partir de subestructuras conexas (sub-grafos) de distintos órdenes y tipo, basada en
relaciones atómicas. Aplicando este suceso al grafo antes planteado obtenemos las
siguientes subestructuras, los cuales han sido organizados según su orden:
Orden 0: 54321 ,,,, CCCCC
Orden 1: 52433221 ,,, CCCCCCCC
Orden 2: 432325521321 ,,, CCCCCCCCCCCC
Orden 3: 532143254321 ,, CCCCCCCCCCCC
MARCO TEÓRICO
22
Orden 4: 54321 CCCCC
El suceso prefijado determina las correspondientes matrices de incidencia y de
frecuencia, las cuales son mostradas a continuación:
Podemos caracterizar la intensidad de participación de los diferentes pares de
elementos (átomos en la molécula o vértices en el grafo) a partir del cálculo de la
derivada para pares de elementos:
6
7
6
12)6(27),( 21
cc
S
G
25.2
4
10)4(27),( 31
cc
S
G
Así, sucesivamente se pueden determinar los valores de los pares de elementos
del grafo, los cuales son mostrados a continuación:
5.4),( 41
CC
S
G
2.1),( 43
CC
S
G
3
8),( 51
CC
S
G
25.2),( 53
CC
S
G
75.0),( 32
CC
S
G
5.4),( 54
CC
S
G
5.2),( 42
CC
S
G 6
7),( 52
CC
S
G
Si denominamos además, al LOVIs como Δi para cada uno de los elementos del grafo
(o sea para cada núcleo atómico), como la sumatoria sobre todos los valores de derivada
),( jiS
G
que incluyen al elemento i (combinación lineal):
11111
11110
10111
01111
01110
10110
10011
00111
01100
10010
00110
00011
10000
01000
00100
00010
00001
Q
72463
26542
451084
648126
32467
F
MARCO TEÓRICO
23
),(1
jiS
Gn
j
i
( ji ) (2.6)
Obtenemos los valores de LOVIs para cada elemento serían: Δ1 = 10.58, Δ2 = 5.58,
Δ3 = 6.45, Δ4 = 12.7 y Δ5 = 10.58.
Si se observa detenidamente los valores de cada Δi, se puede notar que cada valor para
los cuatro primeros átomos (del 1-4) son diferentes, mientras que para el primero y el
quinto son iguales. Este comportamiento es lógico si tenemos en cuenta la naturaleza
química de cada uno de estos átomos, pues son precisamente los átomos de carbono
denominados 1 y 5 los únicos que poseen un ambiente químico idéntico. Además, los
valores de cada Δi pueden ser organizados en el mismo orden de su ambiente químico
estérico-electrónico. Así por ejemplo, el mayor valor de Δi lo posee el átomo menos
enterrado mientras el valor más pequeño es presentado por el átomo 2, el cual es el más
impedido estéricamente. Esto también coincide con la naturaleza del concepto de
derivada pues este átomo más enterrado es el que contribuye a la formación de la
molécula.
Hasta el momento se ha mostrado como este método recoge información topológica
de la molécula (conectividad entre los átomos en la molécula expresada a través de su
intensidad de participación en la formación de la estructura molecular) en la matriz de
incidencia; sin embargo, es necesario ampliar esta información con el propósito de
diferenciar entre los diferentes heteroátomos e instauraciones. Por tanto, se hace
imprescindible incorporar también esta información química en nuestra metódica de
trabajo, para obtener valores de la derivada LT que permitan caracterizar de forma
adecuada moléculas heteroatómicas. Tomemos como un ejemplo sencillo, la molécula
de 2-metilpropanal (ver Figura 8). Debemos considerar determinados aspectos que serán
discutidos en la medida que sean necesarios introducirlos para dicho tratamiento:
O
isobutyraldehyde
Figura 8. Estructura de la molécula de isobutiraldehído (metilpropanal).
MARCO TEÓRICO
24
Para esta molécula cuyo grafo molecular es representado a continuación (ver Figura
9) podemos afirmar que la matriz de incidencia Q es idéntica a la desarrollada
anteriormente para la molécula de metilbutano; teniendo en cuenta el suceso antes
descrito.
O
c-1
c-2
c-3
c-4
Figura 9. Representación del grafo con hidrógenos suprimidos correspondiente a la
molécula de metilpropanal.
Podemos percatarnos por simple inspección de la estructura molecular que en esta
nueva molécula hay presencia de heteroátomo y un doble enlace. Introduzcamos
entonces la matriz de ponderación nxnijpP ][ , que es una matriz diagonal, donde filas y
columnas no son más que las distintas condiciones del suceso y cada elemento ip de la
diagonal le corresponde biunívocamente un peso )( i para la condición correspondiente
y cada 0 jiij pp . Los distintos pesos para cada átomo (condición, según este suceso)
pueden ser determinados según la relación
Pi (para este suceso basado en
átomos), donde P representa una propiedad característica de cada átomo (ejemplo: masa
atómica, electronegatividad, etc.) y δ es el grado del vértice. Como se ha planteado
anteriormente el grado de vértice se refiere al número de aristas incidentes al dicho
vértice y químicamente representaría la cantidad de enlaces formados por el átomo en
cuestión con sus vecinos dentro de la molécula, o sea la valencia química.
Para ilustrar este ejemplo usemos como ponderación la electronegatividad (según la
escala de Pauling) de cada átomo (condiciones). Los pesos o etiquetas para los distintos
átomos son:
75.12
5.3)( op
833.0
3
5.2)3( cp
5.21
5.2)1( cp
5.2
1
5.2)4( cp
MARCO TEÓRICO
25
833.03
5.2)2( cp
Quedando la matriz de ponderación como se indica a continuación:
5.20000
075.1000
00833.000
000833.00
00005.2
P
Multiplicando ahora la matriz de incidencia por la matriz de ponderación, obtenemos
la matriz de incidencia ponderada mxnijPQ ][ , que es muy semejante a Q en su forma
solo que esta nueva matriz recoge información específica de cada átomo en la molécula
además de su conectividad con otros en dicha molécula. De donde se desprende que:
µij = pi, si la j-ésima condición está contenida en la i-ésima colección de
condiciones.
µij = 0, en caso contrario.
Para el caso que nos ocupa podemos encontrar la siguiente matriz de incidencia
ponderada PQ :
5.275.1833.0833.05.2
075.1833.0833.00
5.20833.0833.05.2
075.1833.0833.05.2
075.1833.0833.00
5.20833.0833.00
5.200833.05.2
00833.0833.05.2
075.1833.000
5.200833.00
00833.0833.00
000833.05.2
5.20000
075.1000
00833.000
000833.00
00005.2
PQ
MARCO TEÓRICO
26
En lo adelante podemos continuar con la metodología antes propuesta para
determinar los valores de derivada sobre los pares de elementos del grafo. O sea,
obtenemos la matriz PQ y su transpuesta T
PQ , posteriormente realizamos la
correspondiente operación de multiplicación como ya se vio en el ejemplo anterior
( PP
T
P FxQQ ). La matriz de frecuencias ponderada PF obtenida recoge información
acerca del número de veces que participa cada elemento en la formación del grafo
molecular (según el suceso prefijado), además de su característica de participación, que
podemos entenderla como su identidad o capacidad relativa (respecto a otros átomos de
la molécula) para formar la estructura molecular.
Los valores de derivada para los pares de elementos del grafo molecular son:
17.2),( 21
CC
S
G
57.2),( 2
OC
S
G
08.4),( 31
CC
S
G
17.2),( 42
CC
S
G
12.5),( 1
OC
S
G
46.1),( 3
OC
S
G
67.2),( 41
CC
S
G
08.4),( 43
CC
S
G
75.0),( 32
CC
S
G
12.5),( 4
CO
S
G
Con estos valores calculados podemos obtener también los índices de cada átomo en
la molécula: ∆c1= 14.07, ∆c2 = 7.63, ∆c3= 10.36, ∆O= 14.30 y ∆c4= 14.07.
Puede entenderse que dado este suceso, serán posibles tantos valores de derivadas LT
como átomos tenga la molécula. Esta situación puede traer algunos inconvenientes
durante el tratamiento estadístico de la data numérica, obtenida para el conjunto de
moléculas en cuestión.
Para solucionar el problema anterior y lograr una homogeneidad en el número de
valores a obtener, podemos determinar una cantidad prefijada de descriptores totales de
la molécula, o locales sobre agrupaciones atómicas de interés (además de algunas
derivadas LT que por su relevancia deban considerarse en el análisis estadístico). Con
MARCO TEÓRICO
27
este propósito, se propone la utilización de las Normas (1,2,…p) de Minskowski y la
Norma Geométrica, para su uso como descriptores totales de las moléculas y locales
sobre agrupaciones atómicas, las cuales pueden ser presentadas como sigue:
Norma p de Minskowski para cualquier molécula:
p
n
i
p
ipx
1
(2.7)
donde p puede tomar valores enteros positivos partiendo de 1, y la norma Geométrica de
la molécula:
n
n
i
i
1
(2.8)
donde n es el número máximo de derivadas LT (∆i) incluidas.
De esta forma obtenemos igual juego de números para cada molécula sin importar la
cantidad de átomos que posea, además de que también podemos obtener los valores
representativos de los grupos que nos interesen solamente. Estos nuevos índices
constituyen descriptores globales de la molécula si todos los átomos son tomados en
cuenta. Estas normas constituyen descriptores locales cuando solo una porción de los
átomos son tomados en cuenta para su cálculo. Así por ejemplo, para la molécula de
metilpropanal podemos encontrar derivadas de grupos como lo son las derivada sobre
heteroátomos y carbonos alifáticos, etc.
30.14O
E36.60
1
XE
09.40.)(1
alifcXE
74.11E
Estas Normas pueden ser usadas por otros especialistas para definir DMs de forma
global y total. Por ejemplo el índice del Estado Electrotopológico ha sido definido de
forma local y pudiera ser extendido de forma total sobre todos los átomos de la
molécula (o local sobre agrupaciones atómicas determinadas) con el uso de Normas,
como las anteriormente descritas.
2.3.2 Extensión de los GDI a relaciones atómicas n-dimensionales. Esta sección estará dedicada a explicar los aspectos referentes a la teoría que sustenta
la definición de los nuevos descriptores basados en el uso del concepto de Derivada del
Grafo sobre n-átomos.
Primeramente debe recordarse que cada suceso determina un modelo en el cual las
condiciones que se comprenden son letras del modelo y las colecciones de condiciones
MARCO TEÓRICO
28
con las cuales el suceso es verdadero, son palabras del modelo. La intensidad de
participación de las condiciones se caracterizan utilizando frecuencias de inclusión
propias y simultaneas y estas frecuencias pueden agruparse en una matriz de frecuencia
F. Si solo se evalúan frecuencias simultáneas de participación de pares de elementos la
matriz F será una matriz bidimensional, cuadrada y simétrica respecto a la diagonal
principal. La riqueza de posibilidades en la definición de sucesos sugiere que existe gran
posibilidad donde aparezcan colecciones de condiciones en un modelo determinado con
las que el suceso sea cierto y participen más de dos condiciones por tanto sería posible
evaluar frecuencias de inclusión de tres, cuatro y n-elementos simultáneamente. Para
organizar las frecuencias encontradas en un modelo generado por un suceso que permita
dicha evaluación antes mencionada, tendrán necesariamente que ser matrices n-
dimensionales o hipermatrices.
2.4 Hipermatriz de frecuencia de relaciones Se denomina matriz de frecuencia F = [fij]n×n, aquella en la cual a cada fila y cada a
columna corresponde recíprocamente a una condición, y el elemento fij es igual al
número de palabras (subgrafos) que contienen las letras i y j respectivamente si i≠j. Por
otro lado si i = j entonces fi corresponde al número de palabras que contienen la letra i.
El término fi es conocido como frecuencia propia de la letra i y fij la frecuencia recíproca
de las letras i y j.
Es posible llegar a esta matriz usando un método simple exploratorio y para ilustrarlo
consideremos el siguiente ejemplo: considérese un modelo donde se tengan 16 palabras
en el idioma inglés y ninguna de ellas está repetida:
“In any reaction, enthalpy and entropy change when the reactants are used up to
obtain products.”
Supóngase que se tiene interés en encontrar el número de veces (frecuencia) que las
letras {a, e} participan simultáneamente en la formación de las palabras en la oración
anterior. Así mismo se puede observar que las letras a y e aparecen simultáneamente en
las palabras: reaction, enthalpy, change, reactants. Es decir participan cuatro veces en la
formación de la misma palabra fAE = 4. La frecuencia de participación de todos los
subgrupos de dos componentes de un par de letras i j podría ser similarmente explorada
(fij), así como la frecuencia de participación de cada una de las letras (fi) que constituyen
esas palabras. Las frecuencias son los componentes de la matriz de frecuencia, F.
MARCO TEÓRICO
29
En este sentido también puede determinarse el número de veces que un subgrupo de
tres o cuatro letras participan juntas en la formación de una palabra en el modelo.
Tómese como ejemplo la participación de las letras {a, e, n} en la formación de
palabras de la oración anteriormente encerrada entre comillas.
Las letras {A, E, N} participan simultáneamente en la formación de las palabras
reaction, changes, enthalpy, es decir participan 3 veces en la formación de palabras y
frecuencia de participación es 3 (fAER= 3). Nótese también que las letras {e, n, t, y}
participan simultáneamente 2 veces en la formación de las palabras enthalpy y entropy,
es decir, la frecuencia de participación es 2. Este tipo de análisis puede ser extendido a la
exploración de subgrupos de 5, 6,7,…n letras que participan en la formación palabra. En
el presente trabajo solo se evalúan las frecuencias de participación de tres y cuatro
elementos simultáneamente.
Estas frecuencias de participación permiten confeccionar matrices de tres, cuatro o n
dimensiones, las cual pueden ser denominadas hipermatrices de frecuencia de
relaciones o matrices n-dimensionales de frecuencia de relaciones. Esta tipo de matrices
contienen frecuencias de participación simultáneas de n letras y las etiquetas de los ejes
son condiciones designadas por letras.
Dada la dificultad en la visualización de todos los elementos en las matrices de tres
dimensiones, estas matrices se separarán en n hojas o capas donde n es el número de
elementos presentes en el grupo universal de letras que constituyen las palabras.
Habiendo introducido estas ideas, se hace posible ilustrar con un ejemplo que puede
ser de gran utilidad en las presentes definiciones. Tómese como suceso S la formación, a
partir de subgrafos conexos, de un grafo molecular dado G, las condiciones (letras en el
modelo) incluidas en el suceso serán los vértices (átomos) presentes en cada colección
de condiciones (subgrafos conexos (palabras del modelo). Los conceptos grafo-teóricos
de subgrafos de orden y tipo, es decir: path (p), cluster (c) and path-cluster (pc) son
empleados como criterio para generar los subgrafos conexos.
Considérese el grafo molecular correspondiente a la molécula del N,N-
dimetilpropionamida representado en la figura 10.
Aplicando el evento anterior se encuentran todos los fragmentos moleculares que se
observan organizados en la tabla I según orden y tipo siguiendo la clasificación de Kier
Hall.
MARCO TEÓRICO
30
Figura 10. A) Estructura Química y B) Grafo molecular de la N,N-
dimetlpropionamida.
Las frecuencias de participación de los grupos de vértices en la formación de
subgrafos conexos pueden evaluarse por un método simple exploratorio como se detalló
anteriormente. Por ejemplo, el grupo de vértices {C1, N2, C4} participan en la formación
de los subgrafos conexos C1-N2-C3-C4, C1-N2-C3-C4-C5, C1-N2-C3-C4-O7, C1-N2-C3-C4-
C6, C1-N2-C3-C4-C5-C6, C1-N2-C3-C4-C5-O7, C1-N2-C3-C4-C6-O7 y C1-N2-C3-C4-C5-C6-
O7, siendo la frecuencia de participación de este grupo de vértices f1, 2, 4 igual a 2 [ver la
entrada (1, 2, 4) en la matriz triple representada en la figura 11].
Tabla I. Subgrafos Conexos de todos los órdenes y tipos posibles para el Grafo
molecular de la N,N-dimetlpropionamida.
Orden Tipo Sub-grafo Orden Tipo Sub-grafo
Orden 0
paths C1
Orden 3
paths C1-N2-C3-C4
paths N2 paths C1-N2-C3-O7
paths C3 cluster C1-N2-C3-C6
paths C4 paths N2-C3-C4-C5
paths C5 paths N2-C3-C6-O7
paths C6 paths N2-C3-C4-C6
paths O7 cluster N2-C3-C4-O7
Orden 1
paths C1-N2 paths C3-C4-C5-O7
paths N2-C3
Orden 4
paths C1-N2-C3-C4-C5
paths N2-C6 paths-cluster C1-N2-C3-C4-O7
paths C3-C4 paths-cluster C1-N2-C3-C4-C6
paths C3-O7 paths N2-C3-C4-C5-C6
paths C4-C5 paths-cluster N2-C3-C4-C5-O7
Orden 2
paths C1-N2-C3 paths-cluster N2-C3-C4-C6-O7
paths C1-N2-C6 paths-cluster C1-N2-C3-C6-O7
paths N2-C3-C6
Orden 5
paths-cluster C1-N2-C3-C4-C5-C6
paths N2-C3-C4 paths-cluster C1-N2-C3-C4-C5-O7
paths N2-C3-O7 paths-cluster N2-C3-C4-C5-C6-O7
paths C3-C4-C5 paths-cluster C1-N2-C3-C4-C6-O7
paths C3-C4-O7 Orden 6 paths-cluster C1-N2-C3-C4-C5-C6-O7
MARCO TEÓRICO
31
2.5 Índices de Derivada del Grafo basado en relaciones de n-
átomos Con los elementos de la hipermatriz de frecuencias es posible computar índices de
Derivada Discreta de Grafos para n-elementos según extensiones de la fórmula de
derivada de duplas, propuestas todas por Gorbatov (22). Así mismo la derivada sobre
ternas de átomos puede determinarse según:
(2.9)
Donde fi es la frecuencia propia del elemento i y fij y fijk representan las frecuencias de
participación simultáneas de los elementos ij e ijk respectivamente.
Para cuaternas de elementos la formula extendida de derivada será:
(2.10)
Donde fijkl es la frecuencia recíproca de los elementos i j k y l. En ese sentido es
posible determinar las derivadas para n-elementos de un grafo teniendo en cuenta la
siguiente formulación:
(2.11)
Partiendo de los valores de derivada, es posible, construir una matriz análoga a la
matriz de frecuencia, o sea una matriz D=[dij]nxn en la cual dij es la valor de la derivada
sobre los vértices vi y vj. Esto es generalizable para la derivada sobre ternas (vértices vi,vj
y vk) y cuaternas (vértices vi,vj, vk y vl).
3,2,1 3,2,1,,3,2,1,,
,,3,2,1
321 321
),,(mmmi mmmjiji
mmmkjikjkiji
ijkiji
mmm
ffff
mmmS
G
i
jiji
kjkijikji
lkljkjlikijilkji
ijklijkiji
mmmm
dcba fffff
mmmmS
G
dcba,
,,,,
,,,,,,,,
4321
),,,(
21
21
121
21
121
21
212121
121,
,...,...,
,...,,...,,
...
1
...
1
...
21 )1(...)1(...21
),...,(
iiii
iiiiiii
iiiiiii
iii
n
iiiii
i
i
mmm
n
nn
n
n
n
fnffff
mmmS
G
MARCO TEÓRICO
32
Figura 11. Hipermatriz de tres dimensiones generada para organizar frecuencias de
participación de elementos del grafo molecular de la N,N-dimetlpropionamida.
Se calcula el índice atómico de la misma forma que se hace para duplas, o sea,
sumando todos los valores de derivada que incluyen al vértice vi o sumando los
elementos de las filas o columnas de la matriz de derivada. Por tanto el índice atómico
constituye una invariante local sobre cada vértice (LOVI), análogo al grado del vértice δ
obtenido a partir de la matriz de adyacencia usado para el cálculo de los índices de
conectividad molecular. Así para el cálculo de los LOVIs a partir de las derivadas sobre
ternas se emplean las siguiente sumatoria:
(2.12)
Para cuaternas:
(2.13)
De este modo obtendremos un vector constituido por los n LOVIs correspondientes a
los n-vértice de la molécula en cuestión.
Si se continúa con la molécula de ejemplo de la figura 10, será posible, siguiendo las
ideas anteriormente expuestas, cuantificar las derivadas sobre ternas de átomos como se
ilustra a continuación:
( )
( ) ( ) ( )
Análogamente para el resto se encuentran los valores:
n
j
n
k
i kjiS
G
1 1
),,(
n
j
n
k
n
l
i lkjiS
G
1 1 1
),,,(
MARCO TEÓRICO
33
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
Aplicando la ecuación 2.12 se pueden encontrar los valores de LOVIs que
organizados en forma de vector quedaría: VL = (56.704, 28.537, 26.768, 35.350, 65.650,
56.704, 54.752). Es interesante notar que los átomos 1 y 6 poseen idénticos valores de
índices atómicos, lo que coincide con la realidad química de esta estructura pues ambos
átomos son químicamente equivalentes en la estructura molecular y poseen ambientes
químicos muy similares. Así mismo se observa un decrecimiento de los valores de
MARCO TEÓRICO
34
LOVIs desde los átomos externos o periféricos hacia el los átomos centrales de la
estructura, identificándose así además los átomos más internos y diferenciándoles de los
más externos.
Es posible extender esta definición local sobre átomos individuales a índices totales
y/o locales sobre agrupaciones atómicas de interés mediante la aplicación de operadores
matemáticos, colectivamente llamados invariantes como se definió en la sección
anterior. La codificación de heteroátomos y enlaces múltiples se realizan de igual
manera que para el caso de duplas, como se explicó en la sección anterior.
2.6 Química grafo-teórica y Topología molecular.
2.6.1 Introducción a la Química Grafo-Teórica y a la Topología
Molecular.
La teoría de grafos ha sido ampliamente aplicada a diversos campos de la ciencia. Un
grafo se expresa usualmente como vértices interconectados por aristas. Donde cada
vértice del grafo se representa un objeto y la arista que conecta dos vértices representa la
relación entre estos dos objetos (20, 22). En la química grafo-teórica los objetos del
grafo pueden representar orbitales, átomos (o sus núcleos), enlaces, grupos de átomos,
moléculas, o colecciones de moléculas. Las aristas de un grafo químico simbolizan las
interacciones entre objetos químicos y se usan para definir enlaces químicos, reacciones,
mecanismos de reacciones, modelos cinéticos, u otra relación o transformación de los
objetos químicos. Estas representaciones de los grafos químicos han encontrado
numerosas aplicaciones en la química, como son: 1) los índices topológicos (ITs) y otros
índices estructurales para los estudios QSAR (42-47) 2) el enfoque de orbitales
moleculares de Hückel (48, 49) 3) la enumeración de isómeros, percepción de simetría
estructural y codificación de compuestos químicos (50, 51) 4) grafos cinéticos y de
reacción (52) y 4) el diseño de síntesis asistida por computadora (53).
De todas estas aplicaciones mencionadas, la de mayor interés para el presente trabajo
es aquella relacionada con la obtención de descriptores estructurales para el diseño
molecular. Estos índices codifican información a partir de una determinada
representación simbólica de la estructura molecular.
2.6.2 Representación topológica de moléculas La representación topológica de un objeto es aquella que brinda información sobre el
número de elementos que lo componen y sus conectividades. En ese sentido, se define a
MARCO TEÓRICO
35
la topología como aquella parte del álgebra que estudia las posiciones e interconexiones
de los elementos dentro de un conjunto. Si la topología es aplicada a las moléculas, da
lugar a la topología molecular (54). Por tanto, puede considerarse que una
representación topológica de la molécula puede ser obtenida utilizando un grafo
molecular.
2.6.3 Invariante grafo-teórica. Los grafos moleculares no son una representación numérica de la estructura química
y aunque las matrices sí constituyen una representación algebraica, tienen como
desventaja que no constituyen invariantes grafo-teóricas, ya que su construcción
depende de la numeración dada a los vértices del grafo.
Una invariante grafo-teórica es aquella propiedad del grafo que no depende del orden
de numeración de los elementos del mismo, las cuales pueden obtenerse por
manipulación algebraica del grafo. Por ejemplo, una simple invariante como el número
de vértices, puede obtenerse a partir de la matriz de adyacencia. Resulta evidente, que
para los estudios QSAR, el diseño de fármacos, el tamizaje virtual, etc. se necesitarían
obtener índices numéricos que caractericen estructuralmente los grafos moleculares y
que estos índices sean inevitablemente invariantes. Estos descriptores invariantes
obtenidos de representaciones grafo-estructurales de las moléculas son los conocidos
como Índice Topológico (ITs) (43-45, 55). Todas las formas de abordar el concepto de
IT son de vital importancia para el desarrollo posterior de este trabajo, como se verá más
adelante.
Hasta el momento han sido definidos y aplicados en diversos estudios teóricos un
número considerable de ITs como se mencionó en la introducción. Para facilitar su
estudio este tipo de descriptores han sido agrupados por generaciones con algunas
diferencias tangibles entre estos grupos, como se detalla en los sub-epígrafes siguientes.
2.6.4 Índices bidimensionales (2D) basados en la topología molecular.
Los índices topológicos (ITs) son descriptores moleculares que se obtienen de una
invariante grafo-teórica (29, 56, 57). Por tanto, los ITs son números calculados a partir
de la representación de una molécula como un grafo, siendo independientes de la
numeración de los vértices y aristas en el grafo molecular. Estos índices codifican
información estructural contenida en la representación bidimensional (2D) de la
molécula. La descripción ‘topológica’ de la molécula debe contener información de la
MARCO TEÓRICO
36
conectividad entre átomos (o enlaces) en la molécula y codificar la talla, forma,
ramificación, heteroátomos y la presencia de enlaces múltiples (46, 58).
Un resumen completo sobre los ITs se hace muy difícil, debido a la gran cantidad de
estos índices que han sido publicados en la literatura y al número de ellos que cada año
son introducidos. Por tanto, a continuación se relacionan algunos de los ITs que más
ampliamente han sido aplicados a diferentes problemas relacionados con la estructura y
aquellos que son más importantes para los objetivos del presente trabajo. Actualmente
los ITs han sido clasificados acorde a su naturaleza en, primera, segunda y tercera
generación (59), lo cual facilita su estudio.
Un tratamiento abarcador de todos los descriptores moleculares disponibles fue
recientemente publicado por Todeschini y Consonni (9).
2.6.5 Índices topológicos de primera generación.
Los ITs de primera generación son números enteros basados en propiedades del grafo
como un todo, tales como las distancias topológicas. Los índices más representativos de
esta clase son el índice W de Wiener (60), el índice Z de Hosoya (61), y los índices B y
C de Balaban (62). De todos estos ITs solo W ha sido usado extensamente en estudios
QSAR y en el descubrimiento de nuevos fármacos. El índice de Wiener fue definido en
1947 y desde entonces ha constituido una importante fuente de inspiración para el
desarrollo de nuevos ITs.
ij
N
ijj
N
i
GDGW
11
)(2
1)( (2.14)
Los resultados obtenidos con el índice W en la modelación molecular propició la
definición de varios índices relacionados con este. Algunos de estos son el cuasi-Wiener
índice (63), el índice RDSUM (64), y el hiperíndice de Wiener (65, 66), entre otros.
La suma de los grados de cada enlace fue introducido, al mismo tiempo que el índice
de Wiener, por Platt; por lo cual este es conocido como el índice F de Platt (67). Otro de
los ITs de primera generación que también ha sido ampliamente utilizado en estudios
QSAR, es el índice de Zagreb desarrollado en 1975 utilizando las valencias de los
átomos (68).
∑ ( )
(2.15)
( ) ( ) (2.16)
MARCO TEÓRICO
37
2.6.6 Índices topológicos de segunda generación.
Estos índices son números reales basados en las propiedades del grafo íntegro. La
mayoría de los ITs utilizados en los estudios QSAR y en el diseño/descubrimiento de
fármacos en estos momentos, pertenecen a esta clase. El conjunto de descriptores
moleculares más útiles de esta clase, son los llamados índices de conectividad molecular
(44, 45, 69). Estos índices están basados en una invariante grafo-teórica introducida por
Randic 39 años atrás, para computar un índice de ‘ramificación’ para los alcanos (70).
Estos índices fueron extendidos por Kier y Hall para tener en cuenta la diferenciación
entre heteroátomos y los diferentes subgrafos en la molécula. Los índices de
conectividad molecular de ‘valencia’ son expresados de la siguiente forma (44, 45, 69):
∑ ∏ (
)
(2.17)
Donde, s es el número de subgrafo de tipo t (camino, cluster, camino-cluster y
cadena) con m aristas, n es el número de vértices del subgrafo y jv
es la valencia
atómica computada utilizando la siguiente fórmula (Ec. 2.18):
(2.18)
Donde Ziv es el número de electrones de valencia del átomo i, Zi son todos los
electrones del átomo i y Hi es el número de átomos de hidrógeno unidos a este átomo.
Balaban introdujo en 1982 como modificación de los índices de conectividad el
índice J de Balaban, el cual es un índice de conectividad basado en las distancias
promedios y fue definido de la siguiente forma (71):
2/1
1
bonds
ji vDvDm
J
(2.19)
Donde D(vi) es la suma de todas las distancias topológicas relacionadas con el átomo
i. Es decir, la suma de todas las entradas de las filas o columnas de la matriz de distancia
(D) correspondiente para un átomo i; es el número ciclomático.
Gálvez y colaboradores han introducido una serie de descriptores grafo-teóricos con
el objetivo de completar la información estructural contenida en los índices de
conectividad molecular. Entre estos descriptores, de probada utilidad en el diseño de
fármacos, el índice de carga aparece entre los más interesantes (72). Los ITs de carga Gk
y Jk son definidos de la siguiente forma:
MARCO TEÓRICO
38
1
1 1
),(n
i
ij
n
ij
ijk dkCTG
(2.20)
)1( nGJ kk (2.21)
Donde CTij = mij– mji, y m son los elementos de la matriz auxiliar M definida como:
M = AxD*. La matriz D
* es la matriz de los inversos de las distancias cuadradas, en la
cual sus entradas en la diagonal se toman como 0 y es la delta de Kronecker.
La mayoría de los ITs analizados hasta ahora describen la estructura de la molécula
como un todo por lo tanto pueden considerarse como descriptores moleculares globales.
Kier y Hall, a comienzos de la década del 90, introdujeron un nuevo IT denominado
índice del estado electrotopológico (E-estado); basado en una invariante grafo-teórica
para cada átomo en la molécula, representando la accesibilidad de electrones de este
átomo. Este índice puede ser considerado como un descriptor molecular local; el mismo
codifica información acerca del ambiente topológico y de las interacciones electrónicas
debidas a todos los demás átomos en la molécula. El índice del E-estado para un átomo i
en una molécula se define como (42, 46, 73,74):
j
ijii IIS
(2.22)
El término de perturbación de un átomo i por cualquier otro átomo j (se toman todos
los átomos diferentes de i) se define de la siguiente forma:
( )
(2.23)
Donde, ijd es la distancia topológica que separa los átomos i y j en el grafo
desprovisto de hidrógenos. Los valores intrínsecos son definidos como:
( )
(2.24)
Donde N es el número cuántico principal para los electrones de valencia del átomo i.
El valor de Si para un átomo i puede ser visto, como una suma de efectos de los
átomos del esqueleto molecular a varias distancias de i sobre este último:
2/4/ ij
j
ji
j
jiii dIIIIIS (2.25)
El primer término es un valor intrínseco definido con anterioridad, el segundo son las
contribuciones de los átomos enlazados y el último representa las contribuciones de los
átomos no enlazados.
MARCO TEÓRICO
39
Adicionalmente, investigadores de nuestro país han realizado apreciables aportes en
la introducción de nuevos ITs. Desde mediados de los 90 Estrada y col. han definido
varios ITs, entre los que destaca como de mayor interés en estudios quimio-
bioinformáticos los Momentos Espectrales de la matriz de adyacencia entre aristas
[E(G)] de un grafo molecular (58, 75-83). De esta forma el momento espectral de orden
k se define como la traza de la k-ésima potencia de la matriz E y su símbolo esk (79). A
su vez, la traza se define como la suma de los valores de la diagonal principal. Lo
anterior se puede expresar matemáticamente de la siguiente manera:
m
iiiekkETr
k1
)(
(2.26)
Donde, keii son los elementos de la diagonal principal de la matriz E
k. De la definición
dada de E y k, se observa que los momentos espectrales son números enteros positivos.
Para lograr diferenciar las moléculas con heteroátomos a través de los momentos
espectrales, las aristas del grafo molecular son ponderadas con determinados pesos (dij),
lo que aumenta notablemente las posibilidades y versatilidad del método. Mediante los
dij se pueden introducir de manera natural, en la diagonal principal de la matriz,
propiedades medias de los enlaces como son: la distancia, la polarizabilidad, el dipolo
medio de enlace, etc. Además, se han definido los momentos espectrales locales de la
matriz de adyacencia entre enlaces del grafo molecular desprovisto de hidrógeno, (58)
pudiendo estar la matriz ponderada o no, en la diagonal principal.
Carrasco y col. introdujeron recientemente un nuevo índice denominado índice del
estado refractotopológico (i) (84). El mismo es un índice híbrido y se define como el
valor de refractividad intrínseca de un átomo i, más un término de perturbación para un
grafo sin hidrógenos suprimidos. Matemáticamente se define de la siguiente manera:
iii ARAR
(2.27)
Donde ARi el valor de refractividad intrínseca de un átomo i y ARi es un término de
perturbación definido por:
n
j
ijjii rARARAR1
2/)(
(2.28)
Marrero-Ponce y col. desarrollaron un nuevo enfoque basado en una representación
vectorial y otra matricial de la estructura molecular. Estas están a su vez relacionadas
MARCO TEÓRICO
40
con la representación grafo-teórica por medio de un pseudografo de la estructura
química. Estos nuevos índices se conocen como índices cuadráticos, índices lineales e
índices bilineales por analogía a las formas cuadráticas, lineales y bilineales (15,55,
85,86). Los índices cuadráticos se definen matemáticamente de la siguiente manera (12,
85-89).
n
j
jiij
kn
i
k xxmxq11
)( =[X]tM
k[X] (2.29)
Donde, mij= mji (matriz cuadrada simétrica), n es el número de átomos de la molécula
y x1,…,xn son las coordenadas del vector molecular ( x ) en la base canónica {e1,…,en} de
Rn.
La definición local de estos descriptores se basa en invariantes grafo-teóricas para un
fragmento FR dado, dentro de un pseudografo específico y es la siguiente:
n
j
jiijL
kn
i
kL xxmxq11
)( =[X]tM
kL[X] (2.30)
Donde n es el número de átomos del fragmento de interés y kmijL es el elemento de la
fila “i” y columna “j” de la matriz Mk
L≡ Mk(G, FR) [qkL(x) ≡ qk(x, FR)]. Esta matriz se
extrae de la matriz k-ésima potencia de M y contiene la información referida a los
vértices del fragmento FR de interés y también de su entorno molecular. Todos estos
índices moleculares algebraicos basados en aplicaciones cuadráticas, lineales y formas
bilineales, están siendo utilizados de forma satisfactoria en estudios QSAR/QSPR y el
descubrimiento de nuevos compuestos bioactivos.
2.6.7 Índices topológicos de tercera generación.
Los ITs de tercera generación son números reales basados en propiedades locales del
grafo molecular. Estos índices son de reciente publicación (90-92). Otros de los ITs de
esta clase están basados en la aplicación de la teoría de la información a términos de
sumas de distancias o sobre nuevas matrices no simétricas introducidas en la literatura
(93-98).
En esta tesis se presentan nuevas familias de Índices Topo-químicos basados en la
derivada discreta de un grafo que parten de matrices no simétricas y una descripción
local a nivel atómico, por lo que perfectamente pueden ubicarse en esta última clase.
MARCO TEÓRICO
41
2.7 Propiedades que debe poseer un nuevo índice topológico. M. Randic propuso una lista de propiedades que deben poseer los nuevos ITs, (99)
consideradas actualmente de muy alto nivel de sofisticación. Estas propiedades son las
siguientes:
1) Interpretación estructural directa
2) Buena correlación con al menos una propiedad
3) Buena discriminación entre isómeros
4) Localmente definidos
5) Generalizables a análogos superiores
6) Linealmente independientes
7) Simplicidad
8) No basados en propiedades físico-químicas
9) No trivialmente relacionados con otros índices
10) Eficiencia de construcción
11) Basados en conceptos estructurales familiares
12) Mostrar una dependencia correcta con el tamaño
13) Tener cambios graduales con cambios graduales en la estructura
Muchos de estos atributos tienen cierto grado de interrelación.
Al emplear los ITs para la caracterización de una molécula intrínsecamente tenemos
cierta pérdida de información, ya que se está tratando de representar un objeto
tridimensional por un número simple. Sin embargo, los ITs pueden contener una
sorprendente cantidad de información estructural sobre las moléculas, lo que los hace de
gran utilidad en los fines prácticos de sus aplicaciones. Existen dos posibilidades de
resolver la pérdida de información de los descriptores grafo-teóricos. La primera,
consiste en la generalización de un descriptor simple a análogos ‘superiores’ y segunda,
la generalización de la invariante grafo-teórica como secuencias de números. La
generalización de los índices es necesaria para salvar situaciones en las que un descriptor
simple no es suficiente y la investigación de una familia de descriptores estructuralmente
relacionados puede resolver el problema.
La independencia lineal u ortogonalidad de los índices es uno de los atributos
deseables numerados anteriormente, pues los descriptores colineales pueden afectar la
‘estabilidad del coeficiente de determinación’ y dificulta la interpretación de los modelos
obtenidos. En este sentido, es importante también que los descriptores sean ortogonales
MARCO TEÓRICO
42
en relación a los restantes ITs. Esta independencia lineal de los índices significa que los
mismos conduzcan a la correlación con una propiedad que no es satisfactoriamente
explicada por los otros descriptores existentes.
La definición local de los descriptores se refiere al hecho de que estos no sean
obtenidos de forma global para una estructura molecular, sino que puedan ser definidos
sobre determinados fragmentos o átomos individuales de la propia estructura. Un índice
con esta característica aumenta notablemente sus posibilidades en la descripción de la
mayoría de las propiedades/actividades moleculares. Debe tenerse en cuenta que en
muchos casos el valor de la propiedad una sustancia depende en mayor medida de una o
varias regiones específicas de la estructura que de la molécula en su totalidad.
Lograr una interpretación en, al menos, términos estructurales, es otro de los atributos
deseables para un nuevo IT, ya que desde el punto de vista de su aplicación en estudios
QSAR, solo aquellos índices que estén basados en conceptos estructurales simples
ayudarán a interpretar propiedades complejas en términos estructurales y/o químico-
físicos.
2.8 Métodos Quimiométricos.
2.8.1 Quimiometría en la Informática Química.
El término quimiometría surgió en la década del 70 y se define como la disciplina
química que utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los
métodos analíticos y preparativos, así como procedimientos para el análisis e
interpretación de los datos (100). Las técnicas utilizadas para la recopilación, la
elaboración, el análisis y la caracterización de conjuntos de datos, hoy en día, se
interceptan no solo con varios campos de la Matemática y la Estadística clásica sino
también de la Inteligencia Artificial (IA) y otras ramas de la ciencia de la computación
(101, 102). En esta sección serán abordadas solo aquellas herramientas que serán de
interés en el presente trabajo.
2.8.2 Regresión lineal múltiple (RLM)
El análisis de regresión múltiple es una técnica estadística que puede utilizarse para
analizar la relación entre una única variable dependiente (criterio) y varias variables
independientes (predictores) (103). Así mismo, la regresión múltiple remite a la
correlación múltiple, que se representa por R. Sus fundamentos se hallan en la
correlación de Pearson (104). La recta de regresión múltiple tiene la siguiente forma:
MARCO TEÓRICO
43
(2.31)
Siendo ‘a’ un valor constante, Y la variable dependiente y X1, X2,…Xn variables
predictoras. Como puede observarse, la RLM puede utilizarse en la predicción de los
valores de la variable dependiente, en base a una combinación de variables
independientes y los coeficientes que ponderan las variables independientes en la
ecuación 2.31 son normalmente determinados por el método de mínimos cuadrados.
2.8.3 Principio de la parsimonia para seleccionar el número óptimo de
variables.
La R2 (coeficiente de determinación) aumenta en la medida en que se añaden
variables a la ecuación de regresión, pero a partir de cierto punto el incremento de R2
para cada nueva variable que se añade, es insignificante. Un buen modelo no debe
presentar ni demasiadas variables, ni debe olvidar las que sean verdaderamente
relevantes. Es decir, debe cumplir el principio de parsimonia, según el cual un
fenómeno debe ser descrito con el número mínimo de elementos posibles.
Diversos procedimientos se han propuesto para seleccionar el número óptimo de
variables a incluir en la ecuación, como por ejemplo la ‘forward selection’, ‘backwar
delimination; y ‘stepwise selection’ (105). Este último método es el más utilizado (es
una combinación de los dos anteriores) y sigue un proceso de selección de variables
paso a paso.
2.8.4 Análisis de la varianza.
El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0.
La variabilidad total de la variable dependiente se divide entre la parte atribuible a la
regresión y la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide
en dos partes (104):
YYYYYY iiii
(2.32)
Siendo iY el valor predicho por la ecuación de predicción. El valor
ii YY ,
denominado residual de la regresión sería cero si la recta pasase exactamente por encima
del punto Yi. El otro valor, YYi corresponde a la distancia explicada por la regresión y
representa el aumento en la estimación de Yi mediante la recta de regresión.
MARCO TEÓRICO
44
2
2
2 1
yyi
yiyi
q
En el ANOVA, F viene dada por:
residual
regresion
MC
MCF
(2.33)
Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -
1; siendo υ el número de variables de la ecuación. La media cuadrática (MC) se obtiene
dividiendo la suma de cuadrados por los grados de libertad. La F sirve para comprobar si
el modelo de regresión se ajusta a los datos y permite evaluar si se rechaza la hipótesis
nula, según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta a los
datos, el coeficiente de determinación (R2) se puede calcular a partir de las suma de
cuadrados (SC) del ANOVA mediante:
total
residual
SC
SCR 12
(2.34)
2.9 Validación Interna y Externa de modelos.
2.9.1 Validación Interna.
La validación cruzada (VC) opera haciendo un número (X) de reducidas
modificaciones al conjunto de compuestos de la data original y entonces calcula la
precisión de las predicciones de cada uno de los resultados de los modelos (106, 107).
Es decir, se ajusta el modelo a los nuevos datos, dejando la parte omitida fuera, y estos
se evalúan en el modelo para computar las predicciones de los casos que fueron
excluidos. Este procedimiento se repite para cada conjunto de datos modificados. El
poder predictivo del modelo puede expresarse como q2, denominado como la ‘varianza
predictiva’ o la ‘varianza de la validación cruzada’, la cual es igual a (1-PRESS/SSY), o
sea que puede ser calculado acorde a la siguiente fórmula:
(2.35)
Donde, ̂ ̅ es la respuesta observada, estimada y media del i-ésimo caso,
respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da
N grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo de
Leave-One-Out). No obstante, Shao ha mostrado que desde el punto de vista teórico y
práctico, el procedimiento de dejar ‘varios’ fuera(LSO, acrónimo de Leave-Several-Out)
es preferible al LOO (108). En la técnica de re-muestreo (109-111) se seleccionan varias
muestras (miles o cientos de miles) de un conjunto de datos de forma aleatoria con
MARCO TEÓRICO
45
reemplazo para crear “pseudorréplicas” de la data, y se calculan los estadísticos
relevantes para cada pseudorréplica, de las cuales se construye una distribución de re-
muestreo. El promedio de esta distribución constituye el estimado del re-muestreo. El
método del revuelto es empleado para evaluar la correlación al azar (112, 113). En esta
técnica, se calcula un modelo de regresión lineal para la verdadera variable respuesta (y)
junto con un número de regresiones repetidas (200-300 veces) con las mismas variables,
pero con la variable dependiente aleatoriamente revuelta (ỹ). Luego se calcula para cada
modelo la varianza explicada Q2
LOO, y se evalúa la correlación entre la respuesta
verdadera y la revuelta de la siguiente manera:
( )̃ (2.36)
Donde, la es la varianza explicada para el modelo obtenido con los mismos
predictores teniendo el k-ésimo vector revuelto, es la correlación entre los vectores
para la respuesta verdadera y la k-ésima revuelta. Un valor del intercepto cercano a cero
implica que el modelo no es obtenido al azar mientras que un intercepto grande indica
que los modelos aleatorios poseen el mismo desempeño que el modelo verdadero, por lo
que se pudiera considerar aleatorio.
2.9.2 Validación externa.
La validación externa permite evaluar si los modelos obtenidos son generalizables a
nuevos compuestos químicos y el “verdadero” poder predictivo de los mismos (112).
Para esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir
el modelo) y la serie de predicción (no utilizada en la selección de variables ni en el
desarrollo del modelo, pero usada exclusivamente para evaluar el modelo tras su
formación).
2.10 Outliers. Técnicas para la selección de los mismos. Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado
(no se ajustan al modelo) o son pobremente predichos por estos, afectando los
parámetros estadísticos del mismo (114). Generalmente, la identificación de ‘outliers’
busca un mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado por
Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos
para T. Pyriformis (115). En este estudio, para un total de 140 compuestos solo se
obtuvo un moderado ajuste estadístico (R2 = 0.753). Sin embargo, al remover cinco
MARCO TEÓRICO
46
outliers R2
aumentó hasta 0.853 (115). Existen varias técnicas para detectar la presencia
de ‘outliers’, tales como: los análisis de los residuales estandarizados, los residuales
studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el
método de dejar “varios” fuera.
2.11 Algoritmo Genético como método de selección de
parámetros. Cuando se habla de algoritmos genéticos, hay que mencionar a John Holland que en
1975 sienta las bases para sus posteriores desarrollos hasta llegar a lo que se conoce hoy
por algoritmos genéticos actuales. Según D. Goldberg los AGs son:
Algoritmos de búsqueda basados en los mecanismos de selección natural y genética
natural. Combinan la supervivencia de los más compatibles entre las estructuras de
cadenas, con una estructura de información ya aleatorizada, intercambiada para construir
un algoritmo de búsqueda con algunas de las capacidades de innovación de la búsqueda
humana (116).
Un AG no es más que un método de búsqueda que imita la teoría de la evolución
biológica de Darwin (1859) para la resolución de problemas. Para ello, se parte de una
población inicial de la cual se seleccionan los individuos más capacitados para luego
reproducirlos y mutarlos, y de esa forma obtener finalmente la siguiente generación de
individuos que estarán más adaptados que la anterior generación.
En la naturaleza todo el proceso de evolución biológica se hace de forma natural pero
para aplicar el AG al campo de la resolución de problemas habrá que seguir una serie de
pasos. Como premisa se debe conseguir que el tamaño de la población sea lo
suficientemente grande para garantizar la diversidad de soluciones. Se aconseja que la
población sea generada de forma aleatoria para obtener dicha diversidad.
Los pasos básicos de un algoritmo genético son:
• Evaluar la puntuación de cada uno de los cromosomas generados.
• Permitir la reproducción de los cromosomas siendo los más aptos los que tengan
más probabilidad de reproducirse.
• Con cierta probabilidad de mutación, mutar un gen del nuevo individuo generado.
• Organizar la nueva población.
Estos pasos se repetirán hasta que se dé una condición de terminación. Se puede fijar
un número máximo de iteraciones antes de finalizar el algoritmo genético o detenerlo
cuando no se produzcan más cambios en la población (convergencia del algoritmo). Esta
MARCO TEÓRICO
47
última opción suele ser la más habitual. La figura 12 muestra el esquema general de un
algoritmo genético simple.
Figura 12. Esquema general de un AG simple.
2.12 Análisis de Variabilidad (AV).
El método de AV, propuesto por Godden y colaboradores, (60, 117) cuantifica el
contenido de información y, por lo tanto, la variabilidad de los DMs, basado en el
concepto de entropía de Shannon. Para esto se introduce un procedimiento de
discretización empleando los histogramas de distribución de frecuencias. Sea p(x)i la
probabilidad de que el caso c esté en intervalo i, para un número de intervalos N se
construye una función de distribución de probabilidades, P(X), a la cual se le aplica la
ecuación:
(2.37)
De esta forma se obtiene la entropía de cada variable (DMs), siendo elevada para
variables de alta variabilidad y mínima para las de poca variabilidad en la data. De esta
manera, esta técnica permite evaluar la calidad de los DMs como entidades
independientes y se ha utilizado en la literatura para comparar el desempeño de
conjuntos de DMs implementados de diferentes paquetes computacionales, así como en
estudios de diversidad molecular (97,118,119).
MATERIALES Y MÉTODOS
“La educación es aquello que permanece cuando uno ha olvidado todo lo aprendido en
el colegio.” Albert Einstein
MATERIALES Y MÉTODOS
48
3 MATERIALES Y MÉTODOS.
3.1 Bases de datos empleadas. En este trabajo se utilizaron 9 bases de datos congenéricas, con compuestos
agrupados y reportados por Sutherland y colaboradores (120), las cuales han sido
ampliamente utilizadas con el fin de validar descriptores moleculares tanto 3D como 2 y
2.5D. Las mismas cuentan con un total de nueve conjuntos de datos de compuestos de
diferentes familias cada una con su actividad reportada pIC50(concentración inhibitoria
media) y pKi (constante de inhibición), agrupadas de la siguiente manera: A) ACE
cuenta con 114 compuestos inhibidores de la enzima convertidora de angiotensina, con
valores de actividad inhibitoria dispersados en un amplio rango, los valores pIC50 van
desde 2,1 hasta 9,9; B) AchE, la misma dispone de 111 compuestos inhibidores de la
acetilcolinesterasa, con valores de pIC50 que van desde 4,3 a 9,5; C) BZR presenta un
conjunto de 163 ligandos del receptor de benzodiacepinas, donde los valores de pIC50 se
encuentran dispersos desde 5,5 a 8,9; D) COX2 la cual cuenta con un total de 322
inhibidores da la enzima ciclooxigenasa-2, los inhibidores de esta familia presentan
valores de pIC50 que van de 4,0 a 9,0; E) DHFR presentando un total de 397
compuestos, todos inhibidores de la enzima dihidrofolato reductasa, la enzima utilizada
para la evaluación de la capacidad inhibitoria de estos compuestos fue extraída del
hígado de rata y muestran valores de pIC50 entre 3,3 y 9,8; F) GPB la misma presenta 66
inhibidores de la glucógeno fosforilasa-b y presentan valores de pKi entre 1,3 y 6,8; G)
THER, la cual dispone de 76 inhibidores de la termolisina , los cuales presentan valores
de pKi entre 0,5 y 10,2; H) THR que presenta 88 inhibidores de la trombina y presentan
valores de pKi que van desde 4,4 a 8,5. En la figura 13 se muestran algunos compuestos
presentes en estas bases de datos.
MATERIALES Y MÉTODOS
49
Figura 13. Compuestos representativos de las primeras 8 bases de datos: (A)
Enalapril (ACE); (B) E2020 (AchE); (C) Ro14-5974 (BZR); (D) Celecoxib (COX2);
(E) Metrotexato (DHFR); (F) Espirohidantoinaglucopiranosa (GPB); (G) ZPLA
(THER); (H) Nafto-derivado del 4-TAPAP (THR) (120).
Los compuestos en cada base de datos fueron divididos en serie de entrenamiento y
serie de predicción. Alrededor del 33% de los compuestos fueron asignados a la serie de
predicción, mientras que los restantes componen la serie de entrenamiento. El
procedimiento de selección de ambos conjuntos fue desarrollado por Sutherland y
colaboradores (120).
Además fue utilizada la base de datos de esteroides de Cramer, la cual también
pertenece al conjunto de datas reportadas por Sutherland como adecuada para validar
descriptores moleculares; la misma cuenta con 31 compuestos mostrados algunos en la
figura 14 a la cual se le modela la (constante de afinidad) escrita por pK (log1/K). En el
estudio todos los compuestos fueron incluidos en la serie de entrenamiento (121). A
continuación se muestran algunos compuestos representantes de esta data:
Figura 14. Algunos de los compuestos del conjunto de datos de los esteroides de
Cramer.
MATERIALES Y MÉTODOS
50
3.2 Herramientas computacionales.
3.2.1 Programas Informáticos desarrollados en el CAMD-BIR.
3.2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo.
La definición de los nuevos DMs tiene como propósito final su uso como una
herramienta para el diseño molecular y diversos estudios teóricos, es por ello muy
importante facilitar, desde un punto de vista computacional, el cálculo de estos
descriptores para que pueda ser utilizado por cualquier investigador interesado, sin que
el mismo cuente con grandes conocimientos de informática. Con este fin se desarrolló
un programa informático interactivo en el lenguaje de programación JAVA (Figura 15)
denominado DIVATI (Acrónimo DIscrete DeriVAtive TypeIndices), un nuevo módulo
del programa TOMOCOMD-CARDD (122) 1.0 (acrónimo de TOpological Molecular
COMputer Design Computed-Aided ‘Rational’ Drug Design). Este programa carga las
estructuras en ficheros de formato .MDL, .mol y .sdf y permite salvar los descriptores
calculados en ficheros de tipo .txt, .xls, .xlsx y .csv.
Figura 15.Interfaz gráfica del programa TOMOCOMD-CARDD y su módulo
DIVATI.
Este software facilita el cálculo de todas las familias de Nuevos índices basados en la
Derivada Discreta de un Grafo: Derivadas, Derivadas de Orden Superior y Derivadas
Mixtas, sobre pares (duplas), tríos (ternas) y cuartetos (cuaternas) de átomos en
cualquier tipo de estructura química orgánica (excluyendo macromoléculas poliméricas).
Para la diferenciación atómica se dispone de una serie de 21 ponderaciones (etiquetas)
atómicas, agrupadas en tres grandes grupos: Químicas [Número atómico (Z), Volumen
MATERIALES Y MÉTODOS
51
de Van der Walls (W), Polarizabilidad (P), Masa atómica (A), Radio covalente (R),
Electronegatividad de Pauling (E)], Físicas [Área superficial polar total (T),
Contribución atómica al logP (G), contribución atómica a la refractividad molar (M),
Carga (C)] y Topológicas basadas en diferentes criterios de Grados del Vértice [Grado
de valencia (N), Conectividad excéntrica (Y), Estado Electrotopológico (S), Grado del
vértice de Kupchik (K), Estado Intrínseco (I), Grado del vértice de enlace (B), Grado del
vértice de Li (D), Grado del vértice de Hu-Xu (H), Grado del vértice de Alikhanidi (L),
Grado del vértice deIvanciauc (V), Conteo de distancias (O)]. El programa permite
además realizar cálculos locales atómicos individuales y para grupos de átomos
[Heteroátomos (HT), Halógenos (HL), Aceptores de protones (AH), Donantes de
protones (DH), Carbonos Metilos (MC), Insaturaciones (IS), Grupos a una longitud k
(GL)]. Para los cálculos locales de grupos de átomos se aplican operadores matemáticos.
Si al evaluar estos operadores se tienen en cuenta todos los átomos de la molécula el
resultado será un cálculo global (total) de la molécula. En el software DIVATI estos
operadores han sido denominados colectivamente como invariantes y agrupados en
Normas, Medias, Estadísticos en Algoritmos Clásicos y constituyen una generalización
del uso de la combinación lineal de las contribuciones atómicas para definición global
de la molécula.
3.3 IMMAN Software. Análisis de Variabilidad (AV). La calidad de los nuevos descriptores, que se proponen en este trabajo, puede ser
evaluada y comparada si se emplea la técnica de AV basada en el cálculo de la SE para
estos índices (119, 123). Con esta técnica se estima la cantidad de información
codificada por los diferentes parámetros moleculares, como entidades independientes, y
luego se comparan los valores entrópicos de estos. Es importante en este método definir
el número de intervalos discretos a emplear, el cual es único para todas las variables que
se comparen. Esto permite que los DMs de diferentes unidades y rangos de valores sean
comparables. Adicionalmente, para comparaciones lógicas, es deseable que las datas que
se comparen tengan el mismo número de variables, por lo que en estudios donde se
compararon datas con diferentes números de variables, se aplicaron puntos de corte
teniendo en cuenta la de menor número de variables.
Con motivo de realizar el análisis de variabilidad de los parámetros moleculares
propuestos en el presente trabajo, se ha implementado una herramienta computacional
MATERIALES Y MÉTODOS
52
fundamentada en los conceptos de la teoría de información la cual se denomina IMMAN
(acrónimo de Information Theory based CheMoMetric ANalysis). Esta aplicación
permite el cálculo de la Entropía de Shannon (SE) a los DMs, además de otros
parámetros derivados de transformaciones matemáticas de la SE, tales como: la entropía
de Shannon estandarizada (sSE), la Negentropía (nSE), el índice de redundancia de
Brillouin (rSE), el índice de Gini (gSE) y el contenido de la energía de información
(iSE). Otros parámetros basados en la teoría de información implementados en este
programa incluyen la entropía diferencial generalizada (DSE) y la información de
Jeffrey (JI). Los formatos de ficheros de entrada para el IMMAN incluyen .txt (tabbed
ASCII files) y .csv (comma-separated value files). En la Figura 16 se muestra la
interfaz gráfica del software (aplicación visual).
Figura 16. Interfaz gráfica del programa IMMAN.
3.4 MobyDigs software. Regresión Lineal Múltiple (RLM). Los modelos de regresión QSAR (acrónimo de Quantitative Structure-Activity
Relationship) se obtuvieron con el programa MOBYDIGS (versión 1.0 – 2004) (124).
Los pesos de cada descriptor en la ecuación de regresión son determinados por el
MATERIALES Y MÉTODOS
53
método de mínimos cuadrados. Este programa utiliza el Algoritmo Genético como
método de selección de parámetros, lo que le permite evaluar un número elevado de
variables. En este estudio QSAR, se determinó el tamaño (grado de libertad) deseado
para los modelos a generar. Se optimizaron los modelos usando como función objetivo
(función de optimización) del algoritmo genético el estadístico Q2
LOO y se validaron
empleando las técnicas de re-muestreo [bootstrapping (Q2boot)], revuelto [Y-
scrambling:a(R2), a (Q
2)] y validación externa (Q
2ext). La selección del mejor modelo
fue desarrollada en términos del mayor coeficiente de correlación al cuadrado
[Coeficiente de determinación, (R2)] o de la F-test (razón de Fisher a nivel-p [p(F)]) y
la(s) ecuación(es) de la desviación estándar más baja. Se analizaron los parámetros
estadísticos Q2
LOO (validación cruzada “dejando uno afuera”) y el Q2
boot para evaluar la
calidad de los modelos. En la figura 17 podemos ver este software.
Figura 17. Imagen del software MobyDigs utilizado para la obtención de los
modelos de regresión lineal.
RESULTADOS “Lo más hermoso que podemos experimentar es
lo misterioso. Es la fuente de todo arte verdadero y la ciencia.”
Albert Einstein
RESULTADOS
54
4 ANÁLISIS Y DISCUSIÓN DE LOS RESULTADOS.
4.1 Nuevos Índices basados en conceptos de Derivada Discreta
de un Grafo de Orden Superior y Derivada Mixta. Teoría y
Aplicaciones.
4.1.1 Índices de Derivada de Orden Superior. Definición.
Para ilustrar la teoría que sustenta los índices de derivada discreta de orden superior
se hará uso de conceptos elementales de derivada discreta, mostrados anteriormente (ver
capítulo 2). Los conceptos y definiciones de este epígrafe serán introducidos a través de
un ejemplo y para ello se utilizará una molécula de estructura sencilla como la de
alanina, cuya estructura química se muestra a continuación (ver figura 18).
Figura 18. Estructura química de la molécula de alanina (ácido α-amino
propanoico.)
Obviando los átomos de hidrogeno y considerando cada átomo de carbono como un
vértice y los enlaces entre ellos, aristas, podemos entonces representar dicha molécula
con el siguiente grafo molecular:
Figura 19. Grafo molecular con hidrógenos suprimidos de la molécula de alanina
(ácido α-amino propanoico.)
Este grafo está en correspondencia con la estructura química anterior y en el mismo,
los átomos (vértices) se encuentran etiquetados con las letras y números: N1, C2, C3, C4,
O5, y O6. A su vez las letras minúsculas: a, b, c, d, y e constituyen aristas que
representan los enlaces químicos establecidos entre dichos átomos. Escójase entonces
uno de los sucesos anteriormente mencionados (capítulo 2): Subgrafos conexos.
Aplicando este suceso al grafo antes planteado se obtienen los siguientes subgrafos:
RESULTADOS
55
Orden 0: N1, C2, C3, C4, O5, O6.
Orden 1: N1- C2; C2-C4; C2-C3; C3-O5; C3-O6.
Orden 2: N1-C2-C3; N1-C2-C4; C2-C3-C4; C2-C3-O6; C2-C3-O5; C3-O5-O6.
Orden 3: N1-C2-C3-O5; C2-C3-C4-O5; C2-C3-C4-O6; N1-C2-C3-O6; N1-C2-C3-C4; C2-C3-O5-O6.
Orden 4: N1-C2-C3-O5-O6; N1-C2-C3-C4-O5; N1-C2-C3-C4-O6; C2-C3-C4-O5-O6.
Orden 5: N1-C2-C3-C4-O5-O6.
Estos fragmentos moleculares han sido organizados según su orden correspondiente
sin exclusiones de tipo. Los mismos pueden ser utilizados para construir la matriz de
incidencia Q y/o como base para la construcción de las hipermatrices de frecuencia n-
dimensionales. En este ejemplo se evaluarán solo derivadas de pares y por tanto
mostrará solo la correspondiente matriz de frecuencia de relaciones bidimensional.
Por tanto el suceso prefijado determina las correspondientes matrices de incidencia y
de frecuencia que se muestran a continuación:
Q =
Puede caracterizarse la intensidad de participación de los diferentes pares de elementos
(átomos en la molécula o vértices en el grafo) a partir del cálculo de la derivada para
pares de elementos:
1 1 1 1 0 0
0 1 1 0 1 1
1 1 1 1 1 1
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
1 1 0 0 0 0
0 1 1 0 0 0
0 1 0 1 0 0
0 0 1 0 1 0
0 0 1 0 0 1
0 0 1 0 1 1
1 1 0 1 0 0
1 1 1 0 0 0
0 1 1 0 1 0
0 1 1 1 0 0
0 1 1 0 0 1
0 1 1 1 1 0
0 1 1 1 0 1
1 1 1 0 0 1
1 1 1 0 1 0
1 1 1 0 1 1
1 1 1 1 1 0
1 1 1 1 0 1
0 1 1 1 1 1
101 25 15 38 41 20
25 14 8 21 23 11
15 8 8 13 21 10
38 21 13 71 35 17
41 23 21 35 130 29
20 11 10 17 29 32
F =
RESULTADOS
56
49.2),( 21
CN
S
G
08.5),( 31
CN
S
G
75.3),( 54
OC
S
G
47.2),( 41
CN
S
G
42.4),( 61
ON
S
G
93.3),( 64
OC
S
G
54.3),( 51
ON
S
G
02.2),( 62
OC
S
G
5.3),( 65
OO
S
G
60.0),( 32
CC
S
G
12.4),( 43
CC
S
G
31.4),( 53
OC
S
G
97.1),( 42
CC
S
G 18.4),( 52
OC
S
G
71.1),( 63
OC
S
G
Como se ha visto en epígrafes anteriores con los valores de derivada se puede organizar
la matriz de derivada. En la misma se encuentra etiquetadas tanto las filas como las
columnas con átomos de la estructura molecular que se describe y cada elemento de la
misma le corresponde biunívocamente el valor de la contribución simultánea y no
homogénea un par de átomos en la confección del modelo prefijado por el suceso. Los
elementos de esta matriz servirán de base para continuar el cálculo de la segunda
derivación como se detallará en breve.
La presencia de heteroátomos y enlaces múltiples es codificada siguiendo los mismos
procedimientos matemáticos descritos en los epígrafes anteriores y se desarrollan
siempre durante el primer proceso de derivación. Para este tipo de derivación
igualmente las etiquetas de cada átomo y su ambiente electrónico pueden codificarse en
la matriz de incidencia, en la matriz de derivada y se mantiene además la posibilidad de
no ponderación. En estas derivadas de orden superior no se pondera en el vector de
LOVIs debido a que el primer proceso de derivación solo llega hasta la obtención de la
matriz de derivadas y a partir de ahí se continúa hacia el segundo proceso de derivación.
Si se vuelve a derivar con respecto al mismo suceso antes utilizado (subgrafos
conexos) se obtiene una matriz de incidencia de orden superior [ ]
(s: toma
números enteros positivos partiendo de 2 y denota el orden de la derivada) con los
mismos subgrafos pero ahora en las columnas a diferencia de la matriz anterior se
tienen pares de átomos y cada elemento de esta matriz se corresponde con el valor de la
RESULTADOS
57
derivada del par de átomos enlazados, si dicho par está incluido en el subgrafo
correspondiente, o es cero en caso contrario. Como se muestra a continuación:
{
⁄ ( )
La transpuesta de esta matriz, multiplicada por ella misma permite obtener la matriz
de frecuencia. Esta matriz de frecuencia mantiene la característica de ser cuadrada y
simétrica respecto a la diagonal principal, solo que ahora a cada columna y fila
corresponde biunívocamente un par de átomos enlazados según el suceso escogido con
valor de derivada distinto de cero o infinito. Cada elemento de esta matriz cuantifica el
número de veces que se incluyen simultáneamente los dúos de pares de átomos en el
modelo que hace cierto el suceso escogido para fragmentar la estructura molecular, y
esta frecuencia esta ponderada a su vez por las correspondientes intensidades de
participación de dichos pares de pares de átomos en el evento durante la primera
derivación. Para el ejemplo de la molécula de la figura 18 la matriz de frecuencia se
muestra a continuación. Por comodidad para ilustrar esta matriz y con el objetivo de que
no se haga excesivamente grande su imagen, se exponen las frecuencias sin cifras
decimales:
62 101 30 35 44 12 25 41 20 41 43 17 19 20 17
101 206 50 71 89 24 39 85 41 84 88 35 38 40 36
30 50 30 17 21 10 24 20 9 41 21 8 19 19 9
35 71 17 50 31 9 13 59 14 29 61 12 27 14 25
44 89 21 31 78 10 17 36 35 36 38 30 17 35 31
12 24 6 6 10 9 10 20 9 20 21 8 9 10 8
24 39 24 13 17 10 38 32 15 65 34 13 29 31 14
41 85 20 59 36 20 32 139 33 69 144 29 63 33 59
20 41 10 14 35 10 15 33 32 33 35 28 15 32 28
41 83 40 29 36 19 64 69 33 136 71 28 62 65 29
42 87 21 61 38 20 33 144 34 71 185 37 65 34 75
17 34 8 12 30 8 13 28 27 28 37 29 13 27 30
18 38 18 26 16 9 29 62 15 62 65 13 56 29 26
19 39 19 13 34 10 30 32 31 65 34 27 29 62 28
17 35 9 24 30 8 13 58 28 29 75 30 26 28 61
Las derivadas de pares de pares de átomos pueden ser evaluadas a partir de los
elementos de la matriz de frecuencia usando la fórmula 4.1:
[( )( )]
( )( )
( )( ) (4.1)
Fp=
RESULTADOS
58
Estas derivadas pueden ser organizadas en forma de matriz de derivadas D, y la
combinación lineal de todos los elementos de filas y columnas permite obtener el vector
de los LOVIs correspondientes a pares de átomos conectados a una distancia de orden k
especificada según el modelo escogido. Para la molécula de alanina mostrada como
ejemplo en la figura 18 y 19, los valores encontrados para los pares de átomos
conectados después de la segunda derivación, usando subgrafos conexos y
electronegatividad de Pauling para ponderar en la matriz de incidencia son:
39.01 47.30 54.21 42.72 44.00 65.07 40.88 40.91 37.04 39.52 52.20 43.55 43.09 43.57 50.25
Los números anteriores son una expresión de descripción local sobre pares de
átomos. Esta derivación abre una puerta claramente visible para la compactación de
información que podría ser utilizada en varias aplicaciones de informática química,
como puede ser la descripción de macromoléculas (ácidos nucleicos, proteínas, etc.) Al
aplicar las invariantes conocidas a todos estos valores de LOVIs se obtienen diferentes
descripciones globales de la molécula (si se tienen en cuenta todos los valores de LOVIs
de pares) o locales sobre tipos de átomos de interés. En el caso de descripciones locales
sobre tipo de átomos específicos, las invariantes involucran solo los valores de pares de
átomos correspondientes a, al menos, un tipo de átomo considerado en la clasificación
previamente escogida [ej. Heteroátomos (HT), Insaturaciones (IS), etc.] La Norma 1 y
la Media Aritmética como descriptores totales de la molécula de alanina serían:
N1 = 683.32 y A = 45.55
Mientras que la Media Geométrica y la varianza encontrada para los heteroátomos
presentes tendrán valores de:
G (HT)= 43.91 y V (HT)= 23.97
4.2 Índices de Derivada Mixta del Grafo. Definición.
La posibilidad de determinar derivadas de orden superior, sugiere la idea de
encontrar derivadas mixtas, si se sigue el mismo procedimiento anterior solo que la
segunda derivada se desarrolla respecto a un evento diferente del usado en la primera
derivación.
Para ilustrar como puede evaluarse la Derivada Mixta de un grafo molecular se
empleará como ejemplo la misma molécula de alanina utilizada en el epígrafe anterior
(figura 18 y 19). La primera derivación se desarrollará a partir de un modelo generado
por el evento multiplicidad y la segunda derivación se hará respecto al evento subgrafos
RESULTADOS
59
conexos con matriz generalizada. Para diferenciar los átomos se utilizará la
electronegatividad según la escala de Pauling y se ponderará en la matriz de incidencia.
Las matrices de incidencia y frecuencia de la primera derivación serán:
1 1 0 0 0 0
0 1 1 0 0 0
0 1 0 1 0 0
0 0 1 0 1 0
0 0 2 0 0 2
Con los elementos de la matriz de frecuencia se calculan entonces los valores de
derivada como se ha visto en todos los epígrafes anteriores.
Con todos esos valores de derivada para cada par de átomos, se forma la matriz de
derivada, la cual es simétrica respecto a la diagonal principal y los elementos de la
diagonal son todos iguales a cero. Los elementos de esta matriz sirven de base para la
confección de la matriz de incidencia de la segunda derivación pues solo aparecerán en
las columnas los pares de átomos con valores de derivada distinta de cero o infinito.
El sistema de ponderación es idéntico a como se explicó en la sección anterior,
durante la definición de los GDI de Orden Superior.
La matriz de incidencia en este caso tendría una forma similar a la matriz de orden
superior, según lo expuesto anteriormente, pero los fragmentos moleculares organizados
en las filas ahora son diferentes, pues para la segunda derivación en Derivada Mixta la
molécula se fragmenta según el modelo generado por un suceso diferente del que se usó
en la primera derivación. La afirmación anterior sugiere inmediatamente que (análogo a
como ocurre con la derivada mixta del análisis matemático) el orden de los eventos no
es invariante a la derivación. Una vez construida la matriz de incidencia, se determina la
matriz de frecuencia como se ha venido explicando a lo largo del capítulo. Para la
molécula de alanina que se ha seguido como ejemplo la matriz de frecuencia encontrada
en la segunda derivación, ahora con subgrafos conexos, es:
9 3 0 0 0 0
3 2 1 2 0 0
0 1 2 0 2 4
0 2 0 7 0 0
0 0 2 0 12 0
0 0 4 0 0 12
58 126 24 44 12
126 676 104 234 65
24 104 40 36 10
44 234 36 203 28
12 65 10 28 16
Q= F =
Fp=
RESULTADOS
60
Los elementos de esta matriz son la base del cálculo de las derivadas de pares de
átomos utilizando la ecuación 4.1 y cuyos valores pueden ser organizados como matriz
de derivadas de pares de pares y así facilitar el cálculo de los correspondientes LOVIs
de pares de átomos como combinación lineal de los elementos de las filas o columnas
de la matriz de derivada (ver ecuación 4.2)
∑
[( )( )]
( ) ( ) (4.2)
Para la molécula de alanina los valores de LOVIs encontrados son:
8.54 11.75 0.00 8.31 9.95 54.81 0.00 9.42 10.38 0.00 22.54 13.18 0.00 0.00 17.78
Por su parte pueden ser evaluados también índices globales y locales sobre tipos de
átomos de interés de la misma forma que se expuso para la obtención de los mismos en
derivadas de orden superior.
4.3 Estudio QSAR-Comparativo de los GDI basados en
conceptos de Derivada de Orden Superior y Derivada
Mixta.
4.3.1 Estudio QSAR de la base de datos de esteroides.
Después de haber definido los conceptos fundamentales que acotan los nuevos
índices de Derivada de Orden Superior y Derivada Mixta, en esta sección se propone
evaluar la calidad de su desempeño en la descripción de la estructura molecular y
posible utilización en estudios de bioinformática química de manera general. Para ello
se utilizó la base de datos de esteroides de Cramer, que contiene 31 compuestos y a la
cual se le modela la constante de afinidad al sitio activo de la enzima CGB (Globulina
humana) escrita como el pK (log 1/K). Esta data ha sido reportada como una de las más
indicadas a utilizar en validaciones QSAR de nuevos descriptores, y fue utilizada en
primer lugar por Cramer y colaboradores (121,125,126).
Cálculos
Se desarrollaron cálculos de los Índices de Derivada del Grafo (GDI) para pares,
ternas y cuaternas de átomos, además para derivadas sobre pares, de orden superior y
Mixtas respecto a 12 eventos diferentes que generan modelos diversos para describir la
estructura molecular. Los átomos en cada molécula fueron diferenciados usando
diversas ponderaciones químicas, físicas y topológicas basadas en grados del vértice
como: estado intrínseco (I), grado del vértice de Ivaniciuc (V), electronegatividad de
RESULTADOS
61
Paulin (E), polarizabilidad (P), volumen de VanderWals (W), carga (C), grado del
vértice de Hu-xu (H), grado del vértice de Enlace (B), grado de valencia (N). Se
cuantificaron además, índices globales y locales sobre insaturaciones (IS), heteroátomos
(HT), aceptores de hidrogeno (AC), donantes de hidrogeno (DH), halógenos (HL) y
carbonos metilos (MC).
Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo
módulo del programa TOMOCOMD-CARDD, donde están implementadas todas las
familias de índices basadas en el concepto de Derivada Discreta de un Grafo.
Modelos
Se encontraron modelos de regresión lineal múltiple para la actividad (pK) con el
programa MobyDigs 1.0. Este programa usa el algoritmo genético como método de
selección de parámetros y el Q2
Loo como función objetivo para escoger los mejores
modelos. Además el software permite obtener varios parámetros estadísticos para
evaluar la calidad de los modelos. Las mejores ecuaciones de regresión, los parámetros
y sus correspondientes gráficos de regresión y predicción, se muestran a continuación:
( ) ( )[ ( ) ⁄ ( )]
( )[ ( ) ⁄]
( )[ ( )( ) ⁄]
( )[ ( )( ) ⁄]
( )[ ( )( ) ⁄ ]
( )[ ( ) ⁄]
(4.3)
R2=96.69 Q
2=95.02 Q
2boot=93.96 Ysc=0.140 S=0.220 Svc=0.238 F=116.8
Figura 20. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo dupla de esteroides.
RESULTADOS
62
( ) ( )[ ( ) ⁄ ( )]
( )[ ( ) ⁄ ]
( )[ ( )( ) ⁄ ]
( )[ ( )( ) ⁄ ]
( )[ ( ) ⁄ ]
( )[ ( ) ⁄ ]
(4.4)
R2=96.90 Q
2=95.40 Q
2boot=94.28 Ysc=0.149 S=0.213 Svc=0.228 F=125.1
Figura 21. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo terna de esteroides.
(
) ( ) ( )[ ( ) ⁄
]
( )[ ( ) ⁄]
( )[ ( ) ⁄
]
( )[ ( ) ⁄
]
( )[ ( ) ⁄]
( )[ ( )( ) ⁄]
(4.5)
R2=95.90 Q
2=94.17 Q
2boot=92.85 Ysc=0.130 S=0.245 Svc=0.216 F=93.44
RESULTADOS
63
Figura 22. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo cuaterna de esteroides.
( ) ( )[ ( ) ⁄ ]
( )[ ( ) ⁄ ]
( )[ ( )
⁄ ]
( )[ ( ) ⁄ ]
( )[ ( )( ) ⁄ ]
( )[ ( )( ) ⁄ ]
( )
R2=95.51 Q
2=93.31 Q
2boot=90.89 Ysc=0.144 S=0.256 Svc=0.275 F=85.11
Figura 23. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo de orden superior de esteroides.
( ) ( )[ ⁄]
( )[ ⁄]
( )[ ⁄
]
( )[ ( ) ⁄]
( )[ ( ) ⁄
]
( )[ ( ) ⁄ ]
(4.7)
RESULTADOS
64
R2=97.2 Q
2=96.01 Q
2boot=94.68 Ysc=0.146 S=0.202 Svc=0.213 F=139
Figura 24. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo de derivada mixta de esteroides.
( ) ( )[ ( ) ⁄ ]
( )[ ( )( ) ⁄ ]
( )[ ( )( ) ⁄
]
( )[ ( ) ⁄]
(
)[ ( ) ⁄ ]
( )[ ( ) ⁄ ]
(4.8)
R2=96.93 Q
2=95.27 Q
2boot=94.37 Ysc=0.139 S=0.212 Svc=0.232 F=196
Figura 25. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado de esteroides.
En casi todos los modelos antes expuestos se puede observar la presencia de cálculos
locales, fundamentalmente carbonos metilos (MC), heteroátomos (HT) e insaturaciones
(IS). Resulta importante la presencia de estos descriptores pues precisamente la
capacidad de inhibición de cada una de estas moléculas debe estar en estrecha relación
con la posibilidad de interacción de ellas con el receptor.
RESULTADOS
65
Las invariantes clásicas son las que aparecen con mayor frecuencia,
fundamentalmente la autocorrelación, la suma total, el gravitacional y el estado
electrotopógico, aunque aparecen también algunas de norma como distancia de
Manhattan (N1), distancia de Euclidean (N2) y fundamentalmente media aritmética (A).
Los parámetros estadísticos de las ecuaciones de regresión obtenidas superan en casi
todos los casos a los modelos reportados en la literatura; destacando que en estas
actividades biológicas influyen un conjunto de factores lo que las hace más complicadas
de modelar adecuadamente. En la tabla II que se muestra a continuación se observa los
resultados obtenidos por los GDIs. Los modelos de 3 y 4 variables son solo superados
por Combined electrostatic and shape similarity matrix pero éste con 6 descriptores.
Mientras que los GDIs con 5 y 6 variables predictivas superan con resultados
satisfactorios a todos los reportados. Es válido resaltar además que la mayoría de las
familias de descriptores reportadas en la tabla II con las que se comparan los resultados
de los GDIs son descriptores 3D esto aumenta el mérito de los nuevos índices 2D
propuestos en esta tesis.
Tabla II. Resultados de los GDI en comparación con lo reportado en la literatura. nD-QSARMétodo PCs/Var. Método estadístico loo Eq./Ref.
31/30 Steroids (All Dataset)
GDI-combinado 6 AG y RLM 0.952 Eq. 3.8
GDI-combinado 5 AG y RLM 0.942
Combined electrostatic and shape
similarity matrix 6 NN Genética 0.941 (127)
GDI-combinado 4 AG y RLM 0.915
GDI-combinado 3 AG y RLM 0.909
Hodking SM 6 NN Genética 0.903 (127)
Fragment QS-SM 4 PLS 0.886 (128)
MEDV-13 5 AG y RLM 0.882 (129)
MiDSASA – “template” 2
“compounds” - 0.88 (130)
SOMa
3 - R20.5 (131)
Tuned-QSAR 6 RLM y PCA 0.842 (132)
Autocorrelation vector 30 - - 0.84 (133)
RESULTADOS
66
CoMMA 3 PLS 0.828 (134)
SOMFA/esp+ ALPHA - SOR 0.82 (135)
Combined electrostatic and shape
similarity matrix 6 AG y RLM 0.819 (127)
EEVA 4 PLS 0.81 (136)
SOM-4D-QSAR 4 SOMNeural
Network 0.80 (137)
Charges and Properties from MEPS-
AM1 5 RLM 0.80 (125)
HE State/E-Statea,d
3 - 0.80 (138)
E-Statea,d
3 - 0.79 (138)
CoSA 3 “Bins” PLS 0.78 (139)
QSAR/E-State 3 “atoms” - 0.78 (140)
TQSI 4 RLM 0.775 (132)
EVA 5 PLS 0.77 (141)
CoMSA 1 PLS 0.76 (142)
MQSM 5 RLM y PCA 0.759 (132)
EVA + ALPHA - SOR 0.75 (135)
GRIND - PLS 0.75 (143)
SEAL 3 PLS 0.748 (144)
SOMFA/esp 6 PLS 0.74 (135)
CoSCoSAa
3 - 0.74 (145)
Similarity Indices (ESP MC matrix
30) 1 PLS 0.820 (133)
CoSASA 3 “atoms” PLS 0.73 (139)
E-State and kappa shape index 4 RLM 0.72 (121)
TARIS 2 - 0.71 (146)
MQSM 3 RLM 0.705 (132)
Combined electrostatic and shape
similarity matrix 5 PLS 0.70 (127)
SAMFA-RF - RF 0.69 (147)
RESULTADOS
67
SAMFA-PLS 4-5 PLS 0.69 (147)
4D-QSAR 2 PLS 0.69 (137)
CoMMA (ab initio) 6 PLS 0.689 (148)
QSARa
3 - 0.68 (149)
SOM-4D-QSAR 4 SOMNeural
Network 0.68 (137)
Wagener’s (AMSP Method) - k-NN and FNN 0.630 (150)
SAMFA-SVM - SVM 0.60 (147)
ALPHA 2 PLS 0.57 (135)
Con el objetivo de conocer y evaluar el desempeño de las diferentes familias de
GDIs, a continuación se muestra un estudio comparativo con los resultados obtenidos
por los GDIs para pares, tríos, cuartetos, pares de orden superior y pares en mixta con
modelos de 6 variables para la base de datos de esteroides.
Los parámetros estadísticos que permiten establecer comparaciones entre ellos se
muestran en la tabla III. Analizando todos los parámetros estadísticos que se tuvieron en
cuenta para el estudio, se observa que los resultados fueron semejantes, con muy poca
diferencia entre las distintas familias. Notándose que los mejores parámetros fueron
obtenidos para la derivada Mixta (lógico pues se deriva respecto a dos sucesos
diferentes) y no están muy alejados de los resultados expuestos en la tabla II.
Tabla III. Comparación de los resultados de las distintas familias de GDI. GDI para modelos de 6 variables de esteroides.
Dupla Terna Cuaterna Orden Superior Mixta
R2
0.966 0.969 0.959 0.955 0.972
Q2 0.950 0.954 0.941 0.933 0.960
Q2
boot
0.939 0.942 0.928 0.908 0.946
y-sc 0.140 0.149 0.130 0.144 0.146
s 0.220 0.213 0.245 0.256 0.202
svc 0.238 0.228 0.216 0.275 0.213
F 116.8 125.1 93.44 85.11 139
4.4 Estudio QSAR-Comparativo para validar el desempeño de
las familias de GDIs. Como otro acercamiento, al estudio de la utilización práctica de los Índices de Derivada
del Grafo, se modelará la actividad biológica de cada una de las ocho bases de dato de
Sutherland, descritas en el capítulo anterior. Las bases de datos han sido divididas en
serie de entrenamiento y serie de prueba (en algunas bases de datos se clasificaron
RESULTADOS
68
algunas moléculas como inactivas, las cuales no entran en la confección ni validación de
los modelos) con el objetivo de validar cabalmente los modelos encontrados y poder
evaluar su verdadera capacidad de predicción. La serie de predicción fue confeccionada
con aproximadamente un 33% de las moléculas presentes en cada base de datos, y el
resto de las moléculas fueron asignadas al conjunto de entrenamiento según el
procedimiento seguido por Sutherland y colaboradores. La tabla IV muestra como
quedó estructurada cada base de datos posterior a su división en series de entrenamiento
y predicción.
Tabla IV. División de las datas químicas en series de entrenamiento y predicción.
ACE AchE BZR COX2 DHFR GPB THER THR
Entrenamiento 76 74 98 188 237 44 51 59
Predicción 38 37 49 94 124 22 25 29
Inactivos 16 40 36
Lo resumido en la tabla IV se puede mostrar en la figura 26 que se observa a
continuación.
Figura 26. Composición de las bases de datos en serie de entrenamiento y serie de
predicción. También se muestra la proporción de compuestos inactivos presentes en las
bases de datos BZR, COX2 y DHFR; los cuales no se tomaron en cuenta para el
desarrollo de los modelos QSAR.
Estas datas han sido propuestas por Sutherland y colaboradores, como muy adecuadas
para usar cuando se desea validar un nuevo índice topológico. Para estos compuestos se
ha determinado con precisión cada uno de los parámetros que serán objeto de análisis,
como son la concentración inhibitoria media y la constante de inhibición, como se
muestra en la tabla V.
0
50
100
150
200
250
300
350
400
450
ACE AchE BZR COX2 DHFR GPB THER THR
Training
Test
Inactivos
Total
RESULTADOS
69
Tabla V. Formas de expresar la actividad y rangos.
Todas las moléculas de estas datas son compuestos constituidos a base de carbono,
hidrógeno, y diferentes heteroátomos lo que le da a cada familia su particularidad. Se
han desarrollados cálculos de los Índices de Derivada del Grafo (GDI) para pares, ternas
y cuaternas de átomos respecto a 12 eventos diferentes que generan modelos diversos
para describir la estructura molecular. Los átomos en cada molécula fueron
diferenciados usando diversas ponderaciones químicas, físicas y topológicas basadas en
grados del vértice como estado intrínseco (I), grado del vértice de Ivaniciuc (V),
electronegatividad de Paulin (E), polarizabilidad (P), volumen de VanderWals (W),
carga (C), grado del vértice de Hu-xu (H), grado del vértice de Bond (B), grado de
valencia (N). Se cuantificaron además, índices globales y locales sobre insaturaciones
(IS), heteroátomos (HT), aceptores de hidrogeno (AC), donantes de hidrogeno (DH),
halógenos (HL) y carbonos metilos (MC).
Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo
módulo del programa TOMOCOMD-CARDD, donde están implementadas todas las
familias de índices basadas en el concepto de Derivada Discreta de un Grafo.
Se desarrollaron modelos de regresión lineal múltiple para cada actividad (pIC50 y
pKi) con el programa MobyDigs 1.0. Este programa usa el método de algoritmo
genético para seleccionar atributos y el Q2
Loo como función objetivo para escoger los
genes mejor adaptados. Además el software permite obtener varios parámetros
estadísticos que permiten evaluar la calidad de los modelos, sobre todo los parámetros
que expresan comportamientos de ajuste (R2, s, F) y de predicción ante las validaciones,
cruzada (Q2
Loo, sCV), por bootraping (Q2
boot), de revuelto (y-sc) y externa (Q2
Ext).
Base de datos Variable biológica Rango de valores Referencia
ACE pIC50 2.1-9.9 (120)
AchE pIC50 4.3-9.5 (120)
BZR pIC50 5.5-8.9 (120)
COX2 pIC50 4.0-9.0 (120)
DHFR pIC50 3.3-9.8 (120)
GPB pKi 1.3-6.8 (120)
THER pKi 0.5-10.2 (120)
THR pKi 4.4-8.5 (120)
RESULTADOS
70
Para todas las bases de datos químicas se desarrollaron modelos de regresión lineal
múltiple usando descriptores de duplas, ternas y cuaternas de átomos con el objetivo de
comparar entre las familias de índices de derivada del grafo al ser aplicadas a la
modelación de actividades biológicas. Además se obtuvieron modelos combinados de
los GDIs como familia íntegra, para los mismos se aprecia una mejoría cuantitativa de
los estadísticos fundamentales que validan la calidad de ajuste y predicción de los
modelos.
Las mejores ecuaciones de regresión (modelos combinados) y sus correspondientes
parámetros estadísticos para cada base de datos, se muestran a continuación:
Base de datos ACE de 114 compuestos a la cual se le modela la concentración
inhibitoria media (pIC50) y se le determinaron 2 outliers:
( ) ( ) [ ( ) ⁄
]
( ) [ ( ) ⁄]
( ) [ ( )( ) ⁄]
(4.9)
R2=81.8 Q
2=79.90Q
2boot=79.70 Q
2exter=46.15 Ysc= 0.008 s=1.026 Svc=1.049 F= 107.8
Figura 27. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con 2 outliers.
Base de datos AchE de 111 compuestos a la cual se le modela la concentración
inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (1) outlier.
( ) ( ) [ ( ) ⁄
]
( ) [ ( ) ⁄ ]
( ) [ ( ) ⁄]
(4.10)
RESULTADOS
71
R2
=65.97 Q2
=62.44 Q2boot =62.11 Q
2exter =47.44 Ysc=0.007 s =0.729 Svc =0.744 F =44.6
Figura 28.Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con 1 outlier.
Base de datos BZR de 163 compuestos a la cual se le modela la concentración
inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (2) outliers.
( ) ( )[ ( ) ⁄]
( )[ ( )( ) ⁄
]
( )[ ( )( ) ⁄
]
(4.11)
R2=50.80Q
2=48.03 Q
2boot=48.31 Q
2exter=53.34 Ysc=-0.002 s =0.471 Svc= 0.476 F= 49.04
Figura 29. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con 2 outliers.
Base de datos COX2 de 322 compuestos a la cual se le modela la concentración
inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (5) outliers.
( ) ( ) [ ( ) ⁄ ( )]
( ) [ ( ) ⁄]
RESULTADOS
72
( ) [ ( )( ) ⁄ ]
( ) [ ( )( ) ⁄]
( ) [ ( )( ) ⁄ ]
(4.12)
R2=68.64 Q
2=66.69 Q
2boot=66.28 Q
2exter=48.31 Ysc=-0.001 s=0.579 Svc= 0.587 F= 79.68
Figura 30. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con 5 outliers.
Base de datos DHFR de 397 compuestos a la cual se le modela la concentración
inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (6) outliers
( ) ( )[ ( ) ⁄ ( )]
( )[ ( )( )
⁄ ]
( )[ ( ) ⁄]
( )[ ( )( ) ⁄
]
( )[ ( ) ⁄]
( )
R2=72.83 Q
2 =71.15 Q
2boot =70.76 Q
2exter= 65.29 Ysc=-0.004 s=0.659 Svc=0.67 F=122.75
Figura 31. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con 6 outliers.
RESULTADOS
73
Base de datos GPB de 66 compuestos a la cual se le modela la constante de inhibición
(pKi), obteniendo el mejor modelo combinado con sin outliers.
( ) ( ) [ ⁄ ( )]
( ) [ ( ) ⁄
]
( ) [ ( ) ⁄
]
(4.14)
R2 =81.3 Q
2=77.99Q
2boot= 77.69 Q
2exter= 52.49 Ysc= 0.014 s= 0.484 Svc= 0.5 F= 57.98
Figura 32. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado sin outliers.
Base de dato THERM de 76 compuestos a la cual se le modela la constante de
inhibición (pKi), obteniéndose el mejor modelo combinado con (1) outliers.
( ) ( ) [ ( )( ) ⁄]
( ) [ ( )( ) ⁄
]
( ) [ ( )( ) ⁄
]
( ) [ ( )( ) ⁄]
(4.15)
R2=88.68 Q
2=85.35 Q
2boot=85.83 Q
2exter=33.23 Ysc= 0.033 s= 0.665 Svc= 0.693 F=90.05
Figura 33. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelo combinado con (1) outliers.
Base de datos THR de 88 compuestos a la cual se le modela la constante de
inhibición (pKi), obteniéndose el mejor modelo combinado con (2) outliers.
RESULTADOS
74
( ) ( ) [ ( ) ⁄ ( )]
( ) [ ( ) ⁄]
( ) [ ( )( ) ⁄
]
( ) [ ( ) ⁄]
(4.16)
R2=84.25 Q
2=81.95 Q
2boot= 81.39 Q
2exter= 44.95 Ysc= 0.028 s= 0.394 Svc=0.403 F=72.21
Figura 34. Desempeño de los modelos de regresión lineal y predicción para el mejor
modelocombinado con (2) outliers.
En la mayoría de los modelos se puede apreciar la presencia de cálculos locales,
fundamentalmente aceptores de hidrógeno, heteroátomos e insaturaciones. Es
importante la presencia de estos descriptores pues precisamente la capacidad de
inhibición de cada una de estas moléculas debe estar en estrecha relación con la
posibilidad de interacción de cada una de ellas con el receptor. Las zonas de la
estructura donde aparecen heteroátomos, átomos aceptores de hidrógeno e
insaturaciones son de apreciable riqueza electrónica, por lo que es perfectamente lógico
encontrarse descriptores que enfatizan o recogen información de esas partes
moleculares en ecuaciones que modelan la capacidad de inhibición. Aun así también
están presentes descriptores globales que son igualmente importantes ya que recogen
información de la molécula como un todo y cuantifican talla y dimensiones
estructurales, aspectos estos también muy importantes para entender la capacidad de
inhibición explicada por la facilidad de interacción de estas moléculas y los receptores
correspondientes.
Las invariantes clásicas son las que aparecen con mayor frecuencia,
fundamentalmente la autocorrelación, la suma total, el gravitacional y el estado
electrotopógico.
Los parámetros estadísticos en todos los casos son aceptables en comparación con los
reportados en la literatura; sin embargo hay que destacar que en estas actividades
RESULTADOS
75
biológicas influyen un conjunto de muchos factores lo que las hace más complicadas de
modelar adecuadamente.
4.5 Análisis del desempeño de las familias de los GDIs basadas
en enfoques de representación n-dimensional de
estructuras químicas. Con el objetivo de conocer y evaluar el desempeño de las diferentes familias de
GDIs, basadas en representaciones n-dimensionales de estructuras químicas, útiles para
cuantificar las derivadas discretas sobre duplas, ternas y cuaternas de átomos
simultáneamente y capacidad de descripción matemática de la estructura molecular, se
desarrollaron regresiones con cada una de las bases de datos anteriormente mencionadas
y se correlacionó con la capacidad de inhibición. Los estadísticos fundamentales que
muestran el comportamiento de las ecuaciones obtenidas en función de su respectiva
capacidad de ajuste y predicción, son organizados en la tabla VI.
Tabla VI. Comportamiento de los GDI basados en representaciones n-dimensionales.
GDI D-GDI T-GDI Q-GDI
ACE
r2 80,27 81,23 81,79
q2 78,26 79,14 79,9
q2boot 78,18 78,87 79,75
q2ext 48,06 30,68 23,26
AchE
r2 64,35 60,86 55,98
q2 60,3 56,79 51,69
q2boot 59,92 56,39 51,4
q2ext 15,9 47,78 38,36
BZR
r2 37,89 47,08 52,57
q2 35,46 44,3 48,94
q2boot 36 44,64 48,57
q2ext 33,62 20,24 17,59
COX2
r2 64,24 65,08 59,81
q2 61,85 62,89 57,19
q2boot 61,42 62,22 56,61
q2ext 37,2 35,61 22,9
DHFR
r2 69,63 68,09 64,14
q2 68,13 66,33 62,24
q2boot 67,91 65,83 61,86
q2ext 61,04 52,88 59,44
GPB
r2 74,6 69,93 65,12
q2 71,85 65,3 60,1
RESULTADOS
76
q2boot 72,39 65,41 59,99
q2ext 51,02 27,85 37,29
THER
r2 44,91 84,28 80,69
q2 40,75 80,75 75,82
q2boot 41,91 79,8 75,07
q2ext 32,26 33,8 25,79
THR
r2 82,44 79,74 80,74
q2 80,09 77,41 76,88
q2boot 79,73 77,28 76,16
q2ext 0 22,51 23,58
Una mejor y más real interpretación de estos datos recogidos en la tabla anterior
pueden ser ilustrados en las figuras 35 y 36. Los gráficos de las figuras 35 y 36
muestran el comportamiento de las ecuaciones obtenidas (4.9-4.16) para cada base de
datos, ante el ajuste y la predicción, tomando como referencia los valores de Q2
ext y R2.
Como se puede observar en el gráfico de Q2
ext (Figura 35) los mejores resultados
corresponden al conjunto de DHFR, y para el resto el comportamiento de terna y
cuaterna es prácticamente el mismo. Por su parte las ecuaciones de dupla muestran
mayor capacidad de predicción a pesar de presentar una caída abrupta en el conjunto
de THR.
Figura 35. Valores de Q
2ext para dupla, terna, y cuaterna de cada una de las bases de
datos.
En el gráfico de R2
que se muestra en la figura 36 el comportamiento es similar para
terna y cuaterna forma general, por su parte dupla muestra un mejor comportamiento en
la mayoría de los casos. Sin embargo el mejor ajuste a los datos experimentales es
0%
20%
40%
60%
80%
100%
ACE AchE BZR COX2 DHFR GPB THER THR
Q2ext
D
T
Q
RESULTADOS
77
observado en la base de datos ACE y en este caso cuaterna supera a terna y este a su
vez a dupla.
Figura 36.Valores de R
2 para dupla, terna, y cuaterna de cada una de las bases de
datos.
4.6 Ubicación de los GDIs en el ranking de los mejores
resultados reportados para estas bases de datos.
Se realizó además, un estudio en el que se tomaron en cuenta los resultados obtenidos
con los GDIs y se compararon con lo reportado por Sutherland (120). Como se puede
observar en la tabla VII se hace referencia a descriptores tanto 3D, como descriptores 2D
y 2.5D. Este tipo de estudios comparativos es de importancia crucial en la búsqueda de
nuevos descriptores topológicos que superen los ya existentes y que en alguna medida
cuantifiquen mayor contenido de información sin tener un costo computacional tan
elevado como algunos de los descriptores presentes en la tabla VII (ejemplo: HQSAR).
De analizar los principales parámetros estadísticos (R2train: Coeficiente de determinación
de la regresión con la serie de entrenamiento, strain: desviación estándar de la regresión
en la serie de entrenamiento, q2
ext: Coeficiente de determinación de la validación
externa, q2
ext (out): Coeficiente de determinación de la validación externa separando
outliers) de las ecuaciones encontradas (reunidos en la tabla VII) se puede observar que
los resultados obtenidos por los GDIs superan en un 87.5% los descriptores topológicos
utilizados y reportados por Sutherland 2D y 2.5D ante la validación externa en esta
modelación. Solamente no son superados en la base de datos ACE. Sin embargo para
esta misma base de datos son superados los mejores resultados mostrados para los
HQSAR. A pesar de que los GDIs propuestos en esta tesis parten de representaciones
0%
20%
40%
60%
80%
100%
ACE AchE BZR COX2 DHFR GPB THER THR
R2
D
T
Q
RESULTADOS
78
bidimensionales de las estructuras moleculares superan o están a la altura de los mejores
resultados mostrados para los descriptores 3D empleados en este estudio de modelación.
Tabla VII. Resultados de la modelación para las bases de datos de Sutherland por varios tipos de
descriptores.
CoMFA CoMSIAbasic CoMSIAextra EVA HQSAR 2D 2.5D GDI
ACE
r2 train
0.8 0.76 0.73 0.84 0.84 0.76 0.82 0.82
S train 1.04 1.15 1.22 0.93 0.95 1.15 1.00 1.00
q2ext
0.49 0.52 0.49 0.36 0.3 0.47 0.51 0.34
q2ext (out) 0.55(1) 0.58(1) 0.49(0) 0.55(2) 0.45(2) 0.51(1) 0.65(2) 0.46(2)
Ache
r2 train
0.88 0.86 0.86 0.96 0.72 0.4 0.38 0.64
S train 0.41 0.45 0.45 0.23 0.64 0.94 0.95 0.74
q2ext
0.47 0.44 0.44 0.28 0.37 0.16 0.16 0.46
q2ext (out) 0.56(1) 0.60(1) 0.60(1) 0.35(1) 0.48(2) 0.26(1) 0.25(2) 0.47(1)
BZR
r2 train
0.61 0.62 0.62 0.51 0.64 0.51 0.52 0.50
S train 0.41 0.41 0.41 0.47 0.40 0.46 0.46 0.42
q2ext
0 0.08 0.12 0.16 0.17 0.14 0.2 0.37
q2ext (out) 0.18(3) 0.30(3) 0.28(3) 0.35(3) 0.31(2) 0.28(3) 0.38(3) 0.53(2)
COX2
r2 train
0.7 0.69 0.69 0.68 0.7 0.62 0.68 0.67
S train 0.56 0.56 0.57 0.58 0.55 0.63 0.58 0.59
q2ext
0.29 0.03 0.37 0.17 0.27 0.25 0.27 0.40
q2ext (out) 0.37(5) 0.22(5) 0.50(4) 0.39(5) 0.37(5) 0.35(5) 0.39(5) 0.48(5)
DHFR
r2 train
0.79 0.76 0.75 0.81 0.81 0.61 0.65 0.71
S train 0.59 0.62 0.63 0.55 0.55 0.79 0.75 0.69
q2ext
0.59 0.52 0.53 0.57 0.63 0.47 0.49 0.58
q2ext (out) 0.70(6) 0.63(6) 0.60(6) 0.65(6) 0.69(6) 0.56(5) 0.59(6) 0.65(6)
GPB
r2 train
0.84 0.78 0.92 0.89 0.77 0.55 0.7 0.76
S train 0.43 0.50 0.30 0.36 0.52 0.72 0.59 0.54
q2ext
0.42 0.46 0.59 0.49 0.58 -0.06 0.04 0.52
q2ext (out) 0.37(1) 0.34(1) 0.37(1) 0.34(1) 0.34(1) -0.06(0) 0.04(0) 0.52(0)
THER
r2 train
0.85 0.85 0.77 0.86 0.81 0.79 0.85 0.88
S train 0.73 0.73 0.91 0.72 0.82 0.86 0.73 0.66
q2ext
0.54 0.36 0.53 0.36 0.53 0.14 0.07 0.10
q2ext (out) 0.62(1) 0.46(1) 0.62(2) 0.36(0) 0.54(1) 0.24(1) 0.09(1) 0.33(1)
THR
r2 train
0.86 0.88 0.89 0.83 0.87 0.79 0.75 0.84
S train 0.36 0.34 0.32 0.39 0.35 0.43 0.47 0.39
q2ext
0.63 0.55 0.63 0.11 -0.25 0.04 0.28 0.26
q2ext (out) 0.73(1) 0.62(1) 0.69(1) 0.24(1) 0.43(3) 0.21(1) 0.37(1) 0.45(2)
Dentro de los descriptores 3D que son superados por los GDI es válido resaltar en la
base de datos AchE a EVA. En la correlación de la actividad inhibitoria con las
moléculas incluidas en BZR son superados en la validación externa a todas las familias
de descriptores utilizados separando solo dos outliers, mientras que el resto saca en la
mayoría de los casos tres compuestos. Con COX2 también son encontradas regresiones
más robustas ante la validación externa, solamente superados por CoMSIAextra. En
DHFR vuelven a ser superados CoMSIAextra y CoMSIAbasic. Durante la modelación de
RESULTADOS
79
GPB se superan notablemente todos los descriptores participantes de este estudio
comparativo sin la necesidad de extraer compuestos outliers y en THR son superados
EVA y HQSAR. Estas comparaciones han sido fundamentadas sobre la base del análisis
de los valores de Q2
ext (out).
CONCLUSIONES “La ciencia humana consiste más en
destruir errores que en descubrir verdades”. Sócrates
CONCLUSIONES
80
5 CONCLUSIONES.
1. Se definen nuevos ITs basados en el concepto de Derivada de Orden Superior y
Derivada Mixta sobre pares de átomos, respecto a 12 eventos; definidos de forma
local.
2. Se aplican con éxito diversos algoritmos matemáticos que generalizan la forma
tradicional de obtener índices globales y locales para grupos y tipos de átomos.
3. En la mayoría de las modelaciones biológicas realizadas entran descriptores locales
y algunos totales que son resultados del uso de nuevos algoritmos matemáticos para
generalizar la forma clásica de obtención de descriptores globales.
4. El resto de los estudios QSAR comparativos mostró que todas las familias de GDI,
(existentes y propuestas en la tesis) mostraron resultados superiores a las mejores
propuestas de modelación para estas actividades reportadas en la literatura. Lo que
demuestra que los GDI constituyen una poderosa herramienta para estudios de
informática-química.
RECOMENDACINES “La ciencia se compone de errores, que a su
vez, son los pasos hacia la verdad”. Julio Verne
RECOMENDACIONES
81
6 RECOMENDACIONES.
1. Ampliar el número de estudios que corroboren la validez de la extensión de la
derivada a Derivada de Orden Superior y Derivada Mixta.
2. Realizar el estudio QSAR de esteroides con la base de datos fragmentada en serie
de entrenamiento y serie de predicción, con su correspondiente validación externa.
BIBLIOGRAFÍA “La ciencia no ha sido y nunca será un libro
terminado. Cada éxito importante trae nuevas interrogantes”.
Albert Einstein
BIBLIOGRAFÍA
82
7 BIBLIOGRAFÍA 1. Hann M, Green R. Curr Opin Chem Biol. 1999;3:379. 2. van de Waterbeemd H, Carter RE, Grassy G, Kubinyi H, Martin YC, Tute M, S.,
et al. Annu Rep Med Chem. 1998;33(397). 3. Ooms F. Curr Med Chem. 2000;7:141. 4. Louis JC. Biosilico. 2003;1:115. 5. Todeschini RC, V. Handbook of Molecular Descriptors. Wiley-VCH:
Germany2000. 6. Duca SH, A. J. J Chem Inf Comput Sci. 2001;41:1367. 7. Vedani A, Dobler M. J Med Chem. 2002;45:2139. 8. Vedani A, Dobler M, Lill MA. J Med Chem. 2005;48:3700. 9. TODESCHINI RC, V. Molecular Descriptors for Chemoinformatics: wiley-VCH;
2009. 10. Grover M, Singh B, Bakshi M, Singh S. Pharm Sci Technol Today. 2000;3:28. 11. Schultz TW, Cronin MT, Netzeva TI, Walker JD, Aptula AO. J Mol Struct
(THEOCHEM). 2003;1:622. 12. Marrero-Ponce Y. Total and local (atom and atom type) molecular quadratic
indices: significance interpretation, comparison to other molecular descriptors, and QSPR/QSAR applications. Bioorg Med Chem 2004;12:6351.
13. Marrero-Ponce Y, Torrens F, Alvarado YJ, Rotondo R. J Comput Aided Mol Des. 2006;20:685.
14. Marrero-Ponce Y, Torrens F, García-Domenech R, Ortega-Broche SE, Romero Zaldivar V. J Math Chem. 2008;44:650.
15. Marrero Ponce Y, Martinez-Albelo ER, Casanola-Martin GM, Castillo Garit JA, Echeveria Diaz Y. Mol Divers. 2009:11030.
16. Marrero-Ponce Y, Martínez-Santiago O, López YM, S. J. Barigye FT. Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D molecular descriptors I. Theory and QSPR application. J Comput Aided Mol Des. 2012;26.
17. Martínez-Santiago O, Millán-Cabrera R, Marrero-Ponce Y, Barigye SJ, Martínez-López Y, Torrens F, et al. Discrete Derivatives for Atom-Pairs as a Novel Graph-Theoretical Invariant for Generating New Molecular Descriptors: Orthogonality, Interpretation and QSARs/QSPRs on Benchmark Databases. Molecular Informatics (submitted for publication).
18. Barigye. SJ. Teoría de información en la codificación de la estructura química. Santa Clara.: Universidad Central "Marta Abreu" de Las Villas.; 2013.
19. Randic M. J Chem Inf Comput Sci 1997;37:1063. 20. Harary F. Graph Theory. Addison-Wesley, Reading: MA. 1971. 21. Gutman I, Polansky OE. Mathematical Concepts in Organic Chemistry. Springer-
Verlag: Berlin1986. 22. Gorbátov VA. Fundamentos de la Matemática Discreta. Moscú, URSS: Mir.1988. 23. Hall LH, Kier LB. Issues in representation of molecular structure. The
development of molecular connectivity. Journal of Molecular Graphics and Modelling. 2001;20:4-18.
24. Devillers J, Balaban AT. Topological Indices and Related Descriptors in QSAR and QSPR. Gordon and Breach: Amsterdam, the Netherlands. 1999.
25. Trinajstic N. Chemical Graph Theory. CRC Press: Boca Raton: FL. 1992;Vol. 2nd edition.
BIBLIOGRAFÍA
83
26. Ivanciuc O. Rev Roum Chim. 2000;45:289. 27. Ivanciuc O, Balaban AT. MATCH (Commun Math Chem). 1994;30:141. 28. Ivanciuc O. ACH – Models Chem. 2000;137:607. 29. Randic M. J Math Chem. 1990;4:157. 30. Diudea MV. J Chem Inf Comput Sci. 1997;37:292. 31. Janezic D, Milicevic A, Nikolic S, Trinajstic N. Graph Theoretical Matrices in
Chemistry. Kragujevac, Serbia: University of Kragujevac; 2007. 32. Sachs H. Beziehungen zwischen den in einem graphen enthaltenen Kreisen und
seinem characteristischen Polynom. Debrecen, Hungary1964. 33. Mallion RB, Schwenk AJ, Trinajstic N. A graphical study of heteroconjugated
molecules. Croat Chem Acta. 1974;46:171. 34. Guha R. The CDK Descriptor Calculator. 0.94 ed. Indiana1991. 35. Steinbeck C, Han YQ, kuhn S, Horlacher O, Luttmann E, Willighagen EL. The
Chemistry Development Kit (CDK): An open-source Java library for chemo- and bioinformatics. Journal of Chemical Information and Computer Sciences. 2003;43:493-500.
36. Guha R, Howard MT, Hutchison GR, Murray-Rust P, Rzepa H, Steinbeck C, et al. The Blue Obelisk-Interoperability in Chemical Informatics. J Chem Inf Model. 2006.
37. Durant JL, Leland BA, Henry DR, Nourse JG. Reoptimization of MDL Keys for Use in Drug Discovery. J Chem Inf Comput Sci. 2002;42:1273-80.
38. Kier LB, Hall LH. Molecular Structure Description. The Electrotopological State. San Diego: Academic Press; 1999.
39. kier LB, Hall LH. Molecular Connectivity and Substructure Analysis. JPharmSci. 1978;67:1743-7.
40. kier LB, Hall LH. An electrotopological-state index for atoms in molecules. Pharm Res. 1990;7:801-7.
41. kier LB, Hall LH. Electrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information. Journal of Chemical Information and Computer Sciences. 1995;35:1039-45.
42. Kier LB, Hall LH. An electrotopological-state index for atoms in molecules. Pharm Res. 1990;7:801.
43. J. Devillers aATB. Topological Indices and Related Descriptors in QSAR and QSPR. The Netherlands. 1999.
44. Kier LB, Hall LH. Molecular Connectivity in Chemistry and Drug Research. Academic Press: New York. 1976.
45. Kier LB, Hall LH. Molecular Connectivity in Structure–Activity Analysis. Research Studies Press: Letchworth, U K. 1986.
46. Kier LB, Hall LH. Molecular Structure Description. The Electrotopological State. Academic Press: San Diego1999.
47. Marrero-Ponce Y, Castillo-Garit JA, Torrens F, Romero-Zaldivar V, Castro E. Molecules. 2004;9:1100.
48. Graovac A, Gutman I, Trinajstic N. Topological Approach to the Chemistry of Conjugated Molecules. Springer: Berlin. 1977.
49. Dias JR. Molecular Orbital Calculations Using Chemical Graph Theory. Springer: Berlin. 1993.
50. Pólya G, Read RC. Combinatorial Enumeration of Groups, Graphs, and Chemical Compounds. Springer: Berlin. 1987.
BIBLIOGRAFÍA
84
51. Fujita S. Symmetry and Combinatorial Enumeration in Chemistry. Springer: Berlin. 1991.
52. Temkin ON, Zeigarnik AV, Bonchev D. Chemical Reaction Networks. A Graph-Theoretical Approach. CRC Press: Boca Raton. 1996.
53. Koča JK, M., Kvasnička V, Matyska L, Pospýchal J. Synthon Model of Organic Chemistry and Synthesis Design. Springer: Berlin. 1989.
54. Gálvez J, García R. Diseño de fármacos por conectividad molecular. (Monografía). Farmaindustria: Madrid. 1994.
55. Castillo-Garit JA, Martinez-Santiago O, Marrero-Ponce Y, Casañola-Martín GM, Torrens F. Atom-based non-stochastic and stochastic bilinear indices: Application to QSPR/QSAR studies of organic compounds. Chemical Physics Letters. 2008;464:107–12.
56. Randic M. Encyclopedia of Computational Chemistry. John Wiley & Sons: New York1998.
57. Balaban A. From Chemical Topology to Three-Dimensional Geometry. Plenum: New York. 1997.
58. Estrada E, Molina E. Novel Local (Fragment-Based) Topological Molecular Descriptors for QSPR/QSAR and Molecular Design. J Mol Graphics Model. 2001;20:54-64.
59. Balaban AT. J Chem Inf Comput Sci. 1992;32:23. 60. Wiener H. J Am Chem Soc. 1947;69:17. 61. Hosoya H. Bull Chem Soc Japan. 1971;44:2332. 62. Balaban AT. Theor Chim Acta. 1979;5:239. 63. Mohar B, Babic D, Trinajstic N. J Chem Inf Comput Sci. 1993;33:153. 64. Ivanciuc O, Balaban TS, Balaban AT. J Math Chem. 1993;12:309. 65. Diudea MV. J Chem Inf Comput Sci. 1996;36:535. 66. Diudea MV. J Chem Inf Comput Sci. 1996;36:833. 67. Platt JR. J Chem Phys. 1947;15:419. 68. Gutman I, Ruscic B, Trinajstic N, Wilcox CF. J Chem Phys. 1975;62:3399. 69. Kier LB, Hall LH. J Chem Inf Comput Sci 2000;40:792. 70. Randic M. J Am Chem Soc. 1975;97:6609. 71. Balaban AT. Chem Phys Lett. 1982;89:399. 72. Gálvez J, Garcia R, Salabert MT, Soler R. J Chem Inf Comput Sci 1994;34:520. 73. Hall LH, Kier LB. J Chem Inf Comput Sci. 1991;31:76. 74. Hall LH, Kier LB. Quant. Struc.-Act. Relat. . 1991;10:43. 75. Estrada E, Uriarte E. Curr Med Chem. 2001;8:1699. 76. Estrada E, Peña A. Bioorg Med Chem. 2000;8:2755. 77. Estrada E, Peña A, García-Domenech R. J Comp Aided Mol Design.
1998;12:583. 78. Estrada E, Uriarte E, Montero A, Teijeira M, Santana L, De Clercq E. J Med
Chem. 2000;43:1975. 79. Estrada E. Spectral Moments of the Edge Adjacency Matrix in Molecular Graphs.
1. Definition and Applications to the Prediction of Physical Properties of Alkanes. J Chem Inf Comput Sci. 1996;36:844.
80. Estrada E. Spectral Moments of the Edge-Adjacency Matrix of Molecular Graphs. 2. Molecules Containing Heteroatoms and QSAR Applications. J Chem Inf Comput Sci. 1997;37:320.
81. Estrada E. J Chem Inf Comput Sci. 1998;38:23. 82. Estrada E, Vilar S, Uriarte E, Gutierrez Y. J Chem Inf Comput Sci. 2002;42:1194.
BIBLIOGRAFÍA
85
83. Estrada E, Gonzalez H. J Chem Inf Comput Sci. 2003;43:75. 84. Carrasco R, Padrón JA, Gálvez J. Definition of a novel atomic index for QSAR:
the refractotopological state. J Pharm Pharmaceut Sci. 2004;7:19-26. 85. Marrero-Ponce Y. Total and Local Quadratic Indices of the Molecular
Pseudograph´s Atom Adjacency Matrix: Applications to the Prediction of Physical Properties of Organic Compounds Molecules. 2003;8:687-726.
86. Marrero-Ponce Y. Linear indices of the "molecular pseudograph's atom adjacency matrix": definition, significance-interpretation, and application to QSAR analysis of flavone derivatives as HIV-1 integrase inhibitors. J Chem Inf Comput Sci. 2004;44:2010-26.
87. Marrero Ponce Y, Cabrera Perez MA, Romero Zaldivar V, Gonzalez Diaz H, Torrens F. A new topological descriptors based model for predicting intestinal epithelial transport of drugs in Caco-2 cell culture. J Pharm Pharm Sci 2004;7:186.
88. Marrero-Ponce Y, Cabrera M, A., Romero V, Ofori E, Montero LA. otal and Local Quadratic Indices of the “Molecular Pseudograph’s Atom Adjacency Matrix”. Application to Prediction of Caco-2 Permeability of Drugs. J Mol Sci. 2003;4:512-36.
89. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castanedo N, et al. Atom, atom-type and total molecular linear indices as a promising approach for bioorganic and medicinal chemistry: theoretical and experimental assessment of a novel method for virtual screening and rational design of new lead anthelmintic. Bioorg Med Chem 2005;13:1005-20.
90. Balaban AT, Balaban TS. J Chem Phys 1992;89:1735. 91. Balaban A, T. Croat Chem Acta. 1993;66:447. 92. Balaban A, T. Local versus Global (i.e. Atomic versus Molecular) Numerical
Modeling of Molecular Graphs. J Chem Inf Comput Sci. 1994;34:398. 93. Balaban AT, Balaban TS. J Math Chem. 1991;8:383. 94. Balaban ATD, M. J Chem Inf Comput Sci. 1999;42:3308. 95. Diudea M, Minailiuc O, Balaban AT. J Comput Chem. 1991;12:527. 96. Barigye SJ, Marrero-Ponce Y, Martínez-López Y, Torrens F, Artiles-Martínez
LM, Pino-Urias RW, et al. Relations Frequency Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information Indices. Journal of Computational Chemistry. 2012.
97. Barigye SJ, Marrero-Ponce Y, López YM, Santiago OM, Torrens F, Domenech RG, et al. Event-based criteria in GT-STAF information indices: theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental Research. 2013;24:3-34.
98. Barigye SJ, Marrero-Ponce Y, Santiago OM, López YM, Pérez-Giménez F, Torrens F. Shannon’s, Mutual, Conditional and Joint Entropy Information Indices: Generalization of Global Indices Defined from Local Vertex Invariants. Current Computer-Aided Drug Design. 2013;9.
99. Randic M. J Math Chem. 1991;7:155. 100. Van de Waterbeemd H. Chemometric Methods in Molecular Design (Methods
and Principles in Medicinal Chemistry). John Wiley & Sons: New York. 1995. 101. Rumelhart DE, Hinton GE, Williams R. J Nature. 1986;323:533. 102. Vapnik V. The Nature of Statistical Learning Theory. Springer: New York, USA.
1995.
BIBLIOGRAFÍA
86
103. Hair JF, Anderson RE, Tatham RL, Black WC. Análisis Multivariante 5ta Ed. Madrid1999.
104. Alzina RB. Introduccion conceptual al análisis multivariable. Un enfoque informatico con los paquetes SPSS-X, BMDP, LISREL Y SPAD. PPU, SA: Barcelona. 1989.
105. Norusis MJ. Advanced Statistics Guide. SPSS-X. McGraw-Hill: New York. 1985. 106. Wold S. Technometrics. 1978;20:397. 107. Stone M. J Roy Stat Soc. 1974;36:111. 108. Shao J. J Amer Stat Assoc 1993;88:486. 109. J.O. E. Modern Mathematical Statistics. John Wiley and Sons Inc: New York.
1988. 110. Shao J. J Amer Statist Assoc. 1996;91:655. 111. Leger C, Politis DN, Romano JP. Technometrics. 1992;34:378. 112. Tropsha A, Gramatica P, Gombar VK. QSAR Comb Sci. 2003;22:69. 113. Wold S, Erikson L. In Chemometric Methods in Molecular Design. van de
Waterbeemd, H, Ed; VCH Publishers: Weinheim, Germany. 1995. 114. Egan WJ, Morgan SL. Outlier detection in multivariate analytical chemical data.
Anal Chem. 1998;70:2372-9. 115. Cronin MT, Schultz TW. Pitfalls in QSAR. . J Mol Struct (Theochem).
2003;622:39-51. 116. Goldberg D. Genetics Algorithms in Search, Optimization and Machine Learning.
Addison Wesley. 1989. 117. Dehmer M, Emmert-Streib F. Computational Biology and Chemistry.
2008;32:131. 118. Hong H, Xie Q, Ge W, Qian F, Fang H, Shi L, et al. J Chem Inf Comput Sci
2008;48:1337. 119. Godden JW, Stahura FL, Bajorath J. J Chem Inf Comput Sci 2000;40:796. 120. Sutherland J.J, O’Brien L.A, D.F W. A Comparison of Methods for Modeling
Quantitative Structure-Activity Relationships. Journal of Medical Chemistry. 2004;47:5541-54.
121. Maw HH, Hall LH. E-State Modeling of Corticosteroids Binding AffinityValidation of Model for Small Data Set. J Chem Inf Comput Sci. 2001;41:1248-54.
122. Marrero-Ponce Y, Martínez López Y, Martínez Santiago O, Barigye SJ. TOMOCOMD-CARDD-DIVATI. 1.0 ed. Unit of Computer-Aided Molecular “Biosilico” Discovery and Bioinformatic Research (CAMD-BIR Unit): Santa Clara, Cuba2013.
123. Godden JW, Bajorath J. J Chem Inf Comput Sci 2002;42:87. 124. Todeschini R, Ballabio D, Consonni V, Mauri A, Pavan M. MobyDigs. Version
1.0, TALETE srl ed2004. 125. De K, Sengupta C, Roy K. QSAR modeling of globulin binding affinity of
corticosteroids using AM1 calculations. Bioorg Med Chem. 2004;12:3323-32. 126. Hall. HHMaLH. E-State Modeling of Corticosteroids Binding AffinityValidation
of Model for Small Data Set. J Chem Inf Comput Sci. 2001;41:1248-54. 127. So S.S, Karplus M. Three-dimensional quantitative structure-activity relationships
from molecular similarity matrices and genetic neural networks.1 Method and validations. J Med Chem. 1997;40:4347-59.
128. Amat L, Besalu E, Carbo-Dorca R. Identification of Active Molecular Sites Using Quantum-Self-Similarity Measures. J Chem Inf Comput Sci. 2001;41:978-91.
BIBLIOGRAFÍA
87
129. Shu-Shen L, Chun-Sheng, Lian-Sheng W. Combined MEDV-GA-MLR Method for QSAR of Three Panels of Steroids, Dipeptides, and COX-2 Inhibitors. J Chem Inf Comput Sci. 2002;42:749-56.
130. Beger RD, Harris SH, Xie Q. Models of Steroid Binding Based on the Minimum Deviation of Structurally Assigned 13C NMR Spectra Analysis (MiDSASA). J Chem Inf Comput Sci. 2004;44:1489-96.
131. Polanski J. The receptor-like neural network for modeling corticosteroid and testosterone binding globulins. Journal of Chemical Information and Computer Sciences. 1997:553-61.
132. Robert D, Amat L, Carbo-Dorca R. Three-Dimensional Quantitative-Activity Relationships from Tuned Molecular Quantum Similarity Measures: Prediction of the Corticosteroid-Binding Globulin Binding Affinity for a Steroid Family. J Chem Inf Comput Sci. 1999;39:333-44.
133. Parretti MF, Kroemer RT, Rothman JH, Richards WG. Alignment of Molecules by the Monte Carlo Optimization of Molecular Similarity Indices. J Comput Chem. 1997;18:1344-53.
134. Silverman BD, Platt DE. Comparative molecular moment analysis (CoMMA): 3D-QSAR without molecular superposition. J Med Chem. 1996;39,:2129-40.
135. Tuppurainen K, Viisas M, Peräkylä M, Laatikainen R. Ligand intramolecular motions in ligand-protein interaction: ALPHA, a novel dynamic descriptor and a QSAR study with extended steroid benchmark dataset. J Comp-Aided Mol Design. 2004;18:175-87.
136. Tuppurainen K, Viisas M, Laatikainen R, Perakyla M. Evaluation of a Novel Electronic Eigenvalue (EEVA) Molecular Descriptor for QSAR/QSPR Studies: Validation Using a Benchmark Steroid Data Set. J Chem Inf Comput Sci. 2002;42:607-13.
137. Polanski J, Bak A. Modeling Steric and Electronic Effects in 3D- and 4D-QSAR Schemes: Predicting Benzoic pKa Values and Steroid CBG Binding Affinities. J Chem Inf Comput Sci. 2003;43:2081-92.
138. Kellogg GE, Kier LB, Gaillard P, Hall LH. E-state fields: Applications to 3D QSAR. J Comput-Aided Mol Design. 1996;10:513-20.
139. Beger RD, Wilkes JE. Developing 13C NMR quantitative spectrometric data-activity relationship (QSDAR) models of steroid binding to the corticosteroid binding globulin. J Comp-Aided Mol Design. 2001;15:659-69.
140. Carolina de Gregorio LBK, Hall LH. QSAR modeling with electrotopological state indices: Corticosteroids. Journal of Computer-Aided Molecular Design. 1998;12: 557-61.
141. Turner DB, Willett P, Ferguson AM, Heritage TW, . , , . Evaluation of a novel molecular vibration-based descriptor (EVA) for QSAR studies: 2. Model validation using a benchmark steroid dataset. J Comput Aided Mol Des. 1999;13:271-96.
142. Polanski J, Walczak B. The comparative molecular surface analysis (COMSA): a novel tool for molecular design. Comput Chem. 2000;24:615–25.
143. Pastor M, Cruciani G, McLay I, Pickett P, Clementi S. GRid-INdependent Descriptors (GRIND): A Novel Class of Alignment-Independent Three-Dimensional Molecular Descriptors. J Med Chem. 2000;43:3233-43.
144. Kubinyi H, Hamprecht FA, Mietzner T. Three-Dimensional Quantitative Similarity-Activity Relationships (3D QSiAR) from SEAL Similarity Matrices. J Med Chem. 1998;41:2553-64.
BIBLIOGRAFÍA
88
145. Beger RD, Buzatu D, Wilkes JG, Lay J, J. O. Developing comparative structural connectivity spectra analysis (CoSCSA) models of steroid binding to the corticosteroid binding globulin. J Chem Inf Comput Sci. 2002;42:1123-31.
146. Marín RM, Aguirre NF, Daza EE. Graph Theoretical Similarity Approach To Compare Molecular Electrostatic Potentials. . J Chem Inf Model. 2008;48:109-18.
147. Manchester J, Czerminski R. SAMFA: Simplifying Molecular Description for 3D-QSAR. J Chem Inf Model. 2008;48:1167-73.
148. Silverman BD, Platt DE, Pitman M, Rigoutsos I. Comparative molecular moment analysis (COMMA). The Netherlands: Kluwer Academic Publishers: Dordrecht; 1998.
149. Andrew C. Good SSS, Richards WG. Structure-activity relationships from molecular similarity matrices. Journal of Medicinal Chemistry. Journal of Medicinal Chemistry. 1993:433-8.
150. Wagener M, Sadowski J, Gasteiger J. Autocorrelation of Molecular Surface Properties for Modeling Corticosteroid Binding Globulin and Cytosolic Ah receptor. J Am Chem Soc. 1995;117:7769-75.
ANEXOS “En lo tocante a la ciencia, la autoridad de
un millar no es superior al humilde razonamiento de una sola persona”.
Galileo Galilei
ANEXOS
89
Anexo A
Normas, Medias e Invariantes Estadísticas como Generalizaciones de la Combinación Lineal de
LOVIs como Operador de Descriptores Moleculares Global (o Local), así como los algoritmos
Clásicos los cuales generalizan los primeros tres grupos. No. Grupoa Nombre ID Fórmulab
1
Normas
(Métricas)
Norma de Minkowsky (p = 1) Norma de Manhattan
N1
n
aaL
1N1
2 Norma de Minkowsky (p = 2)
Norma Euclideana N2
n
aaL
1
2N2
3 Norma de Minkowsky (p = 3) N3 3
1
3N3
n
a
aL
4 Tamaño Penrose PN
2
1)(
2
1PN
n
aaL
n
5
Media (primer momento estadístico)
Media Geométrica GM nn
aaL
1G
6 Media Aritmética
(Media de fuerza de grado β = 1)
M
1
n
nL...2L1L
M
7 Media Cuadrática (Media de fuerza de grado β = 2)
P2
8 Media de fuerza de grado β = 3 P3
9 Media Harmónica (Media de fuerza de grado β = -1)
A
10
Estadígrafo (mayor momento estadístico)
Varianza V
1-n
n
1a
2MaL
V
11 Asimetría S
n
aMaLX
DEnn
XnS
1
3)(3
3))(2)(1(
)3(*
M, media aritmética
DE, desviación estándar
12 Curtosis K
n
a
jMaLjX
DEnnn
nXXXnnk
1)(
4))(3)(2)(1(
)1)(2)(2(34)1(
M, media aritmética
DE, desviación estándar
13 Desviación Estándar DE
1
2
DE
n
Ma
L
14 Coeficiente de Variación CV M
DECV
15 Rango R minmaxR LL
16 Porciento 25 Q1
2
1
4 Q1
N
N, La number
17 Porciento 50 Q2
2
1
2 Q2
N
ANEXOS
90
N, número La
18 Porciento 75 Q3
2
1
4
3 Q3
N
N, número La
19 Rango Inter-cuarto I50 13I50 QQ
20 Valor Máximo MX MX = max La
21 Valor Mínimo MN MN = min La
22
Clásicos
Autocorrelación ACk
7,..2,1
)),((1 1
k
kdLLAC ij
n
i
n
j
jik
23 Gravitacional GIk
7,..2,1
)),(1
1 1
k
kdd
LL
nGI ij
n
i
n
j ij
k
ji
k
24 Suma total a lag k TSk
7,,2,1
)),(1 1
k
kdLTSn
i
n
j
ijijk
25 Conectividad Kier-Hall CNm
k
K
i
n
i
it
mk
wLKH
1 1
),(
donde, K es el número de subgrafos, nk es el número de átomos en un fragmento, λ es
igual a ½, m y t son el tipo y orden del subgrafo, respectivamente
26 Contenido de información media MI o
gA
i o
g
N
N
N
NMI 2
1
log
donde, Ng es el número de átomos con el
mismo valor de LOVI. No es el número de
átomos en una molécula.
27 Contenido total de información TI gNG
ggNNNTI
1 2log02log0
28
Contenido de información Estandarizado
SI
020 log NN
ITSI
29 Estado electrotopológico (E-state index) ES
n
j ij
ji
iiiid
IIIIIS
12)1(
donde, Ii es el estado intrínseco del ith átomo
y ΔIi es el efecto de campo en el ith átomo
calculado como perturbación del Ii de ith átomo por todos los demás átomos en la
molécula, dij es la distancia topológica entre
el ith y el jth átomos, y n es el número de átomos. El exponente k es 2.
30 Índices-Tipo Ivanciuc-Balaban IB
1
1 1
2
12
1
n
i
n
ij
jiijk LLaCn
BnJ
donde, la suma de todos los pares de átomos
pero solo pares de átomos adyacentes son
contados por medias de los elementos aij de
la matriz de adyacencia. n, B, y C son los
números de átomos, enlaces y anillos
(número ciclomático), respectivamente. a
El segundo grupo(invariantes 5-9) pueden ser renombradas como “estadígrafos locales” si percentiles y
máximos (mínimos) son tomados en consideración en este grupo. En este caso, el tercer grupo
(invariantes 10-21 pueden ser renombradas como “estadígrafos de envergadura y forma”.
bLOVIs para “a” átomos en una molécula.
Recommended