Universidad Central “Marta Abreu” de Las Villas
Facultad de Química farmacia Carrera de Ciencia Farmaceuticas
TESIS PARA OPTAR POR EL TITULO LICENCIADO EN CIENCIAS FARMCEUTICAS.
Predicción y Evaluación de la solubilidad de
los compuestos orgánicos de interés farmacéutico. Diplomante : Seangkhin Bun Tutores : Msc .Luis Alberto Torres Gómez Msc . Miguel Angel Alba de Armas
2008-2009
Dedicatoria A mis abuelos por haberme inspirado a escoger la profesión. A mis padres y hermanos a quienes quiero más que cualquier cosa del mundo. A mi novia que siempre me brinda una buena idea, cariño, amor y siga al futuro. A Revolución Cubana que me ha permitido estudiando en Cuba al tomar profesión.
Agradecimientos A mis abuelos por la presencia de su alma por haberme graduado y sígame al futuro lo más pronto posible. A mis padres y hermanos por brindarme con su gran amor, apoyo, sentimiento y cariño por haberme graduado y síga al futuro . A mi novia que siempre me brinda una buena idea, cariño, amor y siga al futuro. A mis tutores: Msc .Luis A. Torres Gómez - Msc . Miguel Angel Alba de Armas que me han apoyado durante la tesis. A todos los profesores en Facultad de farmacia que siempre me han brindado el conocimiento y su cariño. A todos los amigos que estan en Cuba como en Cambodia que siempre me han compartido algun sentimientos y experiencias. A todas las amistades que tengo en Cuba como en Cambodia y que siempre nos divertimos juntos.
Resumen.
En el trabajo se emplea la metodología de cálculo MODESLAB a la modelación
de la solubilidad de diferentes compuestos orgánicos de interés farmacéutico.
Para esto se realizó el cálculo de los momentos espectrales de la matriz de
adyacencia entre aristas del grafo molecular con hidrógenos suprimidos,
ponderada en la diagonal principal con diferentes parámetros a 216 compuestos
subdivididos en tres categoría; compuestos muy solubles, parcialmente solubles
y pocos solubles. Los descriptores calculados fueron usados en una serie de
entrenamiento y otra de predicción para obtener y evaluar el modelo
respectivamente. Con la serie de entrenamiento se desarrolló una función
discriminante para la predicción de la solubilidad obteniéndose una buena
clasificación total de 81.02 %. El modelo fue validado mediante el uso de una
serie de predicción externa con un total de 66 compuestos, obteniéndose una
buena clasificación total de un 83.33 %. Se corroboró experimentalmente la
solubilidad predicha empleando una técnica de espectroscopia ultravioleta,
determinando la absorbancia para 4 compuestos empleados en la serie de
predicción, a las longitudes de onda de máxima absorción reportadas en la
literatura.
Epígrafe Pag 1 Introducción 1 2 Revisión bibliográfica 3 2.1 Correlaciones Estructura Respuesta. (SRC 3 2.1.1 Estudios QSAR 3 2.1.2 Descriptores Moleculares 4 2.1.3 Descriptores Topológicos 6 2.1.3.1 Representación topológica de moléculas 6 2.1.3.2 Conceptos generales sobre grafos 7 2.1.3.3 Representación matricial de grafos moleculares. 7 2.1.3.4 Invariante grafo-teórica 8 2.1.3.5 Indices Topológicos 2D (ITs 2D). 8 2.1.4 Quimiometría 9 2.1.4.1 Redes neuronales artificiales 9 2.1.4.2 Clasificación 9 2.1.4.3 Análisis de Cluster 11 2.1.4.4 Análisis Por Componentes Principales 11 2.1.4.5 Análisis de regresión 12 2.1.4.6 Algoritmo Genético para la selección de variables (GA) 15 2.1.4.7 Mínimos Cuadrados Parciales (PLS). 16 2.2 Solubilidad de compuestos orgánicos 17 2.2.1 Importancia en el campo de las ciencias farmacéuticas 20 3 MATERIALES Y MÉTODOS 23 3.1 Determinación de la concentración por método Ultravioleta. 23 4 RESULTADOS Y DISCUSIÓN 25 4.1 Determinación experimental de la solubilidad. 27 5 CONCLUSIONES 34 6 RECOMENDACIONES 35 7 REVISION BIBLIOGRAFICA 36
Introducción 1
1 INTRODUCCION: El desarrollo de la Química Orgánica ha permitido hasta nuestros días la
síntesis e identificación de más de diez millones de moléculas diferentes. De
especial interés son aquellas que manifiestan determinadas propiedades útiles
para el hombre, como es el caso de los compuestos de aplicación en la Industria
Farmacéutica.
Especialmente en este tipo de industria, los métodos tradicionales de obtención
de nuevos medicamentos son cada vez más caros, pues el conjunto de pruebas
que debe superar una nueva entidad antes de ser aplicada en el hombre incluye
la definición completa de sus propiedades químico-físicas, estudios de
toxicidad, elaboración de métodos para determinar el estudio de su
comportamiento en el organismo humano y el estudio de propiedades
farmacéuticas generales. El método de prueba y error necesita ensayar sobre 10
mil compuestos de los cuales 10 superan todos los ensayos y solo 1 puede
convertirse en una medicina de prescripción. La pérdida de una molécula en las
etapas finales supone una gran frustración y pérdida de recursos.[1-3]
Debido al alto costo de desarrollo de nuevos excipientes para la Industria
Farmacéutica, en los últimos años se han aplicados los métodos de modelación
molecular. Estos métodos se basan en el estudio de la relación entre la
estructura molecular de las sustancias y las propiedades químico físicas. Entre
las múltiples aproximaciones que existen para estos fines están aquellas que se
basan en el estudio de descriptores moleculares topológicos, los cuales son
calculados a partir de conceptos de la teoría de grafos aplicados a la Química
Orgánica. [1, 4, 5]
La aproximación llamada Modeslab (2) basada en el cálculo de los momentos
espectrales de la matriz de adyacencia entre los enlaces, la emplearemos
como metodología de cálculo para los descriptores que emplearemos en nuestro
trabajo encaminado a la predicción y evaluación de la solubilidad empleando
para esto último la espectroscopia ultravioleta. Por lo cual nos hemos trazado
como problema científico e hipótesis lo referido a continuación.
Problema científico.
Introducción 2
• El desarrollo de excipientes farmacéuticos requiere el estudio de
propiedades químico físicas, tales como la solubilidad, el cual es un
proceso largo y costoso si se realiza por el método de prueba y error.
Hipótesis
• Obtener modelos predictivos mediante el ADL permite conocer la
solubilidad de potenciales excipientes la que al ser corroborada mediante
espectroscopia ultravioleta se convierte en un proceso más corto y
menos costoso.
Por todo lo anteriormente expuesto los objetivos de nuestro trabajo son:
Objetivo general: Modelar y evaluar la solubilidad para una serie de
compuestos orgánicos reportados en la literatura que puedan ser empleados
como excipientes farmacéuticos.
Como objetivos específicos.
* Confeccionar una serie de entrenamiento y una de predicción
representativa y aleatoria.
* Obtener un modelo matemático que prediga la solubilidad de los
compuestos de interés acorde a los grupos de solubilidad escogidos.
* Evaluar empleando una técnica de espectroscopia ultravioleta la solubilidad de compuestos orgánicos de interés farmacéutico, que puedan ser empleados como excipientes.
Revisión bibliográfica 3
2 - REVISIÓN BIBLIOGRÁFICA. 2.1- Correlaciones Estructura Respuesta. (SRC) Con este término se engloban bajo una sola clasificación todas las
aproximaciones que tienen como objetivo encontrar una relación entre la
estructura química y una respuesta calculada o medida experimentalmente.
Si estas aproximaciones son cuantitativas (Relaciones Cuantitativas Estructura
Respuesta) el objetivo es obtener estas relaciones representadas por modelos
de regresión y/o clasificación. Así los estudios SRC involucran a la vez los
estudios cuantitativos de correlación y los estudios cuantitativos entre los
Descriptores Moleculares y las Respuestas.
En este sentido surgen como variantes de este tipo de análisis las
aproximaciones:
• Relaciones Cuantitativas Estructura Actividad (QSAR).
• Relaciones Cuantitativas Estructura Propiedad (QSPR).
• Relaciones Cuantitativas Estructura Reactividad (QSRR).
• Relaciones Cuantitativas Estructura Forma (QSSchR).
• Relaciones Cuantitativas Estructura Cromatografía (QSCR).
• Relaciones Cuantitativas Estructura Toxicidad (QSTR).
• Relaciones Cuantitativas Similaridad Actividad (QSiAR).
• Relaciones Cuantitativas Estructura Retención Enantioselectiva (QSERR).
y así sucesivamente. Esta definición engloba en un término más amplio otros
tipos de relaciones como las que involucran relaciones propiedad-propiedad y
similaridad-diversidad, dando lugar a las correlaciones propiedad-propiedad
(QPPR), propiedad-actividad (QPAR) e incluso actividad-actividad (QAAR). [6-8]
2.1.1- Estudios QSAR. Los estudios QSAR engloban las relaciones Cuantitativas entre la estructura
molecular y la actividad Biológica lo cual constituye uno de los paradigmas de la
Química Médica. En dependencia de la metodología empleada y los descriptores
pueden distinguirse varias clasificaciones.
Revisión bibliográfica 4
Por el término QSAR Clásico se denota aproximaciones como los análisis de
Hansch, Free-Wilson), las Relaciones Lineales de Energía Libre (LFER), las
Relaciones Lineales de Energía de Solvatación (LSER) [9, 10]
Las aproximaciones basadas en representaciones topológicas de las moléculas
son llamadas 2D-QSAR. O sea los descriptores generados solo tienen en cuenta
la representación de la molécula en dos dimensiones. El término 3D-QSAR
engloba las técnicas que tiene en cuenta descriptores 3D o sea los basados en
la representación geométrica de la molécula en tres dimensiones. Por QSAR
Dinámico (QSAR-4D) se entiende las aproximaciones que toman en cuenta la
variabilidad conformacional de las moléculas. El QSAR Binario presta atención
a modelar variables repuestas binarias como compuestos activos e inactivos
2.1.2- Descriptores Moleculares.
La adecuada representación de la estructura molecular de un compuesto es un
factor de vital importancia para el desarrollo de cualquier estudio de Correlación
Estructura Respuesta.[11-13] Los descriptores moleculares juegan un papel
fundamental en ramas como la Química, Farmacia, Protección Ambiental,
Investigación de Salud entre otras. Se dice que mediante su obtención se
“transforma” parte de la estructura química en números permitiendo el
tratamiento matemático de la información química contenida en la molécula y la
realización de las ya definidas Correlaciones Estructura-Respuesta.
Se puede definir de la siguiente forma:
El descriptor molecular es el resultado final de un procedimiento matemático y
lógico que transforma que transforma la información química codificada en una
representación simbólica de una molécula en un número útil o el resultado de
algún experimento estandarizado.
Los descriptores de acuerdo con la definición dada se pueden clasificar en dos
grandes grupos:
Revisión bibliográfica 5
1. Mediciones experimentales: log P, Refractividad Molar, Momento Dipolo,
Polarizabilidad etc. Descriptores Moleculares Teóricos: Se derivan de las
representaciones simbólicas de las moléculas.
Las principales características de un descriptor se representan en una
taxonomía de cuatro niveles. La primera se basa en el tipo de representación:
• Descriptores 0D: Se derivan de la fórmula química de la molécula. Se
puede decir que son independientes de la estructura molecular.
Descriptores 1D: Basados en la representación del tipo lista sub-estructural.
Por ejemplo lista de fragmentos o grupos funcionales en la molécula.
• Descriptores 2D: Basados en la representación en dos dimensiones de la
molécula la cual se basa en el conocimiento de la conectividad entre los
átomos que la forman; por ejemplo los basdos en la Representación
Topológica, los Sistemas de Notación Lineal por ejemplo el sistema de
Wiswesser y la notación SMILES [14]
• Descriptores 3D: Basados en la representación tridimensional de la
molécula como un objeto rígido. Permite la representación de la
conectividad entre los átomos y de la configuración espacial de la molécula.
Ejemplo de estos descriptores son los descriptores geométricos, estéricos y
de tamaño[1]
• Descriptores 4D: Derivadas de la representación tridimensional de la
molécula y su interacción con una sonda que caracteriza el ambiente
(campos de interacción molecular). [15]
• Basados en representación estereodinámica (QSAR dinámico): es una
representación dependiente del tiempo que adiciona propiedades
estructurales a las representaciones 3D como flexibilidad, comportamiento
conformacional, propiedades de transporte.
El segundo nivel tiene que ver con la representación matemática de los
descriptores. Aquí se destacan los descriptores representados en forma de
valor escalar, vector, matrices, tensores o campos escalares.
El tercer nivel caracteriza las propiedades de invarianza de los descriptores.
Esto se define como la habilidad del algoritmo de generación del descriptor para
Revisión bibliográfica 6
ser independiente de las características particulares de la representación
molecular (numeración de los átomos, marco de referencia espacial,
conformación molecular, etc.) siendo la primera de estas tres características la
asumida como mínima para cualquier descriptor. Este nivel genera varios niveles
de invarianza:
Invarianza Química: Invariante frente a cambios de átomos o enlaces en la
molécula
Invarianza transnacional y rotacional: Invariante frente a rotaciones o
movimientos de la molécula
Invarianza Conformacional, en dependencia de su variación con la
conformación.
Degeneración de los Descriptores Moleculares: Expresa la habilidad del
descriptor de evitar valores iguales para moléculas diferentes. Se clasifican en
este sentido en Ninguna degeneración (N), Baja (L), Intermedia (I) y alta (H). La
degeneración es considerada una característica no deseable para todos los
descriptores moleculares, sin embargo son útiles para modelar propiedades que
son degeneradas también.[16]
2.1.3- Descriptores Topológicos. 2.1.3.1- Representación topológica de moléculas.
Una representación de un objeto que solo brinda información sobre el número de
elementos que lo componen y sus conectividades, se nombra representación
topológica de dicho objeto. En ese sentido, la topología es aquella parte del
álgebra que estudia las posiciones e interconexiones de los elementos dentro de
un conjunto .[14] Si la topología se aplicada a las moléculas, da lugar a la
topología molecular. [12, 17] Por tanto, una representación topológica de una
molécula puede ser obtenida utilizando un grafo molecular. A continuación se
darán algunas de las principales definiciones en teoría de grafos.
Revisión bibliográfica 7
2.1.3.2- Conceptos generales sobre grafos.
Ante todo, comenzaremos por introducir matemáticamente el concepto de grafo.
En términos matemáticos un grafo es representado como G = (V, E), donde V es
el conjunto de vértices y E es el conjunto de aristas. El número de vértices en un
grafo es designado como n y el número de aristas por m. Los vértices vi, vj se
llaman adyacentes si existe una arista ak tal que ak = { vi, vj}∈ V, (o sea, si existe
una arista que los une). Dos aristas se denominan adyacentes si ellas tienen un
vértice en común.[7, 13, 18]
2.1.3.3- Representación matricial de grafos moleculares.
Los grafos moleculares son ampliamente usados para representar la estructura
química de compuestos orgánicos en una forma gráfica y esta convención es
ampliamente usada en los libros y artículos científicos de química. Sin embargo,
los grafos moleculares son una representación no numérica de la estructura
química; y la obtención de los descriptores moleculares para los estudios
bioinformáticos requieren una descripción numérica de los grafos moleculares.
Los grafos pueden ser representados en forma algebraica matricialmente. Esta
descripción numérica de la estructura de los compuestos químicos, es esencial
para la manipulación computarizada de las moléculas y para los cálculos de los
índices moleculares que de ella derivan.
Existe un gran número de matrices que caracterizan estructuralmente a un grafo
molecular y han servido para computar varios ITs. Algunos ejemplos son la
matriz de adyacencia A = A(G), la matriz de distancia D = D(G), la matriz de
Detour, [Δ]ij [19] la matriz de Detour-distancia, [Δ-D]ij, la matriz de distancia-
valencia [Dval(p, q, w, G)]ij, la matriz de resistencia-distancia [Ω(w)]ij, la matriz de
conductancia eléctrica [EC(w)]ij, la matriz ‘reversa’ de Wiener [RW(w, G)]ij la
matriz de Szeged [Szu]ij ,entre otras.
Revisión bibliográfica 8
2.1.3.4- Invariante grafo-teórica.
Una invariante grafo-teórica es aquella propiedad del grafo que no depende de
la numeración de los elementos del mismo, las cuales pueden ser obtenidas por
manipulación algebraica del grafo. Como hemos señalado, los grafos
moleculares no son una representación numérica de la estructura química y
aunque las matrices sí constituyen una representación algebraica, tienen como
desventaja que no constituyen invariantes grafo-teóricas, ya que su construcción
depende de la numeración dada a los vértices del grafo. Sin embargo, una
simple invariante como el número de vértices, puede ser obtenido a partir de la
matriz de adyacencia. [8, 13, 16, 20] Es por ello, que para los estudios
QSPR/QSAR, el diseño de fármacos y el ‘screening’ virtual, etc, se necesitan
obtener índices numéricos que caractericen estructuralmente los grafos
moleculares y que estos índices constituyan invariantes. Estos descriptores
invariantes son los llamados Índices Topológicos (ITs).
2.1.3.5- Indices Topológicos 2D (ITs 2D).
Un IT es un resultado numérico de alguna invariante ‘extraída’ del grafo
molecular, es decir los ITs son descriptores moleculares derivados de una
invariante grafo-teórica. Por tanto, los ITs son números calculados a partir de la
representación de una molécula como un grafo, siendo independientes de la
numeración de los vértices y aristas en el grafo molecular. Estos índices
codifican información estructural contenida en la representación en dos
dimensiones (2D) de la molécula. Un resumen completo sobre los ITs es
realmente imposible, debido a la gran cantidad de estos índices que han sido
publicados en la literatura y al número de ellos que cada año son introducidos.
No obstante, en la actualidad los ITs han sido clasificados acorde a su
naturaleza en, primera segunda y tercera generación, lo cual facilita su estudio.
Un tratamiento comprensivo de todos los descriptores moleculares disponibles
fue recientemente publicado por Todeschini y Consonni [21]
Revisión bibliográfica 9
2.1.4- Quimiometría.
Es una disciplina que engloba las herramientas matemáticas y estadísticas para
enfrentar datas complejas en el campo de la Química.[22, 23] La principal
característica de estas estrategias es el enfoque multivariado al problema, la
búsqueda de información relevante, la validación de los modelos para generar
modelos con poder predictivo, comparación de los resultados obtenidos por
diferentes métodos, y la definición y el uso de índices capaces de medirla
calidad de la información extraída.
La Quimiometría es la herramienta más usada en los estudios QSAR y QSPR ya
que brinda una sólida base para el análisis y la modelación de datos
proporcionando una batería de diferentes métodos para este fín. Un aspecto
medular de esta rama es la atención que se le presta al poder predictivo del
modelo, su complejidad y calidad. A continuación se resumen algunos de los
métodos más empleados en Quimiometría.
2.1.4.1- Redes neuronales artificiales:
Constituyen una serie métodos matemáticos y algoritmos diseñados para imitar
el proceso de aprendizaje y procesamiento de información por el cerebro
humano. Son muy útiles cuando se trata de tendencias y relaciones no lineales
aplicados al procesamiento de datos, reconocimiento de patrones, modelación
de respuestas continuas y categorizadas, etc. [2]
2.1.4.2- Clasificación.
Consiste en la asignación de un objeto a una a varias clases basado en una
regla de clasificación, estas clases son definidas a priori por grupos de objetos
en la serie de entrenamiento. El objetivo es calcular la regla de clasificación,
posiblemente definir fronteras entre clases, basados en estos objetos de la serie
Revisión bibliográfica 10
de entrenamiento y aplicar esta regla en la clasificación de nuevos objetos de
clase desconocida. Estos métodos de Clasificación son muy empleados para la
modelación de varias respuestas como pueden ser activo/inactivo, bajo/medio/altamente tóxico, mutagénico/no mutagénico. Entre los métodos más populares de clasificación se encuentra el Análisis
Discriminante Lineal (LDA). Este es un método muy empleado en estudios
QSAR. En esta técnica se obtiene, en el caso de discriminar entre dos grupos,
una ecuación del tipo:
Grupo = a + b1*x1 + b2*x2 +...+ bm*xm
Donde a es una constante y b1-bm son los coeficientes de la regresión. La
interpretación del modelo es en este caso muy similar al modelo de regresión.
Las variables con mayores coeficientes influirán más en la propiedad analizada.
Cuando existe más de dos grupos se pueden determinar más de una función
discriminante como la presentada anteriormente. Los coeficientes se interpretan
de forma análoga en estas ecuaciones.
El resultado se observa al plotear (para el caso de tres grupos en la Figura 2
(Anexos)) las raices canónicas.
Existen diferentes parámetros que permiten la calidad de un modelo en Análisis
Discriminante La mayoría de la información se extrae de la llamada matriz de confusión donde
las filas representan los casos observados y las columnas los predichos. De esta
matriz se definen parámetros como: Porcentaje de buena clasificación (%NER),
Porcentaje de buena clasificación por grupos y Sensibilidad
Además se pueden mencionar parámetros no extraídos de esta matriz como:
• Distancia de Mahalanobis. Se basa en calcular las distancias entre los
centroides de cada grupo dando esto una medida de la buena
clasificación del modelo.
• Estadígrafo de Wilk (λ): Su valor nos informa acerca de la varianza no
explicada por el modelo. En teoría un valor de 0 nos informa que existe
una perfecta discriminación entre los grupos y un valor de 1 todo lo
contrario.
Revisión bibliográfica 11
Esta técnica estadística (LDA) ha sido muy empleada en estudios QSAR en
estudios de clasificación de inhibidores de diferentes proteínas: la Proteína
Fosfatasa 1, la Epóxido Hidrolasa murina y humana, la Dihidrofolato reductasa
Actividad antibacteriana Mutagenicidad por solo mencionar algunas de las
mas recientes.
Además podemos mencionar entre las técnicas más empleadas en los métodos
de clasificación: el Análisis Discriminante Cuadrático (QDA), Análisis
Discriminante Regularizado (RDA), Árboles de Clasificación (CART), Funciones
Potenciales de Clasificación (PCF) entre otros 2.1.4.3- Análisis de Cluster.
Es un caso especial del análisis exploratorio de datos encaminado a agrupar
objetos similares en el mismo cluster y los menos similares en clusters
diferentes, está basado en la evaluación de la similaridad/diversidad de todos los
pares de objetos en la data por diferentes métodos. Se ha reportado
recientemente el empleo de esta técnica en estudios de inhibidores de la
proteasa del HIV integrasa, modelación de propiedades insecticidas,
compuestos antitumorales estrógenos ambientales entre otros.
2.1.4.4- Análisis Por Componentes Principales.
Es, junto con el Análisis de Cluster, la técnica de Análisis Exploratorio de Datos
más empleada. Extrae de una matriz de n objetos y p variables, N componentes
(N<p) que contienen un determinado porcentaje de la varianza de la data
original. Sus principales aplicaciones son:
1. Reducir el número de variables.
2. Detectar una estructura en las relaciones detectadas entre las variables, o
sea clasificar variables.
Por esto este tipo de análisis es aplicado en la reducción de datos y en los
métodos de detección de estructura.
Revisión bibliográfica 12
Las principales ventajas de los Componentes principales son:
• Son ortogonales o sea contienen información única sobre los objetos
estudiados.
• Cada componente representa una macrovariable de la data.
Diversas escalas de este tipo han sido diseñadas y empleadas con este
propósito
Esta técnica de reducción ha sido empleada para el estudio de los inhibidores de
la Proteasa del HIV colectores por la flotación de la espuma de uranio formación
de pellet de pectina clasificación estructural de protein-kinasas entre otras. [8, 9,
17, 22, 24, 25]
2.1.4.5- Análisis de regresión.
Una serie de métodos estadísticos utilizan una ecuación matemática para
modelar la relación entre una variable respuesta y una serie de variables
predictivias generalmente por el método de los mínimos cuadrados. Este
acercamiento tiene dos objetivos: modelar y predecir. Esta ecuación matemática
se llama modelo de regresión
Estas técnicas no implican solamente la obtención de este modelo sino también
la determinación de los parámetros que miden la calidad de ajuste y predicción.
Parámetros de regresión
Pueden dividirse en dos grupos los que miden la calidad del ajuste y la calidad de predicción. El primer grupo mide cuan bien el modelo ajusta la data de la serie de
entrenamiento. O sea cómo el modelo explica la varianza de la variable
respuesta.
• Coeficiente de determinación (R2): Es el porcentaje de la varianza total
que es explicada por el modelo de regresión. Se define de la siguiente
manera.
Revisión bibliográfica 13
( )
( )2
1
2
12
)()(
)()(1
∑
∑
=
=
−
−−=
n
ii
n
iii
promyobsy
predyobsyR Ec. 1
Un valor de 1 indica un ajuste perfecto o sea un modelo con un término de error
de 0. Un valor relacionado es el Coeficiente de Correlación Múltiple (R) definido
como la Raíz Cuadrada de del coeficiente de determinación. Mide la asociación
entre la respuesta observada y la emitida.
Una cantidad complementaria de R2 es el coeficiente de no determinación (cdn) 21 Rcdn −= Ec. 2
• Error de desviación estándar en el cálculo (SEC): Es función de la suma
residual de cuadrados .
npredyobsy
SEC ii∑ −=
2)()(( Ec. 3
• La prueba de la relación de Fischer (F-ratio test): Está entre las pruebas
estadísticas más conocidas. Se define como la relación enre la suma
modelo de cuadrados y la suma residual de cuadrados.
El valor obtenido es comparado con el valor crítico (Fcrit) para los
correspondientes grados de libertad del modelo (dfm) y del error (dfe). Es una
comparación entre la varianza explicada del modelo y la varianza residual. A
mayores valores de F se obtendrán modelos más confiables.
Existen además diferentes modelos para poder comparar modelos con
diferentes números de variables (p) y compuestos (n) entre los que se
encuentran la R2 ajustada, FITNESS (Ajuste) y el Estadígrafo de Exner
Calidad de predicción Mide la calidad del modelo para predecir datos futuros o sea cuan bien el
modelo de regresión (o de clasificación) estima las variables respuestas dado
una serie de variables predoctoras. Estos parámetros se obtienen mediante
técnicas de validación y son muy utilizadas como criterios de selección para los
modelos. Los estadígrafos más importantes se muestran a continuación:
• R2 de la validación (R2CV o Q2) es la varianza explicada en la predicción.
Revisión bibliográfica 14
( )
( )∑
∑
=
=
−
−−= n
ii
n
iiii
promyobsy
predyobsyQ
1
2
1
2/
2
)()(
)()(1 Ec. 4
Donde yi/i es la respuesta al i-ésimo objeto estimado utilizando un modelo sin
incluir al i-ésimo objeto. Este procedimiento de validación se llama Validación
Cruzada Leave-One-Out (LOO).
Tecnicas de validación:
Son fundamentales para la evaluación de la validez del modelo obtenido.
Evalúan el poder predictivo
Muchas veces no es suficiente la cercanía de R2 a uno ni la minimización de la s
para la buena predicción de la propiedad en el futuro. El problema de la
validación es cuando se emplea técnicas de selección de variables para la
obtención del modelo . Pudiéndose dar el caso de correlación por azar.
Dentro de los métodos de Validación se encuentran:
1. Validación Cruzada: Es la técnica más usada. Se crean una número de
datas modificadas eliminando uno o varios grupos de objetos de la data
en tal forma cada objeto es eliminado al menos una vez . 2. Para estas datas modificadas se calculan los modelos y las respuestas
de los objetos eliminados se predicen a partir del modelo obtenido y se
calculan los parámetros antes definidos para determinar Calidad de
Predicción.
3. División serie de entrenamiento/serie de predicción: Es una técnica
de Validación basada en dividir la data en dos series una de
entrenamiento y otra de predicción. El modelo es calculado para la serie
de entrenamiento y el poder predictivo es evaluado por la serie de
predicción. La división se realiza seleccionando de manera aleatoria los
objetos que pertenecerán a cada serie. Como los resultados son
dependientes de la selección el proceso se deberá repetir varios cientos
de veces y promediar las capacidades predictivas . Solo se deberá
realizar una vez si la separación se estableció por un criterio bien definido
como el Análisis de Cluster.
Revisión bibliográfica 15
4. Bootstrap.
5. Validación externa.
6. Y-Scrambling
7. Validación Lateral.
8. Regla QUICK
Estos métodos de regresión son uno de los métodos más aplicados en la
Quimiometría moderna para mencionar solo algunas referencias recientes, se
han utilizado en la modelación de la inhibición de la Enzima Epóxido Hidrolasa
Actividad anti-HIV de derivados de la timina, propiedades farmacocinéticas y
farmacodinámicas de Corticosteroides en. 2.1.4.6- Algoritmo Genético para la selección de variables (GA)
Este método de selección de variables se basa en la evolución de la población
de modelos. En esta metodología se define un vector Binario I al que se llama
cromosoma. Este vector es p-dimensional donde cada posición (gen) es 0 si la
variable no está incluida y 1 si está incluida. Luego se definen los parámetros a
optimizar, el tamaño de la población (P) y el número máximo de variables
permitidas en el modelo (L) asumiendo siempre que el mínimo es 1. Se define
después un probabilidad de recombinación (Pc) usualmente alta (>0.9) y una
probabilidad de mutación usualmente pequeña (<0.1).
Una vez que todos estos parámetros se definen, la evolución del algoritmo
genético se basa en tres pasos fundamentales: Inicialización Aleatoria de la
Población, Paso de entrecruzamiento, Paso de Mutación y Paso de parada.
Una gran ventaja de este procedimiento es que no se obtiene solamente un
modelo sino una población de modelos aceptables, pudiendo hacer una
evaluación de las relaciones con la variable respuesta desde diferentes puntos
de vista. Como principal desventaja es que el mejor modelo absoluto nunca se
encuentra.
Esta técnica ha sido ampliamente estudiada y comparadas sus ventajas con
respecto a la regresión y los Mínimos Cuadrados Parciales se ha aplicado en la
Revisión bibliográfica 16
modelación de propiedades olfatorias esta metodología se puede emplear
acoplada con la Regresión Lineal con redes neuronales para la predicción de
permeabilidad de la cornea, así como con Mínimos Cuadrados Parciales para la
inhibición de enzimas recombinantes entre otras muchas. 2.1.4.7- Mínimos Cuadrados Parciales (PLS).
Es una de las muchas técnicas que producen una ecuación, o un estudio QSAR
para describir o predecir diferentes valores en una o mas variables respuesta a
partir de muchas propiedades o descriptores. Wold fue uno de los pioneros en
aplicar esta técnica a los estudios QSAR. Cuando se realiza el estudio con más
de una variable dependiente se obtiene un modelo QSAR para cada una y
posteriormente los coeficientes son interrelacionados y generalmente difieren de
los modelos originales. Es una extensión de las técnicas de Regresión Múltiple.
La principal diferencia consiste en que en vez de correlacionar directamente con
las variables dependientes se obtienen una serie de componentes que explican
cierta cantidad de la varianza experimental de los datos. El proceso de elección
de del número óptimo de componentes es basado en diversos parámetros
estadísticos. En esta técnica, se emplean la mayoría de los estadígrafos
empleados en la regresión múltiple los que mantienen sus significados. Entre
estos están R2, s, F, q2, PRESS.[6, 10, 11]
La Figura 3 (Anexos) generaliza los procesos de PLS y Regresión. Ambos
procesos tienden a maximizar el solapamiento entre las dos columnas de datos
(dependientes e independientes). La diferencia es que la regresión tiende a
maximizar el solapamiento de variables predictoras individuales para extraer los
coeficientes. El PLS maximiza el solapamiento con la matriz completa de
variables predoctoras.
Otra forma de describir el PLS es pensar en un análisis factorial de las variables
descriptoras cuyo objetivo es maximizar la alineación con la variable a predecir
en lugar de con las coordenadas cartesianas. Por esta razón el PLS es
relacionado con la Regresión por Componentes Principales, una técnica en la
Revisión bibliográfica 17
cual los scores del PCA son utilizados para la Regresión Múltiple, pero esto es
una forma menos eficiente de tratar de realizar la misma operación que se
quiere hacer con el PLS.
Son innumerables las referencias encontradas de la aplicación de esta técnica
en estudios QSAR en estudios ADME técnicas CoMSA CoMFA, la predicción de
propiedades de péptidos
2.2 Solubilidad de compuestos orgánicos
Los compuestos orgánicos son complejos y responsables en particular de las
propiedades celulares de “la vida”.
Todos los compuestos orgánicos comparten la característica de poseer un
bioelemento base, llamado "CARBONO" en sus moléculas. Esto se debe a que
el carbono se une muy fácilmente entre sí, desarrollando esqueletos básicos en
todos los compuestos orgánicos. Las soluciones en química orgánica, son
mezclas homogéneas de sustancias en iguales o distintos estados de
agregación. La concentración de estas soluciones constituye una de sus
principales características. Bastantes propiedades de las soluciones dependen
exclusivamente de la concentración.
Son ensayos sencillos para compuestos que generalmente están puros y asociar
el compuesto orgánico con algún grupo funcional presente en su estructura.
ENSAYOS ESPECÍFICOS:
Se realizan pruebas especiales para cada una de las posibles funciones
presentes en la muestra. Por ejemplo muestras oxigenadas, alquenos,
aromáticos etc.
Revisión bibliográfica 18
Ensayos específicos de solubilidad:
La solubilidad de una sustancia orgánica en diversos disolventes es un
fundamento del método de análisis cualitativo orgánico desarrollado por Kamm,
este método se basa en que una sustancia es más soluble en un disolvente
cuando sus estructuras están íntimamente relacionadas. Pero dentro de la
solubilidad también existen reglas de peso molecular, ubicación en una serie
homóloga y los disolventes que causan una reacción química como son los
ácidos y las bases, también se incluyen los ácidos orgánicos inertes que forman
sales de oxonio y sulfonio.
Independientemente de las causas de la disolución del compuesto que se
investiga, se considera que hay disolución cuando 0,05g de la sustancia sólida o
0,1 ml de la sustancia líquida forman una fase homogénea a la temperatura
ambiente con 3 ml de solvente.
Solubilidad en agua: En general cuatro tipos de compuestos son solubles en
agua, los electrolitos, los ácidos, las bases y los compuestos polares. En cuanto
a los electrolitos, las especies iónicas se hidratan debido a las interacciones Ion-
dipolo entre las moléculas de agua y los iones. El número
de ácidos y bases que pueden ser ionizados por el agua es limitado, y la
mayoría se disuelve por la formación de puentes de hidrógeno. Las sustancias
no iónicas no se disuelven en agua, a menos que sean capaces de formar
puentes de hidrógeno; esto se logra cuando un átomo de hidrógeno
se encuentra entre dos átomos fuertemente electronegativos, y para propósitos
prácticos sólo el flúor, oxígeno y nitrógeno lo forman. Por consiguiente, los
hidrocarburos, los derivados halogenados y los tioles son muy poco solubles en
agua.
Solubilidad en éter: En general las sustancias no polares y ligeramente polares
se disuelven en éter. El que un compuesto polar sea o no soluble en éter,
Revisión bibliográfica 19
depende de la influencia de los grupos polares con respecto a la de los grupos
no polares presentes. En general los compuestos que tengan un solo grupo
polar por molécula se disolverán, a menos que sean altamente polares, como los
ácidos sulfónicos. La solubilidad en éter no es un criterio único para clasificar las
sustancias por solubilidad.
Solubilidad en hidróxido de sodio: Los compuestos que son insolubles en
agua, pero que son capaces de donar un protón a una base diluida, pueden
formar productos solubles en agua. Así se considera como ácido los siguientes
compuestos: aquellos en que el protón es removido de un grupo hidroxilo, como
los ácidos sulfónicos, sulfínicos y carboxílicos; fenoles, oximas, enoles, ácidos
hidroxámicos y las formas “aci” de los nitro compuestos primarios y secundarios.
El protón es removido de un átomo de azufre, como los trío fenoles y los
mercaptanos.
De un átomo de nitrógeno como en las sulfonamidas, N-monoalcohil-
sulfonamida- N monoetilsustituidas y aquellos fenoles que tienen sustituyentes
en la posición orto.
Solubilidad en ácido sulfúrico concentrado: Este ácido es un donador de
protones muy efectivo, y es capaz de protonar hasta la base más débil. Tres
tipos de compuestos son solubles en este ácido, los que contienen oxígeno
excepto los diariléteres y los perfluoro compuestos que contienen oxígeno, los
alquenos y los alquinos, los hidrocarburos aromáticos que son fácilmente
sulfonados, tales como los isómeros meta di sustituidos, los trialcohil-sustituidos
y los que tienen tres o más anillos aromáticos. Un compuesto que reaccione con
el ácido sulfúrico concentrado, se considera soluble aunque el producto de la
reacción sea insoluble.
Revisión bibliográfica 20
2.2.1 Importancia en el campo de las ciencias farmacéuticas. La preparación de disoluciones es una de las operaciones mas utilizadas en
Tecnología Farmacéutica. En unos casos, las disoluciones constituyen el
objetivo final, dando lugar a formas farmacéuticas líquidas, como inyectables,
lociones de uso tópico, gotas oculares, elixires y jarabes. En otros casos, la
preparación de una disolución es una fase intermedia en la elaboración de otras
formas farmacéuticas. En algunas técnicas de recubrimiento de formas
farmacéuticas sólidas mediante una delgada película, el material de
recubrimiento se disuelve en un disolvente orgánico que posteriormente se
evapora. En ciertos procedimientos de microencapsulación, el ingrediente
farmacéutico activo (IFA) y el polímero se disuelven conjuntamente en un líquido
que se elimina también posteriormente. [26, 27]
La solubilidad de los componentes de la formulación es uno de los factores
importantes que hay que considerar en la preparación de disoluciones. Además
la solubilidad y la velocidad de disolución son parámetros que influyen en la
absorción, y por tanto en la acción del medicamento, ya que, de un modo
general, solo las moléculas disueltas son capaces de atravesar las membranas
biológicas. El agua, elemento esencial para la vida, es el principal vehículo
líquido para administrar medicamentos, por su ausencia de toxicidad. Cuando
los ingredientes farmacéuticos activos (IFAs) son insolubles en agua a la dosis
terapéutica, pueden plantear problemas tecnológicos de formulación y
problemas biofarmacéuticos.
La teoría de la solubilidad nació en un área teórico-experimental de la química y
ha evolucionado introduciéndose en las ciencias farmacéuticas para ayudar a
resolver problemas que se plantean tanto durante el desarrollo de una
formulación como en relación a la biodisponibilidad de un IFA.[28]
La solubilidad es la concentración de soluto en una disolución saturada,
determinada en presencia de un exceso de soluto sin disolver. Cuando se fijan la
presión y la temperatura, la solubilidad es una constante de equilibrio
Revisión bibliográfica 21
característica de una molécula. Es muy importante que haya un ligero exceso de
sólido sin disolver, para que se establezca la condición de equilibrio.
La farmacopea británica establece las expresiones semicuantitativas de la
solubilidad que se presentan en la siguiente tabla:[29]
Tabla. 1 Criterios de solubilidad según reportes de la farmacopea
Término descriptivo Mililitros de disolvente por gramo de
soluto
Muy soluble Menos de 1
Fácilmente soluble Entre 1 y 10
Soluble Entre 10 y 30
Bastante soluble Entre 30 y 100
Poco soluble Entre 100 y 1000
Muy poco soluble Entre 1000 y 10 000
Prácticamente insoluble Más de 10 000
Los factores que influyen en la solubilidad se pueden clasificar como factores
dependientes del medio (temperatura, la constante dieléctrica y el pH de la
disolución), de las propiedades en estado sólido del soluto (grado de
cristalinidad y el polimorfismo) y de las interacciones en disolución (interacción
del soluto y el disolvente), y tienen la capacidad de incrementar o disminuir la
solubilidad. [30]
El agua es el disolvente por excelencia. Posee un momento dipolar permanente
muy elevado (µ= 1.87) y puede formar enlaces dipolo-dipolo, dipolo-dipolo
inducido, dipolo-ion y puentes de hidrógeno. Las moléculas de agua se asocian
entre si mediante puentes de hidrógeno de gran intensidad que le confieren una
estructura muy ordenada y compacta, responsable de dos importantes efectos:
la hidratación hidrofóbica y la interacción hidrofóbica. En disolución acuosa, las
moléculas y grupos no polares (hidrocarburos, grupos alquílicos de IFAs)
inducen un aumento del orden de las moléculas de agua que los rodean,
reforzando los enlaces de hidrógeno del agua en su entorno (“estructura
Revisión bibliográfica 22
iceberg”). Este efecto se conoce como hidratación hidrofóbica y produce una
fuerte disminución de entropía que explica la baja solubilidad de los
hidrocarburos en agua. La interacción hidrofóbica se produce entre moléculas o
grupos no polares que se aproximan y expulsan el agua ordenada (icebergs)
que solvata a sus grupos hidrófobos independientemente. Como resultado, se
produce un aumento de entropía que estabiliza y caracteriza este tipo de
interacción. El agua se utiliza en la elaboración de casi todas las formas
farmacéuticas, ya sea como vehículo principal o como sustancia auxiliar.
Materiales y Métodos 23
3- MATERIALES Y MÉTODOS.
Para la búsqueda de modelos de clasificación se seleccionó una serie de
entrenamiento, formada por tres componentes fundamentales: en primer lugar,
un conjunto de compuestos químicos con una solubles en agua solubles en
agua y uno poco solubles.[19, 30-33]
Para esta serie de entrenamiento se le calculó los momentos espectrales a cada
uno de los compuestos que la componen ponderando los grafos moleculares
con el momento dipolo estándar de enlace, se obtuvo una matriz de datos que
contiene los momentos espectrales desde μ0 hasta μ15 para cada uno de los
compuestos.
Los momentos espectrales empleados en este trabajo fueron calculados, con el
programa Modeslab , el cual genera los datos en ficheros de extensión .txt
compatibles con el Microsoft Office.
El procesamiento de los datos para crear nuevas variables se realizó con el
tabulador electrónico Microsoft Excel versión 7.0 para Windows [34]
Los ficheros generados por Excel fueron procesados con el software
ESTATISTICA 8.0 para Windows . En la que se empleó el análisis discriminante
lineal para buscar los modelos de clasificación [35]
Todos los software fueron corridos sobre una computadora personal IBM
Compatible Pentium IV a 2.8 GHz con 1 GB de memoria RAM .
3.1 Determinación de la concentración por método Ultravioleta.
Se adicionan 0.05 gramos de cada sustancia solida en 50 mL de agua destilada
obteniéndose una solución sobresaturada, se toman 10 mL y se diluyen a 50
mL a la que se realiza un espectro ultravioleta determinando la absorbancia a la
longitud de onda de máxima absorción reportada en la literatura, para el caso del
n-butanol que es una sustancia líquida se mezclan 20 mL del alcohol con 40 mL
de agua hasta la separación en dos fases, después la fase acuosa la cual
Materiales y Métodos 24
constituye una solución saturada se le realiza un espectro ultravioleta de forma
similar al proceder inicial para las demás sustancias empleadas en el estudio.
Equipamiento empleado
• Matráz de 50 mL
• Matráz de 100 mL
• Pipeta de 20 mL
• Balanza digital BOECO Germany
• Espectrógrafo Ultravioleta Genesys 10 uv. usa
Resultados y Discusión 25
4 – RESULTADOS Y DISCUSIÓN El primer paso para encontrar un modelo teórico que permita descubrir nuevas
moléculas y estudiar sus propiedades es diseñar una serie de entrenamiento
representativa y aleatoria. En este trabajo se ha contado con una amplia data de
216 compuestos que comprenden compuestos divididos en dos series, una de
entrenamiento y otra de predicción, a su vez en cada serie los compuestos están
subclasificados siguiendo un criterio de solubilidad reportado en la literatura
en compuestos escasamente solubles, parcialmente soluble y extremadamente
solubles. Esta data fue dividida, como se expuso anteriormente en dos subseries,
una conteniendo 150 compuestos, como serie de entrenamiento y 66 en la serie
de predicción, a los cuales se le ha hecho un análisis de Cluster K-means
(STATISTICA 8.0)
Los modelos de clasificación así como los parámetros estadísticos son mostrados
a continuación:
Muy solubles:
Y= - 1.41 µ[Hyd]1 – 54x10 -4 µ[Hyd]6 + 0.0426 µ[Hyd]5 + 2.8846 µ[Std]1 + 0.2
[Mol]1 – 10 -5 µ[Pol]4 + 0.0989 µ[Dip]3 – 0.554 µ[Dip]2 + 1.3265 µ[Hyd]2 -
3484 µ[Std]2 – 3.56784 . Ec. 5
lambda = 0.36 D2 = 6.33 F = 15.14
Parcialmente solubles:
Y= 0.16422µ[Hyd]1 + 0.00262µ[Hyd]6 + 0.00772µ[Hyd]5 + 3.1425µ[Std]1 +
34099µ[Mol]1 + 0.00025 µ[Pol]3 + 0.03936 µ[Dip]3 – 0.17481 µ[Dip]2 + 1.46318
[Hyd]2 – 1.84018 µ[Std]2 + 4x10-5 µ[Std]8 – 4.41078 . Ec. 6
lambda = 0.36 D2 = 6.33 F = 15.14
Poco solubles:
Y= 0.39631 µ[Hyd]1 + 0.01861 µ[Hyd]5 + 6.0067 µ[Std]1 + 0.3372 µ[Mol]1 +
2769 µ[Dip]3 – 1.4393 µ[Dip]2 + 4.05433 µ[Hyd]2 – 3.5139 µ[Std]2 – 7x10 -4
[Std]7 + 9x10 -5µ[Std]8 – 7.5257 Ec. 7
lambda = 0.36 D2 = 6.33 F = 15.14
Resultados y Discusión 26
Donde λ es la lamda de Wilks’, D2 es la distancia de Mahalanobis y la F es la
razón de Fisher.
La λ de Wilks’ puede tomar valores entre 0 (discriminación perfecta) y 1 (no
discrimina). La selección de los modelos se realizó en base a la calidad
estadística de los mismos, los estadígrafos de comparación multivariada tenidos
en cuenta para este fin fueron, en primer lugar la lambda (λ) de Wilks. De un
conjunto elevado de modelos obtenidos se seleccionaron sólo aquellos cuyo valor
de λ es el más pequeño posible, ya que permite evaluar la hipótesis de que dos o
más grupos provienen de poblaciones con medias significativamente diferentes
para un conjunto de variables. Debido a que valores pequeños de (λ) indican
diferencias entre las medias de grupos, este se considera uno de los mejores
criterios de comparación multivariada. Otro criterio estadístico importante a la hora
de decidir qué modelo se debía seleccionar para realizar clasificaciones de calidad
en el proceso de diseño de fármacos fue el cuadrado de la distancia de
Mahalanobis (D2 ), la cual es una especie de distancia entre los centroides de
cada uno de los supuestos grupos, por lo tanto su valor indicará, de una manera
proporcional, la diferencia entre ambos, para grupos idealmente separados entre
si la D2 como estimador insesgado de la F de Fisher debe ser mayor o igual a esta
para demostrar significación estadística en la prueba de hipótesis, ninguno de los
modelos encontrados cumplió este requisito lo cual indica que no hay una
separación total entre los grupos sino que existe cierta superposición. En
este caso D2 es menor que F, indicando que existe un sobrelapamiento entre los
grupos reales, este hecho puede ser explicado ya que existen moléculas que se
encuentran en el límite de solubilidad de los grupos, y para mayor precisión debía
hacerse un análisis difuso que no es el objetivo de nuestro trabajo .
los resultados de la matriz de clasificación tanto para la serie de entrenamiento
como para la serie de predicción se muestran a continuación
Resultados y Discusión 27
Tabla 2 Matriz de clasificación según la serie de entrenamiento
Por ciento G_1:1 G_2:2 G_3:3
G_1:1 86.27451 60 8 8
G_2:2 72.30769 6 32 5
G_3:3 81.63265 4 5 28
total 81. 01852 70 45 35
Se hizo una valoración de la efectividad del proceso de clasificación. Para ello se
tuvo en cuenta los resultados de la matriz de clasificación, para asegurar la alta
calidad del modelo sólo se tomaron aquéllos en los cuales el porcentaje de casos
bien clasificados no fuera inferior al 70%, en este sentido se tuvo en cuenta que el
porcentaje de casos bien clasificados para los grupos de sustancias en estudio
fuera alto, para evitar la aparición de “falsos activos” a la hora de la predicción, lo
cual muestra la calidad de los modelos ya que evita la mala selección de un
compuesto. Además de esto, se prestó especial atención como criterio final de
selección, a la capacidad predictiva de los modelos, caracterizado por el
porcentaje de buena clasificación en la serie de predicción.
Tabla 3 Matriz de clasificación según la serie de Predicción
Por ciento G_1:1 G_2:2 G_3:3
G_1:1 87.5 28 1 0
G_2:2 78.98 2 15 3
G_3:3 80 2 3 12
total 83.33 32 19 15
4.1 Determinación experimental de la solubilidad.
La solubilidad es la concentración de soluto en una disolución saturada,
determinada en presencia de un exceso de soluto sin disolver. Cuando se fijan la
presión y la temperatura, la solubilidad es una constante de equilibrio
Resultados y Discusión 28
característica de una molécula. Es muy importante que haya un ligero exceso de
sólido sin disolver, para que se establezca la condición de equilibrio.
Para cumplimentar esto en nuestro trabajo partimos de usar las 4 sustancias
referenciadas con antelación, se procedió según la técnica descrita a determinar la
solubilidad de estos compuestos, en el caso de las sustancias en estado sólido se
partió de obtener una solución saturada de cada una, adicionando un exceso del
soluto en un volumen fijo del disolvente, agua en este caso, con posterior
eliminación del residuo solidó, al obtener el espectro ultravioleta para estas
disoluciones en todos los casos no nos permitía identificar el máximo en la
absorbancia, haciéndose necesario realizar una dilución, es de destacar que para
realizar estas determinaciones se escogieron las longitudes de ondas reportadas
en la literatura como máximos de absorción para cada caso y a los cuales se
conoce la absortividad. Una vez realizada la dilución y repetido el espectro se
procede a calcular el porcentaje de cada sustancia disuelta, según el siguiente
procedimiento.
Ley de Lambert
A = єbc
Log E = 2.79
Resultados y Discusión 29
Tabla 6. Compuestos empleados en el estudio de determinación de solubiulidad
Compuestos Estructura química Porcentaje Masa
Ac salicílico O OH
OH
4% 0.0020 g
Ac barbitúrico
2.6% 0.0013 g
colesterol
1.38% 0.0007 g
butanol
89% 2.2000 g
Evaluación de la solubilidad mediante espectroscopia ultravioleta
NH NH
O
OO
CH3 OH
Resultados y Discusión 30
Acido salicílico Aplicando el espectroscopia ultravioleta con una muestra de Acido salicílico se
observaron bajo condición UV a la longitud de onda λ = 302 nm cuyo valor se
correspondiera con la máxima A = 1.938
Figura 1 Espectro Ultravioleta del ácido salicílico
Acido barbitúrico Aplicando el espectroscopia ultravioleta con una muestra de Acido barbitúrico se
observaron bajo condición UV a la longitud de onda λ = 258 nm con la máxima
absorbancia A = 2.687
Figura 2 Espectro Ultravioleta del ácido barbitúrico
Resultados y Discusión 31
Colesterol Aplicando el espectroscopia ultravioleta con una muestra de colesterol se
observaron bajo condición UV a la longitud de onda λ =196 mn con la máxima
absorbancia A = 0.094
Figura 3 Espectro Ultravioleta del colesterol
Resultados y Discusión 32
Butanol Aplicando el espectroscopia ultravioleta con una muestra de butanol se
observaron bajo condición UV a la longitud de onda λ =196 mn con la máxima
absorbancia A = 0.821
Figura 4 Espectro Ultravioleta del butanol
Los resultados obtenido en cuanto a la solubilidad de los compuestos evaluados
se corresponde con los reportes teóricos, en los cuales los compuestos con alto
peso molecular presentan una limitada solubilidad en agua, en nuestro caso el
colesterol es el menos soluble, perfectamente acorde a sus características
estructurales en el que el esqueleto esteroidal le confiere una gran lipofília a la
molécula, un tanto contradictorio pudiera parecer el comportamiento del ácido
barbitúrico que posee mayor cantidad de grupos polares y heteroátomos capaces
de formar puentes de hidrógeno con el agua y solo se solubiliza en un 2.6 %, este
hecho puede estar asociado al alto grado de conjugación que existe en la
molécula y por tanto se limita la posibilidad de establecer dichos enlaces de
hidrógeno con el agua, para el acido salicílico que aunque es un compuesto
aromático su solubilidad en agua es mayor, no solo por el hecho de presentar un
grupo carboxilo y un hidroxilo fenólico sino que dado su carácter ácido acentuado
Resultados y Discusión 33
puede ionizarse en agua y aumentar la cantidad que se disuelve, enmascarando
un tanto el proceso físico de solubilidad. Para el caso del n-butanol si tiene el
comportamiento esperado ya que su cadena hidrocarbonada no es lo suficiente
larga como para compensar el efecto del grupo hidroxilo desde el punto de vista
de formar enlaces de hidrógeno con el solvente en este caso el agua. Por otra
parte el comportamiento en los espectros también está acorde con los reportes
bibliográficos donde tanto el colesterol como el n-butanol al no presentar grupos
cromóforos o insaturaciones conjugadas presentan absorción a longitudes de
ondas inferiores a los 200 nm, correspondientes a las transiciones n ati pide los
grupos hidroxilos, mientras que el colesterol y el ácido barbitúrico presentan
dichos grupos y aparece la absorción a lambdas superiores a los 200 nm, estos
máximos de absorción experimentales se corresponden con los reportados en la
farmacopea.
Conclusiones 34
5 - CONCLUSIONES
• Se confeccionó una serie de entrenamiento y una de predicción
representativa y aleatoria.
• Se obtiene una función discriminante para la predicción de la solubilidad
de compuestos orgánicos con interés farmacéutico con un porcentaje de
buena clasificación, superior al 80%.
• Se corroboró la solubilidad predicha empleando una técnica de
espectroscopía ultravioleta.
• Se demostró la utilidad de la espectroscopía ultravioleta en la
determinación cuantitativa de la solubilidad de compuestos orgánicos.
Recomendaciones 35
6 - RECOMENDACIONES
• Desarrollar modelos predictivos empleando otras metodologías de
cálculo.
• Validar la técnica de espectroscopía ultravioleta como una vía para
determinar la solubilidad de compuestos orgánicos de interés
farmacéutico.
• Aplicar la metodología desarrollada a nuevos compuestos.
Bibliografía 36
7 BIBLIOGRAFÍA
1. E, E., Aplications of Aproximations in adyacence Matrix of edge. J. Chem. Inf. Comput, 1998.
2. Lajiness, M.S., Molecular similarity-Based Methods for Selecting Compounds for Screenig. In Computacional Chemical Graph Theory. 1990, new york.
3. Adler, M., A detailed discussion of the crystal structure of compound 31 bound to fXais described elsewhere. M.Biochemistry, 2002.
4. Estrada, E., Aplication of aproximations Toss Mode. J. Chem. Inf. Comput, 1995. 35.
5. H, Y., QSAR studies of HIV-1 integrase inhibition. Bioorg Med Chem., 2002. 12.
6. Helmut Mack, Orally active thrombin inhibitors .Par t1: Optimization of the P1-moiety. Bioorg Med Chem., 2006.
7. MG, F., QSAR studies of the pyrethroid insecticides. Part 3. A putative pharmacophore derived using methodology based on molecular dynamics and hierarchical cluster analysis. J Mol Graph Model., 2003.
8. Rodríguez, L., Topological Substructure Molecular Design. 1997: Cuba. 9. Satoshi Komoriya, Design ,synthesis ,and biological activity of non-basic
compounds as factor Xa inhibitors :SAR study of S 1 andaryl binding sites. Bioorg Med Chem., 2005.
10. X, J., SARandX-raystructuresofenantiopure1,2-cis-(1R,2S)-cyclopentyldiamineandcyclohexyldiaminederivativesasinhibitorsofcoagulationFactorXa. Biorganic Medicinal Chemestry, 2007.
11. Y, F., Quantitative structure-antitumor activity relationships of camptothecin analogues: cluster analysis and genetic algorithm-based studies. J Med Chem, 2004.
12. T, S., Classification of environmental estrogens by physicochemical properties using principal component analysis and hierarchical cluster analysis. J Chem Inf Comput, 2003. 2.
13. T, N., Structural classification of protein kinases using 3D molecular interaction field analysis of their ligand binding sites: target family landscapes. J Med Chem, 2002.
14. Gálves, J., Diseño de medicamentos. 1995, España. 15. Deng, H., Synthesis, SAR exploration ,and X-raycrystalstructures of factor
XIa inhibitors containing alfa-ketothiazolearginine. Bioorg Med Chem., 2006.
16. MonicaJ., Substitutedthiophene-anthranilamidesaspotentinhibitorsofhumanfactorXaq. Bioorg Med Chem., 2006.
17. RobertJ, Structure and property based desig no ffactor Xa inhibitors :Biarylpyrrolidin-2-one sin corporating basic heterocyclic motifs. Bioorg Med Chem., 2007.
Bibliografía 37
18. I, T., Quantum chemical descriptors in the formulation of pectin pellets produced by extrusion/spheronisation. Eur J Pharm Sci, 2002. 16.
19. I.E, F., The Data Analysis Handbook, E. Amsterdam, Editor. 1990. 20. R, K., A priori molecular descriptors in QSAR: a case of HIV-1 protease
inhibitors. I. The chemometric approach. J Mol Graph Model, 2003. 21. Hansch, C., Muir, R.M., Fujita, T., Maloney, P.P., Geiger, F., Streich, M,
The Correklation of Biological Activity of Plant Growth and Choromycetin Derivatives with Hammet Constants and Partition Coefficients. J. Am. Chem, 2003: p. 2817-2824.
22. J, R., Structure and property based design of facto rX ainhibitors :Pyrrolidin-2-one swith biaryl P4 motifs. Bioorg Med Chem., 2007.
23. Kidera, A., Statistical Analysis of the physical properties of the 20 Naturally Occurring Amino Acids. 2000, NY.
24. JenniferX, 5-Amidinobenzo[b]thiophenesas dual inhibitors of factors IXa and Xa. Bioorg Med Chem., 2004.
25. L, E., Peptide QSAR on substance P analogues, enkephalins and bradykinins containing L- and D-amino acids. Acta Chem Scand., 1990.
26. Foye, W.O., Principios de Química Farmacéutica. 1984, España. 27. Goodman, Bases Farmacológicas de la terapéutica. 2000, Los Angeles. 28. Wade A, W.P., Handbook of pharmaceutical excipients. 1994: Second
edition. London: The Pharmaceutical Press. 29. Brtish Pharmacopeia. 2004. 30. autores, C.d., Hanbook de solubilidad de compuestos orgánicos en agua.
2007. 31. autores, C.d., Merck Index. 2000. 32. Españoles, C.d.F., ed. Base de Datos del Medicamento. 2002: España. 33. Newger, M., Organic compounds and drug synonimons 1989. 34. Microsoft Excel for Windows XP Ver. 7.0 Copyright 1985-2005. 2003. 35. 8.0, S. 2007: England.