estimación del lc50 para sustancias químicas de uso
Post on 23-Jul-2022
7 Views
Preview:
TRANSCRIPT
1
Estimación del LC50 para sustancias químicas de
uso industrial por QSAR
Juan Sebastián Hernández Gómez
Asesores: María Elsa Correal Núñez y Felipe Muñoz Giraldo
Tesis de pregrado desarrollada en la Universidad de los Andes en cumplimiento de los requerimientos para
obtener un título en Ingeniería química e Ingeniería Industrial
Resumen
El LC50 de una sustancia determina la concentración letal de ésta para un organismo y por tanto establece un parámetro de
control para la exposición a diferentes compuestos en la industria. En los últimos cincuenta años, el desarrollo de herramientas
computacionales y la investigación en el campo de los descriptores (parámetros que describen información de la estructura de
una molécula) han llevado a la implementación cada vez mayor de los modelos de relación cuantitativa estructura actividad
(QSAR por sus siglas en inglés) en la estimación de propiedades de compuestos entre ellas el LC50. En este trabajo, se presenta
el planteamiento detallado de un modelo QSAR de regresión lineal para la estimación del LC50 oral para peces de la especie
Pimephales promelas partiendo de una base inicial de 1124 descriptores para un grupo de 301 compuestos orgánicos entre los
que se encuentran solventes comúnmente usados en la industria farmacéutica. Luego de analizar los descriptores establecidos fue
posible obtener un modelo de regresión conformado por tres variables, el coeficiente de partición octanol-agua de Ghose
Crippen, el área de superficie polar topológica total y el índice 3D de Harary, registrando p-values menores al nivel de
significancia manejado (𝛼=0.01) en los tres casos. Adicionalmente se validaron los resultados obtenidos por el modelo llevando
a cabo un análisis de observaciones influyentes, multicolinealidad y heterocedasticidad obteniendo modelos con un R2 superior a
0.6 en todos los casos.
Palabras claves: Absorción, Distribución, Metabolismo, QSAR, LC50, Descriptor, Significancia
1. Introducción
En la industria química (farmacéutica, petrolera, etc.)
existen regulaciones sobre la concentración de los
diferentes compuestos tanto en el aire (en forma de vapores)
como en el agua, sin embargo, la existencia de gran
cantidad de sistemas ha llevado tanto a inconsistencias en la
protección de operarios y personas que pudieran entrar en
contacto con este material, como a generar excesivos
estándares de regulación [1]. Ante estas dificultades, la
ONU decidió establecer un Sistema Global Armonizado
(GHS por sus siglas en inglés), que hizo posible reducir los
estudios químicos requeridos, los riesgos mencionados
previamente y además, facilitar el comercio de químicos
entre distintos países. A pesar de la creación de este
sistema, sigue existiendo una gran cantidad de compuestos
para los que no se encuentra información experimental
disponible de diversos parámetros. [2]
En la actualidad en Colombia, el control que existe sobre
los productos químicos y en especial sobre la concentración
letal de diferentes compuestos, se encuentra poco
desarrollada, ya que a pesar de que existe una mesa de
trabajo creada por el Ministerio de Ambiente y Desarrollo
Sostenible para implementar el GHS a nivel nacional, la
falta de capacidad institucional para asumir el tema y la
limitación de recursos financieros para su correcta
implementación y verificación de cumplimiento no han
permitido el oportuno desarrollo del proyecto [3]. Un
estudio de toxicidad haciendo uso de ratas, incluye cerca de
800 animales y acarrea un costo de cerca de $6 millones de
dólares para sólo una sustancia [4], lo que dificulta el
desarrollo de estos y por tanto disminuye la disponibilidad
de parámetros de control.
Dados los problemas mencionados anteriormente, la GHS
estableció que si no existe información experimental
disponible para una propiedad de un compuesto de interés,
se debe llevar a cabo el cálculo de la misma con ayuda de
modelos como lo son el QSAR y QSPR [2]. El propósito de
estos modelos es establecer una relación matemática entre
una propiedad fisicoquímica de la molécula y unos
descriptores relacionados con la estructura de la misma, de
2
manera que la propiedad se vea explicada como una función
de estos factores [5].
Los estudios en relaciones cuantitativas estructura-
propiedad (QSPR por sus siglas en inglés) se iniciaron en el
año 1868 cuando Crum-Brown y Fraser plantearon la
posible existencia de relaciones entre actividades
fisiológicas y propiedades químicas explicando cambios en
actividades biológicas a partir de pequeñas modificaciones
estructurales. [6]. Durante los siguientes años grandes
avances en el campo serían llevados a cabo por Richardson
(1869), Reynolds (1877), Richet (1893) y varios más
durante el siguiente siglo, sin embargo, el avance decisivo
sería realizado por Hammett en 1937 con su estudio de la
tasa relativa de reacción de sustituyentes benzoicos meta- y
para- que lo llevarían al desarrollo de la constante y
ecuaciones que llevan su nombre [7]. A partir de estas
ecuaciones, Hammet logró establecer una relación entre
constantes calculadas cuantitativamente y la constante de
reacción en compuestos orgánicos, estableciendo así una
base para el posterior estudio de estos métodos.
Luego de este avance, en 1964 se daría el desarrollo de dos
metodologías de manera independiente que sentarían las
bases del estudio de relaciones cuantitativas estructura-
actividad (QSAR por sus siglas en inglés) moderno. Con la
divulgación de su informe “𝜚-𝜎-𝜋 Analysis. A method for
the correlation of biological activity and chemical
structure”, Hansch y Fujita dieron origen a la aproximación
extratermodinámica que posteriormente sería conocida
como el análisis de Hansch, mientras que Free y Wilson
publicarían “A mathematical contribution to structure
activity studies” haciendo uso de las nuevas herramientas
computacionales disponibles en la época [8], llegando así a
la eq. 1.
log 1/𝐶 = ∑ 𝑎𝑖𝑗 + 𝜇 (𝑒𝑞. 1)
donde 𝑎𝑖𝑗 representa la contribución del sustituyente 𝑋𝑖 en
la posición j, mientras que 𝜇 corresponde al valor teórico de
la actividad biológica de un compuesto de referencia en la
serie. Este modelo permaneció sin cambios hasta la década
de los noventa cuando surgieron varias mejoras de la
combinación de los métodos previamente enunciados y la
formulación de modelos teóricos no lineales para la
distribución y transporte de medicamentos en un sistema
biológico, derivando así en el siguiente modelo [8]
log 1/𝐶 = 𝑎 log 𝑃 − 𝑏 log(𝛽𝑃 + 1) + 𝑐 (𝑒𝑞. 2)
donde C corresponde a una propiedad de estudio como la
toxicidad y P a una variables asociada a la misma. Tras
estos avances se estableció como principio del QSPR y
QSAR que estructuras similares presentan propiedades
análogas y variaciones en la estructura molecular conllevan
a cambios en propiedades macroscópicas [6]. Con el
desarrollo de estos modelos y los métodos computacionales
modernos, se ha logrado consolidar una base de datos de
descriptores (parámetros que corresponden a información
específica de la molécula estudiada) para una amplia gama
de sustancias. Los descriptores se han clasificado en
constitucionales, topológicos, geométricos y quimico-
cuánticos dependiendo de la dimensión de su representación
molecular [9]. La alta disponibilidad de descriptores por los
desarrollos tecnológicos del último siglo ha permitido llevar
a cabo modelos de redes neuronales artificiales como el
desarrollado por Devillers en 2001 [10] y análisis de
regresión múltiple en el caso de Garcia-Domonec y
Alarcon-Elbal en 2007 [11] para la estimación de la
toxicidad de sustancias en términos del LC50
(concentración letal que causa la muerte al 50% de animales
de prueba [12]).
En el presente artículo se pretende realizar un análisis de
regresión lineal múltiple para estimar el valor del LC50
para peces en términos del negativo del logaritmo de la
concentración en mol/L a partir de un grupo de descriptores
para una serie de compuestos orgánicos. Una vez obtenido
el modelo, se espera que éste permita medir la toxicidad de
otros compuestos orgánicos a partir de los valores de los
descriptores elegidos.
2. Metodología
El desarrollo del estudio se llevó a cabo en cuatro etapas
principales: construcción de la base de datos, selección de
variables de estudio, construcción del modelo de regresión
y validación del modelo QSAR. A continuación se muestra
una descripción del procedimiento realizado en cada uno de
estos pasos.
2.1 Construcción de la base de datos
Para obtener la información necesaria para realizar el
estudio se llevó a cabo una búsqueda en portales de
organizaciones como la OCHEM, la U.S. National Library
of Medicine y el Milano Chemometrics and QSAR
Research Group, siendo este último el sitio usado por tener
mayor información disponible tanto para la variable a
explicar (LC50) como para los descriptores existentes
actualmente.
La organización ofrece de manera abierta una base de datos
correspondiente a 908 moléculas orgánicas para predecir la
toxicidad acuática aguda en peces de la especie Pimephales
promelas en términos del LC50, definido como la
concentración que causa la muerte al 50% de los peces de
prueba en un análisis de 96 horas. [13]. Los datos fueron
recuperados por Todeschini, Cassotti, Ballabio y Consonni
de tres bases llamadas OASIS [14], ECOTOX [15] y EAT5
[16] para posteriormente ser procesados a un mismo índice
(a partir de un paso de EC50 a LC50 para EAT5),
eliminando rangos y límites (en el caso de la base
ECOTOX), corrigiendo inconsistencias entre el CAS-RN y
el nombre químico, convirtiendo los datos a molaridad y
transformándolos en unidades logarítmicas
(−Log10(mol/L)), eliminando duplicados y desechando los
datos que resultaran atípicos. [17]
3
A partir de la base mencionada anteriormente, se
seleccionaron 301 compuestos tomando su especificación
de introducción lineal molecular simplificada (SMILES por
sus siglas en inglés), el valor del LC50 en unidades molares
y el CAS-RN. Haciendo uso de este último fue posible
obtener los valores de distintos descriptores a partir de la
MOLE db- Molecular Descriptors Data Base para cada uno
de los compuestos seleccionados.
La MOLE db. Molecular Descriptors Data Base es una base
de datos gratuita en línea desarrollada por el Milano
Chemometrics and QSAR Research Group que contiene
1124 descriptores moleculares calculados a partir del
DRAGON software para 234773 compuestos. Los
descriptores incluidos en la base se clasifican en doce
grupos entre los que se encuentran propiedades
moleculares, índices de información, índices de
conectividad, descriptores constitucionales y otros [18].
Los 301 compuestos seleccionados se distribuyen, según las
categorías de toxicidad establecidas por la EPA [19] de
mayor a menor de la siguiente manera: 8 compuestos de la
categoría X (más tóxicos), 27 compuestos de la categoría A,
73 compuestos de la categoría B, 102 compuestos de la
categoría C y 91 compuestos de la categoría D.
Una vez construida la base conformada por 1124
descriptores y 301 compuestos orgánicos, se filtró cada una
de las variables en busca de datos faltantes (identificados
como n.a. en la MOLE db), eliminando un total de 15
variables por tener presencia de los mismos. Después de
llevar a cabo este procedimiento se dio por terminada la
labor de construcción de la base y se procedió a realizar la
selección de variables de estudio.
2.2 Selección de variables de estudio
A partir de la base de datos construida en la etapa anterior,
se llevó a cabo un proceso de selección de variables de
interés, ya que el hecho de manejar un número de éstas
superior a la cantidad de observaciones lleva a que el
método de mínimos cuadrados (usado por los modelos de
regresión) obtenga varios estimados de los coeficientes que
acompañarán a las variables, generando así una varianza
infinita en la estimación que haría inútiles los resultados
obtenidos [20]. Para establecer las variables a analizar entre
las 1109 disponibles fue necesario llevar a cabo una
revisión bibliográfica que permitiera plantear una relación
entre sustancias químicas y su acción xenobiótica. Esta
acción suele ser resumida bajo el acrónimo “ADME” que
describe los procesos de absorción, distribución,
metabolismo y excreción de sustancias que no son
producidas en el organismo como es el caso de los
compuestos de estudio [21]. Cada uno de los procesos
mencionados anteriormente está conectado con ciertas
propiedades de los compuestos que pueden llevar a facilitar
o dificultar el desarrollo de los mismos según su valor, de
manera que las variables relacionadas con estas deberían ser
incluidas en el estudio.
La absorción denota el procedimiento por el cual químicos
externos penetran las barreras de los tejidos e ingresan al
organismo, por lo que propiedades como el tamaño, la
masa, la solubilidad y la carga eléctrica de la molécula
fueron seleccionadas por su relación con el transporte
activo y pasivo a través de la membrana celular [22]. Otro
factor importante en la absorción de xenobióticos es la
permeabilidad de la membrana a los mismos, en especial
cuando la ingestión de sustancias químicas se da vía oral
como sucede en el estudio realizado (LC50 oral en peces).
Por esto se decidió incluir propiedades relacionadas con
ésta como lo son el coeficiente de partición octanol/agua y
el área de superficie polar (PSA por sus siglas en inglés)
[23].
El siguiente paso en la digestión de sustancias químicas es
la distribución de éstas en el organismo. Esta etapa está
ligada al transporte de compuestos a través del torrente
sanguíneo, razón por la cual se consideró que el factor
hidrofílico debía ser incluido entre las variables de estudio.
Teniendo en cuenta lo establecido anteriormente, los
tóxicos hidrofílicos suelen alcanzar altas concentraciones al
interior de los túbulos proximales, convirtiendo así a los
riñones en órgano blanco, a diferencia de los químicos
lipofílicos que suelen acumularse en tejidos presentando
bajas concentraciones en la sangre [24]. Algunos modelos
recientes proponen la flexibilidad, el tamaño y la capacidad
de formar puentes de hidrógeno de la molécula como
variables que determinan la lipofilicidad e hidrofilicidad de
la sustancia, por lo cual estas variables también fueron
seleccionadas [21].
El tercer paso de la disposición del compuesto químico en
el organismo es su metabolismo. Esta etapa se centra en las
interacciones tóxico-enzima, ya que las relaciones entre
estos dos componentes resultan esenciales en la
degradación de la sustancia química ingerida. Al momento
de unirse el sustrato al sitio activo de la enzima, la
estructura tridimensional, tanto de la enzima como de la
molécula tóxica, determina la formación de un complejo
que permitirá el desarrollo de esta actividad celular [25].
Por esto se decidió incluir todos los descriptores
relacionados con la estructura tridimensional entre las
variables de estudio para posteriormente seleccionar el que
presentara una mayor relación con la toxicidad de la
sustancia.
Con base en los argumentos anteriores y teniendo en cuenta
que durante la excreción las propiedades que participan
resultan similares a las mencionadas previamente, fue
posible seleccionar los descriptores que se muestran en la
nomenclatura como variables de interés para el estudio,
agregando la presencia de ciertos radicales y átomos como
variables adicionales.
2.3 Análisis previo de datos
Una vez seleccionadas las variables de interés para
desarrollar el estudio, fue necesario analizar los datos para
tener una idea inicial del comportamiento de cada una de
4
las variables. Para esto, se ingresó la información de las
variables al software de análisis de datos y estadística
Stata® y se realizó un estudio descriptivo de las mismas.
2.4 Construcción del modelo de regresión
La construcción del modelo de regresión se llevó a cabo en
tres pasos básicos. Inicialmente, se plantearon modelos de
regresión simple con las principales variables de interés de
cada uno de los procesos que conforma el ADME con el fin
de tener una idea inicial sobre la relación de estos
descriptores con la variable de respuesta. Una vez realizado
este paso se procedió a establecer modelos de regresión
múltiple que incluyeran distintas combinaciones de los
descriptores analizados previamente al interior de cada uno
de los procesos mencionados. Finalmente, se construyeron
varios modelos a partir de los resultados obtenidos, para así
seleccionar la combinación de variables que permitiera una
mejor predicción de la toxicidad de las sustancias
estudiadas.
2.5 Validación del modelo QSAR
Después de seleccionar las variables adecuadas para el
modelo de regresión se procedió a validar los resultados
obtenidos por el mismo mediante un análisis de
observaciones influyentes, un análisis de multicolinealidad
y una serie de pruebas de heterocedasticidad.
2.5.1 Análisis de datos influyentes
Una vez establecido el modelo de regresión lineal múltiple
a partir de los descriptores de los procesos ADME, se
procedió realizar un análisis de los datos en busca de
observaciones que pudieran estar afectando los resultados
obtenidos por el modelo.
El método elegido para detectar estas observaciones fue el
uso de DFbetas. Estos valores miden la diferencia entre el
beta obtenido para una variable con y sin la observación
analizada. Un valor absoluto del DFbeta superior a 2/√𝑁
determina que la observación resulta influyente, es decir
que su eliminación puede generar cambios sustanciales en
el modelo [26]. Luego de estimar los valores, se procedió a
compararlos con el valor crítico para decidir que
observaciones debían ser eliminadas, omitiendo así un total
de 38 observaciones.
2.5.2 Modelo de regresión sin datos influyentes
Luego de omitir las observaciones influyentes, se repitió el
último paso del proceso de construcción del modelo, es
decir, se establecieron diferentes modelos de regresión
lineal múltiple a partir del modelo elegido previamente. De
esta manera se establecieron seis nuevos modelos de
regresión de donde se escogió el modelo final, al cual se le
realizó un análisis de heterocedasticidad y multicolinealidad
para verificar la confiabilidad de los datos obtenidos.
2.5.3 Análisis de multicolinealidad
Una vez establecido el modelo se procedió a verificar que
éste no presentará una alta relación entre sus variables es
decir, que las variables independientes elegidas para
explicar el LC50 no se pudieran obtener como
combinaciones lineales entre ellas, fenómeno conocido
como multicolinealidad.
La ocurrencia de este problema se analizó con ayuda del
factor de inflación de la varianza (VIF por sus siglas en
inglés), el cual mide que tanto se “infla” la varianza de un
estimador por la presencia de multicolinealidad [27]. Este
indicador está definido de la siguiente manera.
𝑉𝐼𝐹 =1
(1 − 𝑟𝑖2)
donde 𝑟𝑖2 corresponde al 𝑅2 obtenido para una regresión de
la variable contra las demás variables del modelo.
Siguiendo esta fórmula, se verificó que el modelo
presentara valores bajos para este indicador, de lo contrario
la relación entre las variables resulta alta.
2.5.4 Análisis y corrección de heterocedasticidad
Después de establecer el modelo final se llevó a cabo una
prueba de Breusch-Pagan/ Cook-Weisberg para determinar
si había una distribución constante de residuales en las
observaciones, es decir si la regresión establecida cumplía
el supuesto de homocedasticidad. Dado que el modelo
seleccionado registró heterocedasticidad, fue necesario
repetir la prueba realizada previamente con las variables
incluidas (AlogP, TPSA(tot) y H3D) y sus respectivos
efectos cuadrados.
Uno de los principales supuestos en la solución del
problema de heterocedasticidad es que la varianza del error
resulta proporcional a uno de los términos que están
explicando el problema; comportamiento que se podría
expresar de la siguiente manera [28].
𝐸(𝑢𝑖2) = 𝜎2𝑋𝑖
2
Luego de obtener los resultados de estas pruebas y teniendo
en cuenta la solución recomendada en la literatura se
procedió a realizar una transformación de las variables con
base en los efectos cuadrados del descriptor AlogP,
obteniendo el modelo que se muestra a continuación.
𝑦
𝐴𝑙𝑜𝑔𝑃= 𝛽0
1
𝐴𝑙𝑜𝑔𝑃+ 𝛽1 + 𝛽2
𝑇𝑃𝑆𝐴(𝑡𝑜𝑡)
𝐴𝑙𝑜𝑔𝑃+ 𝛽3
𝐻3𝐷
𝐴𝑙𝑜𝑔𝑃
A partir de la regresión obtenida para las nuevas variables,
se realizó nuevamente el test de Breusch-Pagan/ Cook-
Weisberg para verificar que la transformación hubiera
corregido los problemas de heterocedasticidad y así obtener
el modelo final.
5
3. Resultados
En esta sección se muestran y analizan estadísticamente los
resultados obtenidos en los diferentes pasos del estudio,
haciendo énfasis en el comportamiento de los datos y la
significancia registrada por las diferentes variables a lo
largo del desarrollo del modelo.
3.1 Análisis descriptivo de las variables
Luego de ingresar los valores del LC50 y los descriptores
seleccionados a Stata®, se inició el estudio con un análisis
descriptivo de las variables. En éste se evidenció una gran
diferencia entre el valor máximo y mínimo registrados y la
media obtenida para algunas variables entre las que se
encontraba la variable a explicar, como se observa en la
tabla 1.
Tabla. 1 Análisis inicial de variables de estudio
Adicionalmente, la tabla anterior permite establecer una
aproximación inicial entre los descriptores seleccionados
previamente y la variable de interés por medio del
coeficiente de correlación. La existencia de valores
cercanos a 0.5 en magnitud para este indicador, permitió
establecer que podría existir una relación entre la toxicidad
de la sustancia y las variables a estudiar.
3.2 Construcción del modelo de regresión
En esta sección se muestran los resultados obtenidos en
cada uno de los pasos del proceso de construcción del
modelo de regresión, entre los que se encuentran modelos
de regresión lineal simple, modelos de regresión lineal
múltiple por proceso, modelo de regresión lineal final,
análisis de datos influyentes y validación de los resultados
obtenidos.
3.2.1 Modelos de regresión lineal simple
Teniendo en cuenta los datos registrados en la tabla de
análisis inicial, se procedió a realizar una serie de modelos
de regresión lineal simple. Los resultados registrados a
continuación permiten tener una primera idea de la relación
de las principales variables elegidas para cada uno de los
procesos ADME con la toxicidad de la sustancia en
términos del LC50.
3.2.1.1 Modelos de regresión lineal simple absorción
Los modelos de regresión lineal simple construidos
permitieron apreciar que las principales variables de interés
relacionadas con el proceso de absorción resultan
significativas de manera individual aun manejando niveles
de significancia extremadamente bajos. Esto quiere decir
que los p-values obtenidos para la mayoría de estas
resultan aproximadamente iguales a cero. Aunque en este
caso el área de superficie polar no resulta significativa, esta
variable continuará incluyéndose en los modelos de
regresión múltiple por su relación con la lipofilicidad
descrita en la literatura.
Tabla 2. Resultados regresiones simples descriptores absorción
Los valores registrados para el R2 por las variables
relacionadas con el coeficiente de partición (mlogp y
mlogp2) y por el peso molecular en la tabla 2 muestran que
estos descriptores explican de buena manera la toxicidad de
la molécula, por lo que se esperaría que alguna variable
relacionada con estas propiedades esté incluida en el
modelo final.
3.2.1.2 Modelos de regresión lineal simple distribución
La tabla 3 muestra los resultados obtenidos para los
distintos modelos de regresión lineal simple establecidos a
partir de los principales descriptores relacionados con el
proceso de distribución de sustancias xenobióticas en el
organismo.
Tabla 3. Resultados regresiones simples descriptores distribución
Al igual que en el caso anterior, la mayoría de las variables
presentan un p-value aproximadamente igual a cero, por lo
que resultan significativas individualmente. Sin embargo, el
número de átomos aceptores de puentes de hidrógeno
(nhacc) presenta un p-value alto, por lo que inicialmente
resulta una variable no significativa en la explicación de la
toxicidad de la sustancia.
ADME Process Variable Mean Std. Dev. Min Max Correlation
mw 158.27 75.46 53.07 551.19 0.4713
sp 13.74 6.23 4.63 69.08 0.3602
mp 0.66 0.10 0.52 1.16 0.3968
phi 3.79 3.12 0.555 32.443 0.1956
amr 42.42 18.21 14.554 179.361 0.4565
isiz 97.01 67.64 15.51 820.483 0.2267
tpsano 30.01 25.25 0 165.37 -0.0253
tpsatot 32.54 27.67 0 173.75 0.0723
mlogp 1.90 1.43 -2.03 6.515 0.5484
mlogp2 5.65 6.51 0.001 42.449 0.4691
alogp 2.00 1.65 -2.329 14.396 0.5615
alogp2 6.71 13.69 0 207.253 0.2828
x0sol 8.09 3.44 3.414 28.542 0.4538
x1sol 5.12 2.28 1.914 19.121 0.4563
x2sol 4.39 2.46 1 17.5 0.4441
x3sol 3.19 2.57 0.5 24.375 0.4063
x4sol 2.27 2.29 0 22.563 0.3548
x5sol 1.59 1.97 0 19.813 0.3541
hy -0.21 0.77 -0.979 4.107 -0.2797
w3d 1418.52 5935.63 32.408 100879 0.0966
j3d 4.03 1.71 1.645 8.735 -0.1042
h3d 80.67 74.48 6.342 928.105 0.1914
pji3 0.71 0.16 0.239 0.994 0.1689
Absorption
Distribution
Metabolism
Variable mw mp mlogp mlogp2 isiz amr tpsatot
0.222 0.157 0.301 0.22 0.051 0.208 0.005𝑅2
Variable hy x0sol x5sol nhacc
0.078 0.206 0.125 0.00𝑅2
6
El análisis de los valores registrados para el R2 por los
descriptores elegidos, permite apreciar que las variables
asociadas a índices de conectividad de solvatación (x0sol y
x5sol) explican de buena manera la variable de respuesta
por lo que estos descriptores podrían llegar a estar presentes
en el modelo que incluya todos los procesos ADME.
3.2.1.3 Modelos de regresión lineal simple metabolismo
La tabla 4 permite apreciar como a diferencia de los dos
procesos analizados anteriormente, los descriptores
relacionados con el metabolismo (variables que describen la
estructura tridimensional) no presentan un p-value tan bajo,
lo que se traduce en dos variables no significativas
individualmente.
Tabla 4. Resultados regresiones simples descriptores metabolismo
Adicionalmente, se aprecia que los R2 registrados por cada
una de las variables no resultan altos, por lo que se
esperaría que los descriptores relacionados con la estructura
tridimensional de la molécula no estén incluidos en el
modelo final, o en caso de estarlo, no expliquen en gran
medida la toxicidad de la misma. Sin embargo, estos
resultados están sujetos al comportamiento de las variables
y a la posible existencia de observaciones atípicas.
3.2.2 Modelos de regresión lineal múltiple por proceso
Las secciones mostradas a continuación permiten visualizar
los resultados obtenidos para los modelos de regresión
lineal múltiple de cada uno de los procesos ADME
descritos previamente.
3.2.2.1 Modelos de regresión lineal múltiple absorción
Los resultados presentados en la tabla 5 permiten visualizar los modelos obtenidos para el proceso de absorción que registran los
mayores valores de R2.
Tabla 5. Regresiones múltiples descriptores de absorción
Variable w3d j3d h3d pji3
0.009 0.011 0.037 0.03𝑅2
* p<0.05, ** p<0.01, *** p<0.001
Standard errors in parentheses
rmse 1.052 1.025 1.041 1.047 1.019 1.015
BIC 908.3 892.5 906.5 900.6 884.2 886.7
AIC 889.8 874.0 884.3 885.8 869.4 868.2
adj. R-sq 0.363 0.396 0.377 0.370 0.403 0.407
R-sq 0.372 0.404 0.387 0.376 0.409 0.415
N 301 301 301 301 301 301
(0.442) (0.165) (0.176) (0.167) (0.401) (0.406)
_cons 0.412 2.065*** 2.162*** 2.121*** 0.553 0.421
(0.00192)
mw 0.00449*
(0.00313) (0.00323) (0.00225) (0.00225)
tpsatot 0.0117*** 0.0126*** 0.0132*** 0.0135***
(0.00178) (0.00172)
isiz -0.00693*** -0.00906***
(0.647) (0.623) (0.622)
mp 3.028*** 2.744*** 2.815***
(0.00465) (0.00932) (0.00815) (0.00742)
amr 0.0170*** 0.0222* -0.0173* 0.0439***
(0.0218) (0.0227) (0.0200)
mlogp2 -0.0506* -0.0398 -0.0357
(0.0958) (0.0787) (0.101) (0.0570) (0.0469) (0.0939)
mlogp 0.485*** 0.550*** 0.754*** 0.344*** 0.512*** 0.657***
LC50 LC50 LC50 LC50 LC50 LC50
(1) (2) (3) (4) (5) (6)
7
Como se esperaba gracias a los resultados obtenidos en los modelos de regresión lineal simple, los descriptores relacionados con
el coeficiente de partición octanol-agua resultan significativos en la mayor parte de los modelos. Muestra de esto es la presencia
de la variable mlogp con un p-value cercano a cero en los seis modelos seleccionados para el proceso de absorción.
Adicionalmente la variable mlogp2 resulta significativa en tres de los modelos presentados, sin embargo el p-value en este caso
no resulta tan bajo como el de la variable mencionada anteriormente, registrando valores ligeramente superiores a 0.05 en dos
casos y cercanos a 0.01 en el caso restante.
Por otro lado, la variable tpsatot (área de superficie polar), que resultó no significativa en el modelo de regresión lineal simple,
resulta significativa en cuatro de los modelos presentados, registrando un p-value cercano a cero. Además, los modelos que
incluyen este descriptor presentan valores de R2 superiores a los de los demás modelos establecidos para el proceso de absorción,
por lo que esta variable podría llegar a estar presente en el modelo final. Este cambio se debe a que la toxicidad empieza a
presentar cambios explicados por el área de superficie polar cuando el coeficiente de partición octanol-agua permanece
constante.
A pesar de que los valores de AIC y BIC registrados por el modelo seis resultan inferiores a los del modelo cinco (el mismo
modelo sin mlogp2), se trabajará con este último por tener un menor número de variables y presentar valores aproximadamente
iguales en estos indicadores.
3.2.2.2 Modelos de regresión lineal múltiple distribución
La tabla 6 presenta los cuatro modelos de regresión lineal
múltiple establecidos a partir de las variables asociadas al
proceso de distribución. Al igual que en el caso anterior, los
modelos presentados corresponden a conjuntos de variables
que presentan valores altos para el R2 ajustado.
Tabla 6. Regresiones múltiples de descriptores de distribución
Un análisis inicial de los valores de R2 ajustados registrados
para los modelos establecidos, permite apreciar que a pesar
de explicar de buena manera la toxicidad de la sustancia, las
variables relacionadas con el proceso de distribución
generan modelos de regresión que presentan valores
inferiores en el R2 ajustado y superiores en indicadores
como el AIC y el BIC.
3.2.2.3 Modelos de regresión lineal múltiple metabolismo
La tabla 7 presenta los dos modelos de regresión lineal
múltiple construidos a partir de descriptores de la estructura
tridimensional de la molécula que presentan un mayor R2
Tabla 7. Regresiones múltiples de descriptores de metabolismo
Los modelos descritos en la tabla anterior permiten apreciar
que al igual que en los modelos de regresión simple
establecidos en la sección anterior, la asociación de estos
descriptores no logra explicar de buena manera la toxicidad
de la sustancia, lo cual se refleja en bajos valores de R2
ajustado y altos valores de AIC y BIC.
* p<0.05, ** p<0.01, *** p<0.001
Standard errors in parentheses
rmse 1.127 1.141 1.141 1.196
BIC 945.1 947.6 947.5 975.9
AIC 930.3 936.4 936.4 964.7
adj. R-sq 0.269 0.252 0.252 0.178
R-sq 0.276 0.257 0.257 0.183
N 301 301 301 301
(0.168) (0.169) (0.168) (0.0897)
_cons 2.417*** 2.440*** 2.357*** 3.324***
(0.0353)
x5sol 0.219***
(0.0512) (0.0466)
nhacc -0.145** -0.210***
(0.0218) (0.0210) (0.0193)
x0sol 0.193*** 0.212*** 0.163***
(0.0953) (0.0866) (0.0907)
hy -0.272** -0.391*** -0.417***
LC50 LC50 LC50 LC50
(1) (2) (3) (4)
* p<0.05, ** p<0.01, *** p<0.001
Standard errors in parentheses
rmse 1.250 1.257
BIC 1007.5 1010.5
AIC 992.7 995.7
adj. R-sq 0.101 0.092
R-sq 0.110 0.101
N 301 301
(0.331) (0.192)
_cons 3.170*** 3.921***
(0.0000215)
w3d -0.0000583**
(0.476)
pji3 1.536**
(0.0482) (0.0481)
j3d -0.213*** -0.203***
(0.00108) (0.00184)
h3d 0.00454*** 0.00914***
LC50 LC50
(1) (2)
8
3.2.3 Modelos de regresión lineal múltiple ADME
Los datos registrados en la tabla 8 permiten apreciar los siete modelos construidos a partir de las variables elegidas para las
regresiones lineales múltiples establecidas previamente para cada uno de los procesos. Debido a los resultados obtenidos
anteriormente para las variables mlogp y mlogp2 (descriptores asociados al coeficiente de partición octanol-agua), se decidió
generar modelos que incluyeran las variables alogp y alogp2 (descriptores asociados al coeficiente de partición octanol-agua de
Ghose-Crippen) para comparar los resultados obtenidos para los diferentes indicadores en los modelos que implementan el
método de Moriguchi con los que implementan el de Ghose-Crippen.
Tabla 8. Regresiones lineales múltiples para todos los procesos ADME
Los modelos analizados muestran como la presencia de las variables alogp y alogp2 genera mejores valores de R2 ajustado, AIC
y BIC en los modelos que las contienen, por lo que es posible afirmar que estas explican de mejor manera la variable de interés
que los descriptores mlogp y mlogp2.
Teniendo en cuenta estos resultados, se decidió continuar con el modelo 1, ya que presenta un desempeño cercano al del mejor
modelo registrado en la tabla haciendo uso de únicamente cuatro variables.
* p<0.05, ** p<0.01, *** p<0.001
Standard errors in parentheses
rmse 0.965 1.031 0.966 0.960 0.952 0.938 1.008
BIC 856.2 891.4 866.5 858.0 852.6 862.8 891.6
AIC 837.7 876.5 840.5 835.8 830.3 825.7 865.7
adj. R-sq 0.464 0.389 0.463 0.470 0.479 0.494 0.416
R-sq 0.472 0.395 0.474 0.478 0.488 0.509 0.428
N 301 301 301 301 301 301 301
(0.135) (0.142) (0.178) (0.138) (0.134) (0.176) (0.157)
_cons 2.262*** 2.205*** 2.490*** 2.197*** 2.319*** 2.600*** 2.464***
(0.0669)
nc 0.216**
(0.298) (0.313)
np 0.909** 1.039**
(0.0293) (0.0384) (0.0291)
phi 0.0577 0.127** 0.0498
(0.0436) (0.0548) (0.0490)
x0sol 0.118** 0.230*** 0.165***
(0.00597) (0.00671) (0.00603)
tpsano -0.0124* -0.0179** -0.0225***
(0.0236) (0.0639) (0.0283)
sp -0.100*** -0.316*** -0.118***
(0.0517) (0.0707)
mlogp 0.683*** 0.600***
(0.00139) (0.000946) (0.00167) (0.00138)
h3d -0.00616*** -0.00328*** -0.00801*** -0.00655***
(0.00226) (0.00240) (0.00539) (0.00225) (0.00232) (0.00589) (0.00570)
tpsatot 0.0156*** 0.0160*** 0.0214*** 0.0154*** 0.0136*** 0.0230*** 0.0286***
(0.00871) (0.00753) (0.00868) (0.00859) (0.00768)
alogp2 -0.0188* -0.0287*** -0.0195* -0.0180* -0.0281***
(0.0563) (0.0761) (0.0561) (0.0555) (0.0818)
alogp 0.808*** 0.781*** 0.812*** 0.810*** 0.718***
LC50 LC50 LC50 LC50 LC50 LC50 LC50
(1) (2) (3) (4) (5) (6) (7)
9
3.3 Análisis de datos influyentes
Las secciones mostradas a continuación permiten apreciar
la manera en que fue posible distinguir las observaciones
influyentes incluidas en el modelo por medio del análisis de
los Dfbetas de las distintas variables para su posterior
eliminación.
3.3.1 Análisis de datos influyentes AlogP
La figura 1 muestra los valores de Dfbeta obtenidos para la
variable alogp graficados contra el número de observación.
Las líneas mostradas horizontalmente corresponden a los
valores críticos que permiten distinguir una observación
como influyente.
Fig. 1 Dfbetas para la variable alogp
La gráfica permite apreciar que existen diez valores por
encima de la línea crítica superior y doce valores por debajo
de la línea crítica inferior, por lo que deberían eliminarse un
total de 22 observaciones que resultan influyentes para esta
variable.
3.3.2 Análisis de datos influyentes alogp2
La figura 2 muestra los valores de Dfbeta obtenidos para la
variable alogp2 graficados contra el número de
observación.
Fig. 2 Dfbetas para la variable alogp2
En este caso, un total de 16 observaciones resultaron
influyentes, sin embargo, once de estas coincidieron con las
obtenidas para la variable anterior, por esto, se procedió a
omitir cinco observaciones adicionales.
3.3.3 Análisis de datos influyentes tpsatot
La figura 3 permite apreciar los Dfbeta obtenidos para la
variable TPSA(tot) (área de superficie polar). Al igual que
la variable alogp, este descriptor presenta gran cantidad de
datos influyentes que pueden estar afectando negativamente
los resultados del modelo.
Fig. 3 Dfbetas para la variable tpsatot
Para esta variable se registró un total de 21 observaciones
influyentes, sin embargo, doce de estas coincidieron con las
obtenidas por los descriptores anteriores, por esto, se
procedió a omitir nueve observaciones adicionales.
3.3.4 Análisis de datos influyentes H3D
La última variable analizada fue H3D, para la que se
obtuvieron 16 observaciones influyentes como permite
apreciar la figura 4.
Fig. 4 Dfbetas para la variable h3d
Teniendo en cuenta que en los pasos anteriores la mayoría
de observaciones influyentes ya habían sido eliminadas,
-1-.
50
.5
Dfb
eta
alo
gp
0 100 200 300numero
-.5
0.5
11
.5
Dfb
eta
alo
gp2
0 100 200 300numero
-.8
-.6
-.4
-.2
0.2
Dfb
eta
tp
sato
t
0 100 200 300numero
-.6
-.4
-.2
0.2
.4
Dfb
eta
h3
d
0 100 200 300numero
10
luego de este análisis se omitieron únicamente dos
observaciones adicionales.
3.4 Modelo de regresión lineal múltiple sin datos
influyentes
Luego de omitir los datos influyentes, se procedió a correr
nuevamente el modelo de regresión establecido
previamente a partir de los distintos descriptores
relacionados con los procesos ADME como se muestra en
el anexo A.1.
El análisis de esta tabla, permite apreciar que la variable
alogp2 pierde significancia en el nuevo modelo construido
con las 263 observaciones restantes. Por esto, se decidió
eliminar este descriptor del modelo y construir nuevos a
partir de las tres variables restantes (alogp, tpsatot y h3d) y
algunas nuevas variables, obteniendo así los resultados
registrados en el anexo A.2.
A pesar de no registrar el mayor R2 ni el menor valor en
indicadores como el AIC y el BIC, se eligió el modelo 1 por
encima de los demás por presentar descriptores de fácil
cálculo y adicionalmente presentar un menor número de
variables sin grandes diferencias en su desempeño
obteniendo así los resultados registrados en el anexo A.3.
3.5 Análisis de multicolinealidad
Una vez establecido el modelo sin datos influyentes se
procedió a verificar la multicolinealidad. Para este fin se
hizo uso del VIF como indicador de la relación entre las
variables.
El anexo A.4 permite apreciar que los valores del VIF
registrados para las tres variables implementadas en el
modelo se encuentran entre 1.31 y 1.55, esto se traduce en
una relación entre los descriptores de máximo 0.35, lo cual
no corresponde a problemas de multicolinealidad.
3.6 Análisis y corrección de heterocedasticidad
A continuación se muestran los resultados obtenidos para
las distintas pruebas de heterocedasticidad realizadas al
modelo y los resultados obtenidos luego de la corrección de
este problema.
3.6.1 Análisis inicial del modelo seleccionado
Después de realizar la prueba de heterocedasticidad de
Breusch-Pagan/Cook-Weisberg haciendo uso de la
herramienta estadística Stata® fue posible obtener los
resultados registrados en el anexo A.5.1.
El p-value obtenido para el estimador 𝜒2 permite afirmar
que el modelo presenta problemas de heterocedasticidad, lo
que podría generar estimaciones erróneas a partir de las
variables establecidas. Por esta razón se procedió a realizar
un análisis de los efectos de cada descriptor sobre la
varianza del modelo.
3.6.2 Análisis de efectos de sencillos y cuadrados de las
variables
Los resultados registrados en los anexos del A.5.2 al A.5.7
permiten apreciar que la variable AlogP presenta los peores
resultados para el test de heterocedasticidad realizado, tanto
para efectos sencillos como cuadrados. Por esta razón, se
consideró pertinente realizar una transformación sobre el
modelo con base en uno de estos dos efectos; seleccionando
finalmente los efectos cuadrados como base para la
transformación por permitir obtener un modelo con
constante.
3.6.3 Resultados modelo transformado
En la tabla 9 se aprecia el modelo de regresión lineal obtenido luego de transformar las distintas variables como se estableció
previamente. En esta, la variable Y corresponde a la transformación del LC50, x1 a la transformación de la constante, x2 a la
transformación del descriptor TPSA(tot) y x3 al mismo cambio realizado sobre la variable H3D.
Tabla 9. Modelo de regresión lineal múltiple transformado
_cons .936617 .1372171 6.83 0.000 .
x3 -.0350701 .0020106 -17.44 0.000 -.2766863
x2 .0178487 .0016736 10.66 0.000 .3093623
x1 3.928627 .1528199 25.71 0.000 .9433975
y Coef. Std. Err. t P>|t| Beta
Total 148126.348 262 565.36774 Root MSE = 2.0149
Adj R-squared = 0.9928
Residual 1051.49566 259 4.05982881 R-squared = 0.9929
Model 147074.852 3 49024.9507 Prob > F = 0.0000
F( 3, 259) =12075.62
Source SS df MS Number of obs = 263
11
Los resultados registrados permiten apreciar que a pesar de la transformación realizada todas las variables continúan siendo
significativas, por lo que se puede afirmar que el modelo continúa explicando la toxicidad de las sustancias. Adicionalmente, al
analizar el valor obtenido en el test de Breusch-Pagan/Cook-Weisberg para el modelo transformado, registrado en el anexo A.6,
es posible establecer que el problema de heterocedasticidad fue solucionado y la varianza del error no está siendo explicada por
ninguna de las nuevas variables. De esta manera fue posible obtener la siguiente ecuación que permite relacionar la toxicidad de
la sustancia con los descriptores seleccionados para explicar la misma.
𝐿𝐶50 (− log (𝑚𝑜𝑙
𝐿)) = 3.92 + 0.93𝐴𝑙𝑜𝑔𝑃 + 0.017 𝑇𝑃𝑆𝐴(𝑡𝑜𝑡) − 0.035 𝐻3𝐷
4. Discusión de resultados
La discusión de los resultados mostrada a continuación se
centró en dos puntos: la explicación de la naturaleza de las
variables establecidas en el modelo y su relación con la
toxicidad y la aplicabilidad del modelo y validez de los
resultados obtenidos.
4.1 Análisis de variables elegidas
A continuación se presenta una interpretación de los
resultados obtenidos para cada una de las variables
establecidas en el modelo, basado en aspectos como el
coeficiente registrado en la regresión, el método de
obtención de las mismas y su relación con la toxicidad
registrada por la sustancia en términos del LC50.
4.1.1 Coeficiente de partición octanol-agua de Ghose-
Crippen (Alogp)
Los datos registrados para el descriptor Alogp son
calculados a partir de una ecuación de regresión basada en
la contribución a la hidrofobicidad de 115 tipos de átomos
registrados en el anexo A.7. Cada átomo de las moléculas
estudiadas es clasificado en uno de estos grupos para luego
obtener una estimación de logP a partir de la siguiente
ecuación:
𝐴𝑙𝑜𝑔𝑃 = ∑ 𝑛𝑖𝑎𝑖𝑖
Donde 𝑛𝑖 corresponde a la cantidad de átomos del tipo i,
mientras que 𝑎𝑖 representa la constante de hidrofobicidad de
este tipo de átomo [29].
Teniendo en cuenta la descripción anterior de la variable
alogp y el coeficiente obtenido para la misma en el modelo
de regresión (aporte positivo al logaritmo del LC50 en
mol/L), es posible afirmar al visualizar la tabla de
contribuciones hidrofóbicas, que existen posiciones en las
que se puede localizar un átomo que pueden llegar a
aumentar la toxicidad del compuesto o por el contrario
disminuir este valor en la sustancia.
Por ejemplo, la presencia de un radical alcohol (OH) hace
un aporte negativo a la hidrofobicidad de la molécula, por
lo que se podría llegar a pensar que un compuesto con una
gran presencia de estos radicales y sin presencia de otros
que puedan llegar a hacer un aporte positivo al coeficiente
de partición debería presentar un valor bajo para el LC50.
Al analizar el valor de esta medida para los distintos
compuestos que conforman la base de datos manejada, se
evidencia que los compuestos menos tóxicos son el
etilenglicol, dietilenglicol, 2-etoxietanol, entre otros;
sustancias que presentan en su estructura el radical
mencionado previamente.
Por otra parte, la presencia de elementos halógenos tiene un
aporte positivo en todos los casos a la hidrofobicidad de la
sustancia, por lo que es posible afirmar que si estos forman
parte del compuesto estudiado, el valor del LC50 registrado
será alto. Una muestra de esto es la presencia de cloro en
seis de los diez compuestos más tóxicos presentes en la
base y la presencia de halógenos en trece de los veinticinco
compuestos con mayor LC50, ambos casos sin incluir
observaciones influyentes. Adicionalmente, los aportes
hechos por estos elementos resultan los más altos
registrados en la tabla, lo que se ve reflejado en la
clasificación en las categorías 1 y 2 (compuestos más
tóxicos) de la mayoría de los compuestos que los contienen.
Finalmente es importante establecer siguiendo los valores
obtenidos para los coeficientes estandarizados, que el
coeficiente de partición octanol-agua de Ghose Crippen es
la variable que tiene un mayor efecto sobre la toxicidad de
la sustancia siguiendo el modelo establecido.
4.1.2 Área de superficie polar topológica (TPSA)
Los valores registrados en la base de datos para la variable
TPSA(tot) son calculados siguiendo el modelo propuesto
por Ertl, el cual se basa en un método de contribuciones de
grupo [30]. Para el caso de este descriptor el modelo tiene
en cuenta fragmentos polares con nitrógeno y oxígeno,
adicionando fragmentos “ligeramente polares” que
contengan fósforo y azufre. Los aportes de cada grupo al
valor final obtenido para el área de superficie polar se
muestran en el anexo A.8. De esta manera, el TPSA de una
molécula es determinado a partir de la sumatoria de
contribuciones de superficie de los distintos tipos de grupos
polares tabulados como muestra la siguiente ecuación
12
𝑇𝑃𝑆𝐴 = ∑ 𝑛𝑖𝑐𝑖𝑖
Donde i representa los distintos tipos de fragmentos polares
definidos, 𝑛𝑖 es la frecuencia con que se presenta cada tipo
en la molécula y 𝑐𝑖 expresa la contribución a la superficie
de un fragmento de tipo i.
Para el caso del área de superficie polar topológica, el
efecto resulta similar al del descriptor analizado
anteriormente ya que la variable presenta un coeficiente
positivo al interior de la regresión. A diferencia del
descriptor AlogP, todas las contribuciones de los distintos
radicales registrados resultan positivas, haciendo que la
presencia de los mismos incremente la toxicidad de la
sustancia por su aporte al descriptor TPSA(tot). Los valores
de LC50 registrados en la base de datos permiten apreciar
que existe un claro efecto de estos radicales en la toxicidad
de la sustancia, por ejemplo, compuestos como el trifenil
fosfato o el TEPP presentan en su estructura el átomo de
tipo 42 registrado en la tabla, una y dos veces
respectivamente.
La presencia de un átomo de oxígeno unido con un doble
enlace a un átomo de cualquier elemento diferente al
hidrógeno, registrado bajo el número 29 en la tabla, también
resulta en un aporte significativo al TPSA. Este tipo de
átomo resulta bastante común en compuestos orgánicos por
su presencia en los grupos formilo (componente de los
aldehídos), carbonilo (componente de las cetonas),
carboxilo (componente de los ácidos carboxílicos), entre
otros. Compuestos como el 2-propanal, la quinona y el
endotal monohidrato, registrados entre los diez más tóxicos
manejados en la base de datos, presentan estos tres grupos
de manera respectiva, por lo que es posible afirmar que el
aporte hecho por este átomo a la polaridad del compuesto
está relacionado de manera directa con la toxicidad del
mismo.
4.1.3 Índice 3D de Harary
En la química matemática, un índice topológico es un
número usado para caracterizar alguna propiedad de la
estructura de un compuesto. Uno de los más utilizados es el
índice de Harary, el cual analiza la molécula de una
sustancia como un grafo donde cada átomo representa un
nodo y los enlaces corresponden a aristas, bajo este
supuesto se caracteriza la estructura del compuesto a partir
de la siguiente fórmula.
𝐻(𝐺) = ∑1
𝑑𝐺(𝑢, 𝑣)𝑢,𝑣∈𝑉(𝐺)
Donde G corresponde al grafo de la molécula, V(G) al
conjunto de nodos (átomos) del grafo y 𝑑𝐺 a la distancia
entre dos átomos en términos de aristas [31]. De esta
manera, el índice de Harary resume en un valor la cantidad
de átomos y la distribución de los mismos de una manera
simplificada.
Los avances computacionales han permitido desarrollar
estimaciones más complejas de este índice ajustadas al tipo
de sustancia y la distribución de los átomos en la molécula.
Esto ha permitido que esta expresión incluya información
sobre el tamaño de la molécula (cantidad de átomos) y las
distancias entre átomos (en términos de la masa de los
mismos).
Teniendo en cuenta la explicación anterior y el coeficiente
negativo obtenido para la variable H3D en el modelo de
regresión establecido, es posible afirmar que una sustancia
de gran tamaño que no presente los átomos y fragmentos de
gran impacto explicados en las secciones anteriores o los
presente en baja cantidad debería registrar un valor bajo
para el LC50. Un ejemplo de esto es el Dietil
benzilfosfonato, esta sustancia presenta dos átomos de tipo
27, un átomo de tipo 29 y un átomo de tipo 42, los cuales
generan un aporte significativo al área de superficie polar
según el anexo A.12. Sin embargo dado su tamaño
(presenta 32 átomos), este compuesto registra un valor de
140.84 en el índice 3D de Harary lo que resulta en un alto
LC50 y por tanto su clasificación en la categoría 5. Otro
ejemplo es la 2’,3’,4’-Trimetoxiacetofenona que presenta
cuatro átomos de oxígeno en su estructura representados en
una función cetona y tres funciones éter. Al igual que en el
caso anterior estos átomos realizan un aporte importante a
la variable TPSA(tot), sin embargo el tamaño de la
molécula lleva a que el valor del descriptor H3D para esta
sea de 121.27 haciendo este compuesto poco tóxico.
Contrario a los casos expuestos previamente se encuentran
sustancias como el trifenil fosfato. Este compuesto a pesar
de presentar un valor de 175.1 para el H3D, registra un
valor bajo para el LC50 que lo clasifica en la categoría 2.
Esto podría resultar contradictorio a lo expuesto
previamente, sin embargo esta sustancia registra un valor
mayor para los otros dos descriptores incluidos en el
modelo que las sustancias analizadas anteriormente,
además, el coeficiente estandarizado obtenido para el índice
3D de Harary en el modelo establecido resulta mucho
menor al registrado por las otras variables. Por esta razón, a
medida que estas variables crecen, el tamaño de la molécula
y por tanto el H3D registrado por la sustancia pierden
importancia en el cálculo de la toxicidad de la misma.
4.2 Aplicabilidad del modelo
Teniendo en cuenta el R2 obtenido para el modelo final es
posible afirmar que la regresión desarrollada se establece
como una herramienta inicial útil en la clasificación de
sustancias de acuerdo a su toxicidad, sin embargo, el uso
del mismo no puede reemplazar las pruebas sobre animales
13
ya que no se conoce con certeza la totalidad de variables
que participan en la acción de un químico en el organismo.
Por otro lado, la estructura de los descriptores elegidos hace
del modelo obtenido en este estudio una herramienta de
fácil aplicación. Si se analizan las fórmulas que describen
variables como el coeficiente de partición octanol-agua de
Ghose-Crippen y el área de superficie polar topológica es
posible apreciar que los valores de éstas pueden ser
obtenidos fácilmente con ayuda de las tablas citadas en este
artículo y presentes en gran cantidad de fuentes de la
literatura sin necesidad de ningún tipo de prueba de
laboratorio.
Adicionalmente, los avances en el estudio de descriptores y
el cálculo computacional de los mismos han llevado al
desarrollo de herramientas como Dragon, un software
creado por Kode Chemoinformatics que permite calcular
los valores de 5270 descriptores (incluidos los tres usados
en el modelo) para gran cantidad de moléculas entre las que
se encuentran las trabajadas en este estudio [32]. De esta
manera, el uso del modelo construido, complementado con
la implementación de un software de estimación de
descriptores o el cálculo manual de los mismos, se establece
como una buena primera aproximación en el cálculo del
LC50 de compuestos orgánicos, incluidos solventes
comúnmente usados en la industria farmacéutica.
5. Conclusiones
La significancia registrada por los descriptores incluidos en
el modelo de regresión planteado en el estudio y el valor
obtenido por el mismo en indicadores como el R2, el AIC y
el BIC permiten establecer que a pesar de que no se conoce
con exactitud la relación existente entre propiedades como
la toxicidad de una sustancia y las variables implementadas,
los modelos QSAR representan una herramienta útil para la
estimación de estos parámetros ante la falta de valores
empíricos por pruebas de laboratorio (sin llegar a
reemplazarlas). Adicionalmente, estos métodos permiten
llevar a cabo una clasificación aproximada de compuestos
ante la falta de información que muchas veces se registra
para sustancias poco manejadas, por los costos y el tiempo
que acarrean este tipo de pruebas.
Siguiendo la idea anterior, ante la necesidad de parámetros
de seguridad como el LC50 sin incurrir en grandes costos
de investigación, la exactitud e implementación cada vez
mayor de estos métodos en la industria dependerá del
desarrollo de herramientas computacionales para el cálculo
de descriptores y el perfeccionamiento de las expresiones
relacionadas al cálculo de cada uno de estos.
Nomenclatura
Descriptores
MW Molecular weight
ISIZ Information index on molecular size
Sp Sum of atomic polarizabilities
Mp Mean atomic polarizability
X0sol Solvation connectivity index chi-0
X1sol Solvation connectivity index chi-1
X2sol Solvation connectivity index chi-2
X3sol Solvation connectivity index chi-3
X4sol Solvation connectivity index chi-4
X5sol Solvation connectivity index chi-5
W3D 3D Wiener index
J3D 3D Balaban index
H3D 3D Harary index
PJI3 3D Ptitjean shape index
nCL Number of Chlorine atoms
nH Number of Hydrogen atoms
nBR Number of Bromine atoms
nC Number of Carbon atoms
nN Number of Nitrogen atoms
nP Number of Nitrogen atoms
nRNH2 Number of primary amines (aliphatic)
nArNH2 Number of primary amines (aromatic)
nRNHR Number of secondary amines (aliphatic)
nArNHR Number of secondary amines (aromatic)
nS Number of Sulfur atoms
nHAcc Number of acceptor atoms for Hbonds(N,O,F)
Hy Hydrophilic factor
PHI Kier flexibility index
AMR Ghose-Crippen molar refractivity
TPSA(NO) Fragment-based polar surface area (using N,O)
TPSA(Tot) Fragment-based polar surface area(using
N,O,S,P)
MLOGP Moriguchi octanol-water partition coeff.(logP)
14
MLOGP2 Squared Moriguchi octanol-water partition
coeff.(logP^2)
ALOGP Ghose-Crippen octanol-water partition
coeff.(logP)
ALOGP2 Squared Ghose-Crippen octanol-water
partition coeff.(logP^2)
Bibliografía
[1] OSHA, «Hazard communication: Foundation of
Workplace Chemical Communication,» 2010. [En línea].
Available: https://www.osha.gov/dsg/hazcom/index.html.
[Último acceso: 14 09 2015].
[2] F. A. Quintero, S. J. Patel, F. Muñoz y M. S.
Mannan, «Review of existing QSAR/QSPR models
developed for properties used in hazardous chemicals
classification system,» Universidad de los Andes, Bogotá,
2012.
[3] Ministerio de Relaciones Exteriores de la
República de Colombia, «Informe Nacional a la Comisión
Sobre el Desarrollo Sostenible en Relación con las Esferas
Temáticas de sus Períodos de Sesiones 18º y 19º (Productos
Químicos, Mínería, Marco Decenal de Programas Sobre
Pautas Sostenibles de Producción y Consumo),» Bogotá,
2011.
[4] Neavs, «Product Development and Drug Testing,»
2015. [En línea]. Available:
http://www.neavs.org/research/testing. [Último acceso: 10
Noviembre 2015].
[5] A. R. Katritzky y V. S. Lobanov, «QSPR: The
Correlation and Quantitative Prediction of Chemical and
Physical Properties from Structure,» Chemical Society
Reviews, nº 24, pp. 279-287, 1995.
[6] C. Nieto-Draghi, G. Fayet, B. Creton, X.
Rozanska, P. Rotureau, J.-C. de Hemptinne, P. Ungerer, B.
Rousseau y C. Adamo, «A General Guidebook for the
Theoretical Prediction of Physicochemical Properties of
Chemicals for Regulatory Purposes,» Chemical Reviews,
París, 2015.
[7] K. Roy, S. Kar y R. N. Das, Understanding the
Basics of QSAR for Applications in Pharmaceutical
Sciences and Risk Assessment, San Diego: Elsevier, 2015.
[8] H. Kubinyi, QSAR: Hansch Analysis and Related
Approaches, Wenheim: VCH, 1993.
[9] J. Gasteiger y T. Engel, Chemoinformatics,
Weinheim: Wiley-VCH, 2003.
[10] J. Devillers y J. Flatin, «A general QSAR model
for predicting the acute toxicity of pesticides to LEPOMIS
MACROCHIRUS,» SAR and QSAR in Environmental
Research, pp. 397-417, 2001.
[11] R. Garcia-Domonech y P. Alarcon-Elbal,
«Prediction of acute toxicity of organophosphorus
pesticides using topological indices,» SAR and QSAR in
Environmental Research, pp. 745-755, 2007.
[12] Canadian Centre for Occupational Health and
Safety, «OSH Answers Fact Sheets,» 28 Agosto 2013. [En
línea]. Available:
http://www.ccohs.ca/oshanswers/chemicals/ld50.html.
[Último acceso: 27 Febrero 2016].
[13] R. Todeschini, «Acute toxicity to fish dataset,» [En
línea]. Available:
http://michem.disat.unimib.it/chm/download/toxicityfish.ht
m. [Último acceso: 27 Febrero 2016].
[14] The OECD QSAR Toolbox for Grouping
Chemicals into Categories, «QSAR Toolbox,» Organisation
for Economic Co-operation and Development, 2010. [En
línea]. Available: http://www.qsartoolbox.org/.
[15] United States Environmental Protection Agency,
«Ecotox Database,» [En línea]. Available:
http://cfpub.epa.gov/ecotox/.
[16] ECETOC. European Centre For Ecotoxicology and
Toxicology of Chemicals, «TR 091-ECETOC Aquatic
Toxicity (EAT) database,» 2003. [En línea]. Available:
http://www.ecetoc.org/technical-reports.
[17] M. Cassotti, D. Ballabio, R. Todeschini y V.
Consonni, «A similarity-based QSAR model for predicting
acute toxicity towards the fathead minnow (Pimephales
promelas),» SAR and QSAR in Environmental Research,
vol. 26, nº 3, pp. 217-243, 2015.
[18] D. Ballabio, A. Manganaro, V. Consonni, A. Mauri
y R. Todeschini, «Introduction to MOLE DB - on-line
Molecular Descriptors Database,» MATCH
communications in mathematical and in computer
chemistry, 2009. [En línea]. Available:
http://michem.disat.unimib.it/mole_db/help/query_help_intr
o.php. [Último acceso: 29 Febrero 2016].
[19] Agency for Toxic Substances and Disease Registry
(ATSDR), «EPA Reportable Quantity Methodology Used
to Establish Toxicity/Environmental Scores for the
Substance Priority List,» ATSDR, Atlanta.
[20] G. James, D. Witten, T. Hastie y R. Tibshirani,
«An Introduction to Statistical Learning,» Nueva York,
Springer, 2013, p. 204.
[21] S. D. Krämer y H. Wunderli-Allenspach,
«Physicochemical properties in pharmacokinetic lead
optimization,» Elsevier, Zurich, 2001.
[22] P. C. Burcham, «An Introduction to Toxicology,»
Nueva York, Springer, 2014, pp. 55-59.
[23] P. C. Burcham, «An Introduction to Toxicology,»
Nueva York, Springer, 2014, pp. 59-60.
15
[24] P. C. Burcham, «An Introduction to Toxicology,»
Nueva york, Soringer, 2014, pp. 61-62.
[25] P. C. Burcham, «An Introduction to Toxicology,»
Nueva York, Springer, 2014, p. 66.
[26] A. C. Acock, «Influential observation: DFbeta,» de
A Gentle Introduction to Stata, College Station, Stata Press,
2008, p. 237.
[27] D. N. Gujarati, «Multicollinearity,» de Basic
Econometrics, McGraw-Hill, 2002, p. 356.
[28] D. N. Gujarati, «Heteroscedasticity,» de Basic
Econometrics, McGraw-Hill, 2002, p. 423.
[29] A. K. Ghose y G. M. Crippen, «Atomic
Physicochemical Parameters for Three-Dimensional
Structure-Directed Quantitative Structure-Activity
Relationships I. Partition Coefficients as a Measure of
hydrophobicity,» Michigan, 1986.
[30] P. Ertl, B. Rohde y P. Selzer, «Fast Calculation of
Molecular Polar Surface Area as a Sum of Fragment-Based
Contributions and Its Application to the Prediction of Drug
Transport Properties,» J. Med. Chem, vol. 43, pp. 3714-
3717, 2000.
[31] K. Xu, K. C. Das y N. Trinajstic, «The Harary
Index,» de The Harary Index of a Graph, Heidelberg,
Springer, 2015, pp. 2-4.
[32] Kode Chemoinformatics, «Dragon 7.0,» Kode
Chemoinformatics, [En línea]. Available: https://chm.kode-
solutions.net/products_dragon.php. [Último acceso: 4 Mayo
2016].
[33] Talete, «Atom-centred fragments,» Talete, [En
línea]. Available:
http://www.talete.mi.it/help/dproperties_help/index.html?m
olecular_properties.htm. [Último acceso: 8 Mayo 2016].
[34] Talete, «Molecular properties,» Talete, [En línea].
Available:
http://www.talete.mi.it/help/dproperties_help/index.html?m
olecular_properties.htm. [Último acceso: 8 Mayo 2016].
16
Anexos
A.1. Modelo de regresión lineal múltiple establecido sin datos influyentes
A.2. Modelos de regresión lineal múltiple para variables ADME sin datos influyentes
_cons 2.125201 .1170979 18.15 0.000 1.894612 2.35579
h3d -.0045201 .0010955 -4.13 0.000 -.0066775 -.0023628
tpsatot .014965 .0019902 7.52 0.000 .0110459 .0188841
alogp2 .0214911 .0173928 1.24 0.218 -.0127589 .055741
alogp .7021858 .0790485 8.88 0.000 .5465233 .8578483
LC50 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 322.178354 262 1.22968837 Root MSE = .65931
Adj R-squared = 0.6465
Residual 112.150346 258 .434691264 R-squared = 0.6519
Model 210.028007 4 52.5070018 Prob > F = 0.0000
F( 4, 258) = 120.79
Source SS df MS Number of obs = 263
* p<0.05, ** p<0.01, *** p<0.001
Standard errors in parentheses
rmse 0.660 0.678 0.649 0.641 0.639 0.755
BIC 546.0 556.0 541.6 539.8 538.4 612.0
AIC 531.8 545.3 523.8 518.4 517.0 601.2
adj. R-sq 0.646 0.626 0.658 0.666 0.668 0.537
R-sq 0.650 0.629 0.663 0.672 0.674 0.540
N 263 263 263 263 263 263
(0.104) (0.106) (0.103) (0.121) (0.124) (0.123)
_cons 2.057*** 2.009*** 2.010*** 1.831*** 2.200*** 2.017***
(0.0396)
mlogp 0.692***
(0.0210)
sp -0.125***
(0.0283) (0.0362)
x0sol 0.0765** 0.163***
(0.0221) (0.0224) (0.0210)
phi 0.0698** 0.0836*** 0.0720***
(0.00108) (0.00133) (0.00142)
h3d -0.00429*** -0.00680*** -0.00831***
(0.00199) (0.00186) (0.00196) (0.00267) (0.00269) (0.00210)
tpsatot 0.0151*** 0.0118*** 0.0148*** 0.00983*** 0.00827** 0.0132***
(0.0391) (0.0334) (0.0385) (0.0540) (0.0542)
alogp 0.787*** 0.701*** 0.782*** 0.678*** 0.720***
LC50 LC50 LC50 LC50 LC50 LC50
(1) (2) (3) (4) (5) (6)
17
A.3. Modelo de regresión lineal múltiple final
A.4. Resultados análisis de multicolinealidad
A.5. Pruebas de heterocedasticidad de Breusch-Pagan
A.5.1. Prueba de heterocedasticidad modelo final
A.5.2 Prueba de heterocedasticidad para el descriptor AlogP
A.5.3 Prueba de heterocedasticidad para el descriptor TPSA(tot)
_cons 2.05734 .1035252 19.87 0.000 .
h3d -.0042864 .0010802 -3.97 0.000 -.1804939
tpsatot .0150604 .0019907 7.57 0.000 .3177869
alogp .7871068 .0390944 20.13 0.000 .9227543
LC50 Coef. Std. Err. t P>|t| Beta
Total 322.178354 262 1.22968837 Root MSE = .65998
Adj R-squared = 0.6458
Residual 112.814023 259 .435575379 R-squared = 0.6498
Model 209.36433 3 69.7881101 Prob > F = 0.0000
F( 3, 259) = 160.22
Source SS df MS Number of obs = 263
Mean VIF 1.46
tpsatot 1.31 0.766211
h3d 1.53 0.653482
alogp 1.55 0.643625
Variable VIF 1/VIF
Prob > chi2 = 0.0020
chi2(1) = 9.51
Variables: fitted values of LC50
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.0001
chi2(1) = 15.44
Variables: alogp
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.0338
chi2(1) = 4.50
Variables: tpsatot
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
18
A.5.4 Prueba de heterocedasticidad para el descriptor H3D
A.5.5 Prueba de heterocedasticidad de los efectos cuadrados de AlogP
A.5.6 Prueba de heterocedasticidad de los efectos cuadrados de TPSA(tot)
A.5.7 Prueba de heterocedasticidad de los efectos cuadrados de H3D
A.6. Prueba de heterocedasticidad para el modelo transformado
Prob > chi2 = 0.0099
chi2(1) = 6.65
Variables: h3d
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.0001
chi2(1) = 15.21
Variables: AlogPCuad
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.6707
chi2(1) = 0.18
Variables: TPSAtotCuad
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.0811
chi2(1) = 3.04
Variables: H3DCuad
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Prob > chi2 = 0.3948
chi2(1) = 0.72
Variables: fitted values of y
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
19
A.7. Tabla de aportes de fragmentos
ID Symbol Description Hydrophobicity ID Symbol Description Hydrophobicity
1 C-001 CH3R / CH4 -1.5603 59 O-060 Al-O-Ar / Ar-O-Ar / R..O..R / R-O-C=X 0.0324
2 C-002 CH2R2 -1.012 60 O-061 O-- c 1.052
3 C-003 CHR3 -0.6681 61 O-062 O- (negatively charged) -0.7941
4 C-004 CR4 -0.3698 62 O-063 R-O-O-R 0.4165
5 C-005 CH3X -1.788 63 Se-064 Any-Se-Any 0.6601
6 C-006 CH2RX -1.2486 64 Se-065 =Se -
7 C-007 CH2X2 -1.0305 65 N-066 Al-NH2 -0.5427
8 C-008 CHR2X -0.6805 66 N-067 Al2-NH -0.3168
9 C-009 CHRX2 -0.3858 67 N-068 Al3-N 0.0132
10 C-010 CHX3 0.7555 68 N-069 Ar-NH2 / X-NH2 -0.3883
11 C-011 CR3X -0.2849 69 N-070 Ar-NH-Al -0.0389
12 C-012 CR2X2 0.02 70 N-071 Ar-NAl2 0.1087
13 C-013 CRX3 0.7894 71 N-072 RCO-N< / >N-X=X -0.5113
14 C-014 CX4 1.6422 72 N-073 Ar2NH / Ar3N / Ar2N-Al / R..N..Rd 0.1259
15 C-015 =CH2 -0.7866 73 N-074 R#N / R=N- 0.1349
16 C-016 =CHR -0.3962 74 N-075 R--N--Re / R--N--X -0.1624
17 C-017 =CR2 0.0383 75 N-076 Ar-NO2 / R--N(--R)--Of / RO-NO -2.0585
18 C-018 =CHX -0.8051 76 N-077 Al-NO2 -1.915
19 C-019 =CRX -0.2129 77 N-078 Ar-N=X / X-N=X 0.4208
20 C-020 =CX2 0.2432 78 N-079 N+ (positively charged) -1.4439
21 C-021 #CH 0.4697 79 F-081 Fa attached to C
1(sp3) 0.4797
22 C-022 #CR / R=C=R 0.2952 80 F-082 Fa attached to C
2(sp3) 0.2358
23 C-023 #CX - 81 F-083 Fa attached to C
3(sp3) 0.1029
24 C-024 R--CH--R -0.3251 82 F-084 Fa attached to C
1(sp2) 0.3566
25 C-025 R--CR--R 0.1492 83 F-085 Fa attached to C
2(sp2)-C
4(sp2) / C
1(sp) / C
4(sp3) / X 0.1988
26 C-026 R--CX--R 0.1539 84 Cl-086 Cla attached to C
1(sp3) 0.7443
27 C-027 R--CH--X 0.0005 85 Cl-087 Cla attached to C
2(sp3) 0.5337
28 C-028 R--CR--X 0.2361 86 Cl-088 Cla attached to C
3(sp3) 0.2996
29 C-029 R--CX--X 0.3514 87 Cl-089 Cla attached to C
1(sp2) 0.8155
30 C-030 X--CH--X 0.1814 88 Cl-090 Cla attached to C
2(sp2)-C
4(sp2) / C
1(sp) / C
4(sp3) / X 0.4856
31 C-031 X--CR--X 0.0901 89 Br-091 Bra attached to C
1(sp3) 0.8888
32 C-032 X--CX--X 0.5142 90 Br-092 Bra attached to C
2(sp3) 0.7452
33 C-033 R--CH..X -0.3723 91 Br-093 Bra attached to C
3(sp3) 0.5034
34 C-034 R--CR..X 0.2813 92 Br-094 Bra attached to C
1(sp2) 0.8995
35 C-035 R--CX..X 0.1191 93 Br-095 Bra attached to C
2(sp2)-C
4(sp2) / C
1(sp) / C
4(sp3) / X 0.5946
36 C-036 Al-CH=X -0.132 94 I-096 Ia attached to C
1(sp3) 1.4201
37 C-037 Ar-CH=X -0.0244 95 I-097 Ia attached to C
2(sp3) 1.1472
38 C-038 Al-C(=X)-Al -0.2405 96 I-098 Ia attached to C
3(sp3) -
39 C-039 Ar-C(=X)-R -0.0909 97 I-099 Ia attached to C
1(sp2) 0.7293
40 C-040 R-C(=X)-X / R-C#X / X=C=X -0.1002 98 I-100 Ia attached to C
2(sp2)-C
4(sp2) / C
1(sp) / C
4(sp3) / X 0.7173
41 C-041 X-C(=X)-X 0.4182 99 F-101 fluoride ion -
42 C-042 X--CH..X -0.2147 100 Cl-102 chloride ion -2.6737
42 C-043 X--CR..X -0.0009 101 Br-103 bromide ion -2.4178
44 C-044 X--CX..X 0.1388 102 I-104 iodide ion -3.1121
45 H-046 Ha attached to C
0(sp3) no X attached to next C 0.7341 103 S-106 R-SH 0.6146
46 H-047 Ha attached to C
1(sp3) / C
0(sp2) 0.6301 104 S-107 R2S / RS-SR 0.5906
47 H-048 Ha attached to C
2(sp3) / C
1(sp2) / C
0(sp) 0.518 105 S-108 R=S 0.8758
48 H-049 Ha attached to C
3(sp3) / C
2(sp2) / C
3(sp2) / C
3(sp) -0.0371 106 S-109 R-SO-R -0.4979
49 H-050 H attached to heteroatom -0.1036 107 S-110 R-SO2-R -0.3786
50 H-051 H attached to alpha-Cb 0.5234 108 Si-111 >Si< 1.5188
51 H-052 Ha attached to C
0(sp3) with 1X attached to next C 0.6666 109 B-112 >B- as in boranes 1.0255
52 H-053 Ha attached to C
0(sp3) with 2X attached to next C 0.5372 110 P-115 P ylids -
53 H-054 Ha attached to C
0(sp3) with 3X attached to next C 0.6338 111 P-116 R3-P=X -0.9359
54 H-055 Ha attached to C
0(sp3) with 4X attached to next C 0.362 112 P-117 X3-P=X (phosphate) -0.1726
55 O-056 alcohol -0.3567 113 P-118 PX3 (phosphite) -0.7966
56 O-057 phenol / enol / carboxyl OH -0.0127 114 P-119 PR3 (phosphine) 0.6705
57 O-058 =O -0.0233 115 P-120 C-P(X)2=X (phosphonate) -0.4801
58 O-059 Al-O-Al -0.1541
20
Donde R representa cualquier grupo unido por un carbono, X representa cualquier átomo electronegativo (O,
N, S, P, Se, halógenos), Al y Ar representan grupos alifáticos y aromáticos respectivamente, = representa un
doble enlace, # representa un triple enlace, - - representa un enlace aromático como en el benceno o enlaces
deslocalizados como N-O, . . representa un enlace aromático simple como C-N, a representa el número formal
de oxidación, b un carbono alpha, c N-óxidos, d estructuras tipo pirrol, e estructuras tipo piridina y f estructuras
tipo piridina N-óxido [33].
A.8. Contribuciones de superficie de tipos de átomos polares
Donde (*) representa un átomo de cualquier elemento diferente al hidrógeno, - un enlace sencillo, = un enlace
doble, # un enlace triple, : un enlace aromático; un símbolo atómico en la parte inferior significa que el átomo
es parte de un sistema aromático. (b) Parte de un grupo nitro. (c) Nitrógeno medio en un grupo azida. (d)
Átomo en un anillo de tres componentes. (e) Nitrógeno en grupo isociano. (f) Piridina N-óxido [34].
No. Atom type PSA contrib. No. Atom type PSA contrib.
1 [N](-*)(-*)-* 3.24 23 [nH](:*):* 15.79
2 [N](-*)=* 12.36 24 [n+](:*)(:*):* 4.1
3 [N]#* 23.79 25 [n+](-*)(:*):* 3.88
4 [N](-*)(=*)=* (b) 11.68 26 [nH+](:*):* 14.14
5 [N](=*)#* (c) 13.6 27 [O](-*)-* 9.23
6 [N]1(-*)-*-*-1 (d) 3.01 28 [O]1-*-*-1 (d) 12.53
7 [NH](-*)-* 12.03 29 [O]=* 17.07
8 [NH]1-*-*-1 (d) 21.94 30 [OH]-* 20.23
9 [NH]=* 23.85 31 [O-]-* 23.06
10 [NH2]-* 26.02 32 [o](:*):* 13.14
11 [N+](-*)(-*)(-*)-* 0 33 [S](-*)-* 25.3
12 [N+](-*)(-*)=* 3.01 34 [S]=* 32.09
13 [N+](-*)#* (e) 4.36 35 [S](-*)(-*)=* 19.21
14 [NH+](-*)(-*)-* 4.44 36 [S](-*)(-*)(=*)=* 8.38
15 [NH+](-*)=* 13.97 37 [SH]-* 38.8
16 [NH2+](-*)-* 16.61 38 [s](:*):* 28.24
17 [NH2+]=* 25.59 39 [s](=*)(:*):* 21.7
18 [NH3+]-* 27.64 40 [P](-*)(-*)-* 13.59
19 [n](:*):* 12.89 41 [P](-*)=* 34.14
20 [n](:*)(:*):* 4.41 42 [P](-*)(-*)(-*)=* 9.81
21 [n](-*)(:*):* 4.93 43 [PH](-*)(-*)=* 23.47
22 [n](=*)(:*):* (f) 8.39
top related