prÁctica estadÍstica en el anÁlisis de datos en hts francisco javier cabrerizo lorite miguel...

32
PRÁCTICA ESTADÍSTICA PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE EN EL ANÁLISIS DE DATOS EN HTS DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

Upload: marcos-murillo-acuna

Post on 23-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PRÁCTICA ESTADÍSTICA PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN EL ANÁLISIS DE DATOS

EN HTSEN HTS

FRANCISCO JAVIER CABRERIZO LORITE

MIGUEL GALINDO TRIGO

Page 2: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN• HTS (High-Throughput Screening) es un primer paso crítico en el

descubrimiento de nuevos medicamentos.

• Su objetivo es analizar un gran número de compuestos químicos para identificar cuales son ‘hits’ de forma rápida y correcta.

• Aquí nos centraremos en los efectos relativos a la posición de las muestras dentro de las placas, la elección del umbral de identificación de hits y la importancia de minimizar los falsos positivos y falsos negativos.

• Se comentará el uso de medidas replicadas junto con métodos estadísticos robustos en la etapa inicial para facilitar el descubrimiento de verdaderos hits, mejorando el proceso.

Page 3: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• La combinación de métodos robóticos, procesamiento paralelo y miniaturización de los ensayos biológicos ha incrementado enormemente el rendimiento en HTS.

Page 4: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• Sin embargo, esto ha sido compensado por un incremento de costes.

• Al principio, el reto era encontrar el medicamento más comerciable mientras se intentaba maximizar el número de objetivos y compuestos analizados, minimizando los costos por muestras.

• Ahora, además, HTS se está integrando en entornos académicos donde se pueden estudiar objetivos alternativos y enfermedades de menor valor comercial.

Page 5: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• HTS es un proceso a gran escala que investiga miles de compuestos químicos con el objetivo de identificar posibles candidatos a formar parte de medicamentos de forma rápida y correcta.

• Mientras que el formato de la placa y el número de compuestos por placa puede variar, es normal, que sólo se obtenga una única medida de la actividad del compuesto en esta primera etapa.

Page 6: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• Los compuestos identificados para continuar (hits) se confirman como hits fiables en la etapa secundaria.

• En la etapa secundaria se analizan muchos menos compuestos y se suelen usar medidas duplicadas.

• Los hits dudosos de la primera etapa podrían fallar en la validación realizada en esta.

Page 7: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• Los hits confirmados con una actividad biológica establecida conforme a las SAR (structure-activity relationship) series son nombrados ‘leads’.

• Estos leads se utilizarán en pruebas clínicas para comprobar si se pueden comercializar como medicamentos.

Page 8: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• Los errores que pueden surgir en el proceso, pueden deberse a:

– Ruido producido por factores técnicos o de procedimiento.

– Otros de origen desconocido.

• Estos efectos adversos pueden minimizarse:

– mediante procedimientos de control de calidad, y

– mediante correcciones estadísticas que podrían también ser necesarias para mitigar los efectos de variaciones incontroladas.

Page 9: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• Las diferencias en la variabilidad pueden crear desigualdades entre los compuestos.

– La actividad medida en los compuestos de baja variabilidad casi siempre será cercana a sus auténticos valores.

– Por el contrario, los niveles de actividad medida en los compuestos de alta variabilidad pueden diferir considerablemente de sus auténticos valores.

• Una vez que la eficiencia técnica y de procedimiento han sido optimizadas, la única forma de minimizar más la variabilidad es obteniendo estimaciones de los niveles de actividad tomando medidas (media, mediana) mediante medidas replicadas, ya que estas son menos variables que las estimaciones basadas en una única medida.

Page 10: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INTRODUCCIÓNINTRODUCCIÓN

• PREPROCESAMIENTO.– Necesidad de normalizar.– Métodos estadísticos de normalización (POC, NPI, Z score, B score).– Recomendaciones.

• INFERENCIA ESTADÍSTICA Y UMBRALES PARA LOS HITS.– Decisión sobre que compuestos deberían procesarse en la etapa

secundaria.– Diferentes modos actuales de identificación de hits.– Recomendaciones.

• USO DE RÉPLICAS.– Ventajas.– Práctica actual.– Recomendaciones.

• CONCLUSIONES.

Page 11: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• Para realizar un buen procesamiento de datos, se necesitan controles de calidad y medidas de corrección. Así, los controles dentro de la placa permiten identificar la variabilidad entre placas.

• La normalización de los datos es importante para eliminar las variaciones sistemáticas entre placas, haciendo las medidas comparables entre ellas.

• Los errores sistemáticos decrementan la validez de los resultados sobreestimando o subestimando los valores verdaderos. Estas desviaciones pueden afectar a todas las medidas por igual o pueden depender de factores como la localización del compuesto, la distribución de líquido y la intensidad de la señal.

Page 12: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• La actividad medida en los compuestos es una función de al menos dos factores:

– La auténtica actividad del compuesto, y– Un error aleatorio.

Yijp = μijp + εijp

• Donde Yijp es la medida observada en la posición localizada en la fila i y columna j de la placa p, μijp es la actividad real y εijp es el efecto producido por las fuentes de error.

Page 13: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• Debido a la forma en la cual los compuesto se ponen en las placas, los controles se sitúan normalmente en las columnas exteriores.

• Sin embargo, los errores sistemáticos en esas columnas externas, pueden afectar a todas las medidas en la placa ya que son ajustadas en base a esos controles.

• Efectos frontera.

Page 14: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• MÉTODOS DE PROCESAMIENTO.

• 1. Porcentaje de control: método que intenta corregir la variabilidad entre placas normalizando las medidas de los compuestos respecto a los controles. Las medidas de cada compuesto se dividen por la media de sus controles positivos de su placa.

• Donde xi es la medida obtenida del compuesto i y c es la media de las medidas de los controles positivos.

100c

xPOC i

Page 15: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• 2. Porcentaje normalizado de inhibición: método de control en el cual la diferencia entre la medida del compuesto y la media de los controles positivos es dividida por la diferencia entre las medias de las medidas de los controles positivos y negativos.

cc

xcNPI i

Page 16: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• 3. Z score: método de control que excluye las medidas de control bajo la suposición de que la mayoría de los compuestos están inactivos y pueden servir como controles; las medidas de los compuestos son reescaladas relativamente a la variación dentro de la placa restándole la media de los valores de la placa y dividiendo la diferencia por la desviación estándar estimada de todas las medidas de la placa.

x

i

s

xxZ

Page 17: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• INCONVENIENTES DE ESTOS MÉTODOS:

– Asumen que la distribución de error aleatoria es común para todas las medidas de la placa, lo que no siempre es cierto.

– Confían en estadísticas no robustas, ya que las medias y desviaciones estándar son altamente influenciables por los extremos estadísticos, que en el contexto de HTS son supuestos hits.

• Solución: usar otros estimadores más resistentes: mediana, desviación absoluta media.

• MEJORA: B score.

Page 18: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• B score: es un método análogo robusto del Z score que usa un índice de dispersión que es más resistente a la presencia de extremos y más robusto a las diferencias en las distribuciones de las medidas de error de los compuestos.

• Primero elimina los efectos de las filas y las columnas de la placa.

• Donde rijp es el residuo definido como la diferencia entre el resultado observado yijp y el valor ajustado ŷijp, definido como una estimación de la media de la placa μp + la medida de compensación de la fila i de la placa p, Rij + la medida de compensación de la columna j de la placa p, Cjp.

• Los residuos resultantes en cada placa se dividen por sus desviaciones absolutas medias para estandarizar la variabilidad entre placas.

jpipijpijpijpijp CRyyyr ˆˆˆˆ

p

ijp

MAD

rBscore

Page 19: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• Donde

• VENTAJAS:

– Es no parámetrico.– Minimiza las desviaciones debidas a los efectos de posición.– Es resistentes a los outliers.

ijpijp rmedianarmedianaMAD

Page 20: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

PROCESAMIENTO DE DATOS PROCESAMIENTO DE DATOS EN HTSEN HTS

• RECOMENDACIONES:

– Se prefiere normalizar sin usar controles.

– Se prefiere el método B score, sobre todo si se sospecha que existan bias en filas y columnas.

– Los controles si son necesarios, deberían estar localizados aleatoriamente en la placa, minimizando los bias de las filas y columnas. Sin embargo, la forma actual de colocar los compuestos en las placas no se presta a la aleatorización.

• Solución: una forma de minimizar los efectos de posición, es ir alternando la localización de los compuestos para los controles positivos y negativos a lo largo de las fronteras de la placa.

Page 21: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INFERENCIA ESTADÍSTICA Y UMBRALES DE INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITSIDENTIFICACIÓN DE HITS

• El siguiente paso es decidir que compuestos deberían procesarse en la etapa secundaria.

• Actualmente los procesos de inferencia no están bien definidos estadísticamente: los procedimientos para la identificación de hits se basan en reglas básicas informales más que en juicios probabilísticos.

• Experimentalmente, se demuestra que bajando el umbral del hit se incrementan la proporción de falsos positivos mientras que baja la de falsos negativos.

Page 22: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INFERENCIA ESTADÍSTICA Y UMBRALES DE INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITSIDENTIFICACIÓN DE HITS

• PRÁCTICA ACTUAL:– Un modo de identificar hits es dibujar la actividad de los compuestos

sobre el eje y, y la identidad de los compuestos sobre el eje x. • Los compuestos cuya actividad medida se desvíen del resto se identifican

como hits.• INCONVENIENTE: los compuestos potencialmente importantes de baja o

intermedia actividad son difíciles de identificar y podrían perderse.

– Otro modo de identificar hits es tomar un porcentaje de los compuestos más activos.

• INCONVENIENTE: arbitraria.

– Otro modo de identificar hits es tomar aquellos cuya actividad exceda un umbral de porcentaje de control.

• Cualquier compuesto con una actividad medida que sea al menos el doble de la media de las medidas de los controles negativos se considera un hit.

Page 23: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

INFERENCIA ESTADÍSTICA Y UMBRALES DE INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITSIDENTIFICACIÓN DE HITS

• RECOMENDACIONES:– Respecto a los falsos negativos se puede hacer muy poco, y por ello,

es mejor adoptar una perspectiva progresista y centrarse en los hits conseguidos.

• Sin embargo, es importante cuantificar las proporciones de potenciales falsos negativos conseguidos antes de decidir si o no son despreciables en un experimento particular.

– La mayoría de las decisiones importantes se basan en la percepción subjetiva y la experiencia pasada. Sin embargo deberían tenerse en cuenta también métodos estadísticos y un uso juicioso de las réplicas que mejoraría la detección de los compuestos mínimamente activos pero farmacológicamente importantes.

Page 24: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

• La precisión puede incrementarse obteniendo réplicas y minimizando la variación debida al manejo de las muestra y al procesamiento.

• Las estimaciones aleatorias de error, fundamentales en la inferencia estadística, se obtienen típicamente a partir de las medidas replicadas.

• El uso de réplicas reduce la variabilidad de los datos, lo cual se refleja en el estrechamiento de la distribución de los datos. De esta forma, el número de falsos negativos se minimiza mientras el de falsos positivos se mantiene ajustado.

Page 25: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

• PRÁCTICA ACTUAL:

– Por cuestiones de tiempo y coste, sólo se toma una medida de los compuestos en la primera etapa del proceso.

• INCONVENIENTE: deben hacerse fuertes suposiciones para estimar el error aleatorio.

– Las medidas replicadas se utilizan para los experimentos realizados en la segunda etapa.

• Aunque se está empezando a recomendar el uso de réplicas también para la primera etapa.

Page 26: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

• Las réplicas ideales son aquellas medidas que se repiten sobre los mismos compuestos bajo las mismas condiciones experimentales. De esta forma:

– Múltiples relecturas de la misma placa no son recomendadas como réplicas (excepto como comprobación para posibles errores en el proceso de lectura).

– Compuestos estructuralmente similares (análogos) tampoco son recomendables como réplicas (a pesar de que podrían mostrar actividades comparables).

– Medidas sobre los mismos compuestos bajo diferentes circunstancias experimentales (primera etapa versus segunda etapa) tampoco deben ser usadas como réplicas debido a que podrían estar influenciados por diferentes factores.

Page 27: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

– Juntar compuestos en varias combinaciones en diferentes pipetas ofrece ventajas de ahorro en tiempo pero no puede considerarse como réplicas en el modo normal.

– Ejemplo:

• Los falsos positivos tienen más posibilidad de aparecer cuando los compuestos que interactúan débilmente se junta en la misma pipeta o cuando los compuestos realmente activos se incrementan en una fila.

• Por el contrario, los falsos negativos son menos comunes en este método, pero podría crecer el número de falsos negativos si los compuestos juntados tienen efectos biológicos contrarios de fuerza similar.

Page 28: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

• RECOMENDACIONES:– Las réplicas ofrecen dos ventajas:

• Mayor precisión para la medida de actividad.

• Medias para estimar la variabilidad asociada con las medidas.

– Comparado con la incertidumbre de una única medidas, la imprecisión de la media se reduce

– Donde n es el número de réplicas.

– Con 2 réplicas se reduce la imprecisión un 29%, con 3 se reduce un 13% más y con 4, un 8% más, con lo que tenemos un 50% menos de imprecisión que con una única medida, lo que facilita detectar compuestos poco activos.

%11100

n

Page 29: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

USO DE RÉPLICASUSO DE RÉPLICAS

– Las réplicas se pueden situar en la misma o en diferentes placas. Aunque dentro de una placa la variación será normalmente menor, se prefiere la replicación entre placas porque representa una estimación más realista de la variación.

• En general es importante obtener estimaciones de la variabilidad total de cualquier proceso de medida.

– La mayoría de las prácticas actuales hacen fuertes suposiciones sobre los datos (por ejemplo, la misma magnitud de error aleatorio asociado a todas las medidas), lo cual si es incorrecto puede incrementar el número de falsos positivos y falsos negativos.

• Sin estudios a gran escala con medidas replicadas, estas suposiciones y las ventajas de aproximaciones de modelos estadísticos más complejos son difíciles de verificar.

Page 30: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

CONCLUSIONESCONCLUSIONES

• Los métodos estadísticos tienen un rol limitado en HTS. – Uno de sus usos es para relacionar propiedades químicas con niveles

de actividad durante el experimento para dar información sobre selección de compuestos o,

– Software de minería de datos para el control de calidad.

• A pesar de estos avances en el análisis de datos, HTS continua careciendo de procedimientos universales para procesar y extraer conocimiento de los experimentos.

• Las medidas replicadas dan muchas ventajas a la hora de tomar las decisiones sobre la elección de hits.

Page 31: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

CONCLUSIONESCONCLUSIONES

• Ajustar estadísticamente los efectos de filas y columnas a través de procesos como el usado por el método B score ofrece ganancias en inferencia y deberían usarse rutinariamente.

• La suposición de una varianza de error común para todos los compuestos en la identificación de hits es incorrecto al menos algunas de las veces.– Como mínimo, la suposición debería verificarse replicando algunos de

los compuestos y comprobando frente a las distribuciones derivadas teóricamente.

• Los avances en los modelos estadísticos de HTS darán benchmarks contra los cuales comparar los resultados experimentales y como consecuencia ayudarán a estandarizar el proceso de identificación de hits.

Page 32: PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO

CONCLUSIONESCONCLUSIONES

• Mejorando la calidad de las medidas y mejorando las proporciones cuantificables de falsos positivos y falsos negativos, los modelos estadísticos pueden mejorar la eficacia de las consideraciones no estadísticas para guiar el desarrollo.