relacionando enfermedad y genética
TRANSCRIPT
![Page 1: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/1.jpg)
Relacionando enfermedad y genéticaElvira MayordomoBioinformática14-4-21
![Page 2: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/2.jpg)
Lo que veremos hoy
¿Qué posiciones del DNA se pueden relacionar con una enfermedad?
Dos métodos principales para hacerlo:EstadísticaMachine learning
Diferencias entre los dos, inconvenientes de cada uno, etc
![Page 3: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/3.jpg)
¿Cuándo decimos que una enfermedad es genética? Se ha encontrado diferencia significativa
entre la información genética de los individuos que tienen la enfermedad y los sanos
¿Cuánta diferencia? ¿Exactamente qué información genética?
![Page 4: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/4.jpg)
Términos de genética
Alelo: una de los valores alternativos de DNA en una posición (cromosomas homólogos)
Polimorfismo: existen al menos dos alelos en una posición
Homocigótico: Los dos alelos de una posición son idénticos
Heterocigótico: Los dos alelos de una posición son diferentes
![Page 5: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/5.jpg)
![Page 6: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/6.jpg)
SNP
Single Nucleotide Polymorphism Variación de una sola base En teoría hasta 4 valores posibles En la práctica suelen ser dos Se exige frecuencia ≥ 1% de los
individuos
GAGGAGAACG[C/G]AACTCCGCCG
![Page 7: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/7.jpg)
GWAS
Genome-wide association studies Se buscan unos SNPs en una población Casos= enfermos, Controles =sanos
![Page 8: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/8.jpg)
GWAS
Queremos identificar asociación entre un fenotipo (tiene la enfermedad) con uno de los SNP estudiados
Tenemos el grupo casos vs controles La mayoría de los SNPs saldrán
invariantes, algunos sandrán sobre- o infra-rrepresentados
![Page 9: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/9.jpg)
ESTADÍSTICA
![Page 10: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/10.jpg)
![Page 11: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/11.jpg)
Estadística: test de asociación
Para un SNP: comparar proporciones de cada alelo
![Page 12: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/12.jpg)
GWAS Se prueban 105-106 SNPs “bastante”
independientes 103-105 casos Control de calidad estricto Se utiliza un test de hipotesis (chi
cuadrado) Aparecen a menudo cientos de casos con
p<0.001 Significancia a partir de p=5*10-7
![Page 13: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/13.jpg)
![Page 14: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/14.jpg)
![Page 15: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/15.jpg)
GWAS o Linkage
En realidad no todos los SNPs van por separado, hay pares que se heredan siempre juntos (por su posición)
Si se tiene esto en cuenta aparecen más SNPs significativos
![Page 16: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/16.jpg)
Linkage desequilibrium
Buscar el común a dos SNPs: cuanto más oscuro más se heredan juntos
![Page 17: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/17.jpg)
![Page 18: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/18.jpg)
![Page 19: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/19.jpg)
![Page 20: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/20.jpg)
![Page 21: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/21.jpg)
Problemas de GWAS con estadística Funciona bien cuando se trata de un SNP Cuando se usa “linkage” la información
hay que tenerla a priori (qué SNPs se heredan juntos)
Considerar conjuntos de SNPs (es decir, enfermedades complejas multifactoriales) está más limitado
Poco escalable: ¿y si queremos añadir información epigenética?
![Page 22: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/22.jpg)
![Page 23: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/23.jpg)
Problemas de GWAS con estadística ¿Qué hacemos en realidad?Descartar la hipótesis de que un SNP no
influya en la enfermedadNo tenemos un resultado claro de cómo
influye, de si es el único o si es determinante La estadística hace “inferencia estadística”
infiere el modelo que representa unos datos
La predicción no es el objetivo
![Page 24: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/24.jpg)
MACHINE LEARNING
![Page 25: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/25.jpg)
¿Qué es el Aprendizaje Computacional?
![Page 26: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/26.jpg)
Para GWAS
El objetivo es predecir a partir de los SNPs si un individuo va a tener la enfermedad
O sea predecir entre dos categorías posibles, enfermo o sano
![Page 27: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/27.jpg)
Para GWAS
Experiencia: conjunto etiquetado de ejemplos (DNA(SNPs), diagnóstico)Conjunto de entrenamiento 60-80%Conjunto de validación 10-20%Conjunto de prueba 10-30%
Tarea: clasificar DNA entre los diagnósticos
![Page 28: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/28.jpg)
Medida de prestaciones
![Page 29: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/29.jpg)
Matriz de confusión
![Page 30: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/30.jpg)
Importante
Todas las medidas de prestaciones se refieren a los datos que tenemos
![Page 31: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/31.jpg)
![Page 32: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/32.jpg)
Problemas de ML
Los datos tienen que ser equilibrados (el mismo número de enfermos que de controles)
Si no hay que equilibrarlos artificialmente
![Page 33: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/33.jpg)
Comparando los dos
La estadística puede predecir pero lo suyo no es la precisión si no la predicción estadística
El aprendizaje computacional predice mucho mejor que la estadística lo que no hace muy bien es interpretar la razón de esa predicción
![Page 34: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/34.jpg)
Comparando los dos
Aprendizaje: el mejor en el conjunto dadoHay un salto claro en creer que será la misma
precisión para datos desconocidosPero no es necesario asumir que los datos
son aleatorios, sólo que son representativos (en un sentido poco claro)
Estadística: asume que los datos son aleatorios
![Page 35: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/35.jpg)
Problema de los dos
Reproducibilidad
![Page 36: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/36.jpg)
![Page 37: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/37.jpg)
![Page 38: Relacionando enfermedad y genética](https://reader030.vdocumento.com/reader030/viewer/2022012523/61968175bff3fc7aac2f592b/html5/thumbnails/38.jpg)