análisis genético usando datos de secuenciación masiva · 2013-06-26 · toda la información...
TRANSCRIPT
![Page 2: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/2.jpg)
Motivación
Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación del portador: análisis genético de una pareja que está pensando en tener un hijo y cuyos miembros pertenecen a familias con antecedentes . Diagnóstico pre-natal: es el test genético de un feto. Puede ser realizado en los casos en los que existe riesgo de que el bebé presente genes asociados a un retraso mental o discapacidad física. Exploración del recién nacido: se realiza frecuentemente como medida preventiva de salud, presentando una ventaja obvia para el recién nacido cuando existe un tratamiento disponible. Trastornos de aparición tardía: incluye el análisis de enfermedades en adultos como, por ejemplo, cáncer y enfermedades cardiacas. Estas enfermedades son complejas y las causas para su desarrollo pueden ser tanto genéticas como medioambientales.
![Page 3: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/3.jpg)
Enfermedades mendelianas
![Page 4: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/4.jpg)
Ejemplos: Enfermedades mendelianas
Base de datos: OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim
Toda la información acerca de enfermedades mendelianas conocidas
incluyendo 12000 genes y la relación entre el genotipo y fenotipo
Hemoglobinopathies: sickle cell anaemia,thalassemia
Inborn errors of metabolism:PKU,Alkaptonuria……
Albinism
Cystic Fibrosis
Hirschsprung disease
![Page 5: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/5.jpg)
Fenotipos complejos
Objetivo
Corto plazo: Descubrir la base molecular de un fenotipo complejo, es decir la variación genética que puede explicar las diferencias fenotípicas entre los individuos de dos grupos (casos/controles)
Largo plazo: Mejorar la prevención y el tratamiento de enfermedades
Factores genéticos
Factores ambientales
Fenotipo complejo
• Algunos canceres • Diabetes (ambos tipos) • Alzheimer • Adicciones • Altura • Etc, etc, …
![Page 6: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/6.jpg)
SNPs
En un principio podríamos usar diferentes tipos de variación para detectar las diferencias entre poblaciones o grupos (sanos/enfermos) pero el análisis genético se basa frecuentemente en SNPs
SNPs: Polimorfismo de nucleótido simple • Suelen tener solo dos alelos, por ejemplo
C/T
• Mas de 2/3 de todos los SNPs derivan de un dinucleótido CpG (mutación por metilación)
• MAF: Minor Allele Frequency (frecuencia del alelo menos frecuente)
• A partir de una MAF del 5% (algunas veces del 1%) se define como SNP común
• Los SNPs comunes se suelen emplear en los estudios de asociación
![Page 7: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/7.jpg)
Tipos de variación: insercion y deleción
http://www.hgmd.cf.ac.uk/docs/mut_nom.html
Inserción en humano/chimpancé
Deleción en ratón/rata
![Page 8: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/8.jpg)
Alineamientos
![Page 9: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/9.jpg)
Genotípo y haplotípo
![Page 10: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/10.jpg)
Frecuencia vs. Efecto
![Page 11: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/11.jpg)
Detectar variación con chips de DNA
El principio de detectar variación mediante chips de DNA es el mismo que determinar los perfiles de expresión:
![Page 12: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/12.jpg)
Secuenciación masiva
Métodos actuales Second Generation Sequencing (Secuenciación masiva) 454
Pyrosequencing (PS)
Illumina Reversible Termination (RT)
SOLID Sequencing by Ligation (SBL)
![Page 13: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/13.jpg)
Secuenciación
![Page 14: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/14.jpg)
Secuenciación
![Page 15: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/15.jpg)
Variación y genotípo
SNP calling: detectar si en una posición dada existe variación Genotype calling: Detectar el genotípo de un individuo en la posición
![Page 16: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/16.jpg)
Variación y genotípo
Posición: chr9:139266466-139266536 Alelo de la referencia: C 8 reads indican timina en la muestra 10 reads indican citosina en la muestra
Heterocigoto con genotipo: C/T
![Page 17: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/17.jpg)
Detección de variación y genotípo
![Page 18: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/18.jpg)
Protocolo
(1) discovery: alignment of sequence reads to the reference genome and identification of candidate sites or regions at which one or more samples differ from the reference sequence;
(2) filtering: use of quality control measures to remove candidate sites that were probably false positives;
(3) genotyping: estimation of the alleles present in each individual at variant sites or regions;
(4) validation: assaying a subset of newly discovered variants using an independent technology, enabling the estimation of the false discovery rate (FDR). Independent data sources were used to estimate the accuracy of inferred genotypes.
![Page 19: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/19.jpg)
El punto de partida: FASTQ
@SRR037876.8543926 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876.8543927 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT + BBC@3<1=872661.@C;@A93+?:;.2.?386<;> @SRR037876.8543928 GSM522374_1:1:148:931:648 TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT + 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876.8543929 GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT +
Identificador
Secuencia del ‘read’
Calidad del ‘read’
La calidad Los caracteres se pueden convertir en un score (Q, Phred score) de calidad
La salida del secuenciador: Los reads (lecturas) en formato fastq
![Page 20: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/20.jpg)
Phred Quality Score
Línea de calidad: BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#
ASCII codificación B = 66 @=64 + = 43 …
Codificación depende del fabricante (por ejemplo codificación Sanger para la línea de calidad de de arriba) Q(B) = 66 – 33 = 33 (primer base) Q(@) = 64 – 33 = 31 (tercer base) Q(+) = 43 – 33 = 10 (cuarta base) …
![Page 21: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/21.jpg)
Phred Quality Score
Q y probabilidad de un error de secuenciación
![Page 22: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/22.jpg)
Example of extended CIGAR and the pileup output.
Li H et al. Bioinformatics 2009;25:2078-2079
© 2009 The Author(s)
![Page 23: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/23.jpg)
Formato VCF
http://vcftools.sourceforge.net/VCF-poster.pdf
![Page 24: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación](https://reader034.vdocumento.com/reader034/viewer/2022042310/5ed74c0ac079a6328058040d/html5/thumbnails/24.jpg)
Formato VCF