© copyright ebiointel,sl 2006 almacenamiento y representación de la información biomédica

27
© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

Upload: angela-mario

Post on 11-Apr-2015

108 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Almacenamiento y representación de la información biomédica

Page 2: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Puntos a tratar:Puntos a tratar:

Tipos de datos biomédicos

Formatos de presentación de datos

Envío de datos

Formatos de secuencias

Sistemas gestores de bases de datos

Almacenamiento y representación de la información

Page 3: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Milenio Libro

1er Religiosos:Biblia, Corán,...

2º El origen de la especies

3er El genoma humano

HumanGenome

DB

Page 4: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Bases de datos biomédicas

Tipos de datos Literatura Secuencias Estructuras

3D 2D Geles 2D

Asociación genética (Desequilibrio)

Tecnología informática de almacenamiento y recuperación de datos

Archivo de texto Base de datos relaciones Base de datos deductivas Base de datos orientada a objetos

Almacenamiento y representación de la información

Page 5: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Evolución de las bases de datos moleculares

Categoría de base de datos

Contenido de los datos

Ejemplos

Bases de datos de literatura

Citaciones bibliográficas

Revistas on-line

MEDLINE (1971)

Bases de datos factuales o datos brutos

Seq. ácidos nucleicos,

Seq. Aminoácidos

Estructuras moleculares 3D

GenBank (1982), EMBL (1982), DDBJ (1984), PIR (1968), SWISS-PROT (1986), PDB (1971)

Base de datos de conocimientos

Biblioteca de motivos

Clasif. molecular

Rutas metabólicas

PROSITE (1988)

SCOP (1994)

KEGG (1995)

Almacenamiento y representación de la información

Page 6: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Primarias

Secundarias

Terciarias

Secuencia

Motivo

Dominio Módulo

A V I L D R Y F H

[A S] - [IL ] 2-X [ DE ] – R- [FYW ] 2-H

A,b,c @,*,#

Base de datos primarias

Base de datos secundarias

Base de datos de estructuras

Niveles de secuencia proteica y organización estructural

Almacenamiento y representación de la información

Page 7: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Formato de archivo de texto (flat file) o html (GenBank, EMBL)

Formato gráfico o applets (PDB, Drosophila GeneView, Human Genoma MapViewer)

Formato código binario o texto interpretable por aplicaciones de visualización (archivo dnd de ClustaW)

Formato presentación datos

Almacenamiento y representación de la información

Page 8: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Envío de secuencias a las bases de datos por el investigador

Vía Web en BankIt Usar programa Sequin en Mac, Windows, UNIXE-mailEn disquete por correo

Revisión de las nuevas entradas o actualización

Asignación de número de acceso de la base de datos a las nuevas entradas

Intercambio de las nuevas secuencias entre las tres principales bases de datos

Recopilación de las Secuencias de las grandes bases de datos

Almacenamiento y representación de la información

ObsoletoObsoleto

Page 9: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Se suelen enviar las secuencias previo a la publicación

Proyectos genomas (High Throughtput Sequence, HTG):

Borrador (draft): 1 error en 1kb (4x-5x) Acabado (finished): 1 error en 10 kb (8x-9x)

• Genome Survey Sequence (GSS) Una única lectura de secuencias de clones

genómicos al azar 1 error en 100 bp

ESTs (Expressed Tagged Sites) Una única lectura de secuencias de clones

de cDNA al azar 1 error en 100 bp

Fiabilidad de las secuenciasAlmacenamiento y representación de la información

Page 10: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Códigos de bases de ácidos nucleicos IUB/GCG Significado Complemento ------- ----------- -----------

A A T C C G G G C T/U T A M A or C K R A or G Y W A or T W S C or G S Y C or T R K G or T M V A or C or G B H A or C or T D D A or G or T H B C or G or T V X/N G or A or T or C X . not G or A or T or C .

Almacenamiento y representación de la información

Page 11: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Códigos de aminoácidos

Símbolo de una y tres letras

G Glycine GlyP Proline ProA Alanine AlaV Valine ValL Leucine Leu     I Isoleucine Ile     M Methionine Met     C Cysteine CysF Phenylalanine Phe     Y Tyrosine Tyr    

W Tryptophan Trp     H Histidine HisK Lysine Lys     R Arginine Arg     Q Glutamine Gln     N Asparagine AsnE Glutamic Acid Glu     D Aspartic Acid Asp     S Serine Ser     T Threonine Thr

Almacenamiento y representación de la información

Page 12: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Formatos de secuencias

Ficheros ASCII (editor de texto) Fasta GenBank GCG ... Fasta

Múltiples secuencias

Almacenamiento y representación de la información

Page 13: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Formato GenBank

Almacenamiento y representación de la información

Page 16: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Tecnología informática de almacenamiento y recuperación de datos

Base de datos Sistema gestor de la base de datos

Archivo de texto

Base de datos relaciones

Base de datos orientada a objetos

Base de datos deductivas

Especifica la estructura lógica de la base de datos en función de la definición de los datos

Almacenamiento y representación de la información

Page 17: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Base de datos relaciones (Codd 1970)

Todos los datos se organizan en tablas Álgebra relacional Intuitivo y comprensible Consultas en lenguaje SQL (Structured Query Language,

estándar 1986, 1992, 1999, 2003) Lenguaje declarativo de acceso a bases de datos

SELECT lista de atributos

FROM lista de relaciones

WHERE condición

SELECT * FROM TABLA_CITACION WHERE year = ‘2005’

Almacenamiento y representación de la información

cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.

Page 18: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Paper 1

Paper 2

Paper 3

Paper 4........

SELECT

PROJECT

Jou

rnal

MU

ID

Vo

lum

e

Pag

es

Yea

r

Almacenamiento y representación de la información

2005

SELECT * FROM TABLA_CITACION WHERE year = ‘2005’

200520052004

2003

2004

200520052005

Jou

rnal

MU

ID

Vo

lum

e

Pag

es

Yea

r

MU

ID

Yea

r

Page 19: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

JOIN

Jou

rnal

MU

ID

Vo

lum

e

Pag

es

Yea

r

Au

tho

r

MU

ID

Au

tho

r

Author 1-1

Author 1-2

Author 2-1

Author 2-2

Author 2-3

Author 3-1

........

Almacenamiento y representación de la información

16777514

16777514

16777514

16777514

MU

ID

Jou

rnal

Vo

lum

e

Pag

es

Yea

r

Page 20: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Almacenamiento y representación de la información

SELECT

Ejemplo 1:

SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE

Ejemplo 2:

SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' ORDER BY ID, FECHA, NOMBRE

Ejemplo 3:

SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' GROUP BY NOMBRE

DELETE

Este comando SQL elimina registros de una tabla especifica.

Ejemplo 1:

DELETE FROM TABLA_NOMBRE WHERE ID = 2

Page 21: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Almacenamiento y representación de la información

DPDB DATA MODEL

Page 22: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Almacenamiento y representación de la información

Ejemplos SGBD relacionales

ComercialesORACLESQLServerAccess

Código abiertoMySQLPostgreSQL

Page 23: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Base de datos orientada a objetos (Kay 1972) Objetos son tipos abstractos de datos Una representación más flexible del mundo real de datos Falta de lógica robusta Incorpora los conceptos importantes del paradigma de objetos:

Encapsulación - Propiedad que permite ocultar la información al resto de los objetos, impidiendo así accesos incorrectos o conflictos. Herencia - Propiedad a través de la cual los objetos heredan comportamiento dentro de una jerarquía de

clases. Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de

objetos.

Almacenamiento y representación de la información

Page 24: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Base de datos orientada a objetos (Kay 1972)

Similitud (X)

Objeto X

mensajeClase de similitud de secuencia

Clase de similitud de estructura

Clase de similitud de expresión

Clase de similitud de rutas metabólicas

Almacenamiento y representación de la información

Page 25: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Integración de Bases de datos

Integración basada en Links

Base de datos: entrada

Base de datos 1:entrada1 Base de datos 2:entrada2

Almacenamiento y representación de la información

Page 26: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

Programación orientada a objetos

(Kay,1972)

Programación lógica

(Kowalski,1972)

Base de datos deductiva

(1977)

Base de datos orientada a objetos

(1986)

Base de datos deductiva y

orientada a objetos(1989)

Base de datos relacional

(Codd,1970)

Evolución de las Bases de datos

Almacenamiento y representación de la información

Page 27: © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica

© Copyright Ebiointel,SL 2006

•Internet y la interoperabilidad de datos

Desarrollos de estándares en XML

Programación Java, C#, Visual

Basic, JScript, AJAX,..

Servicios de aplicaciones Web(Visual Studio.Net,Java JBoss, SAD,

BioMOBY)

Evolución de Internet

Almacenamiento y representación de la información