guía+bioinformatica+2

Guía de Estudio Práctico BIO141c Objetivo General Explorar la relación secuencia-‐estructura-‐función en proteínas a través de la comparación de sus estructuras mediante servidores-‐web de libre acceso. Objetivos específicos

1. Utilizar el software PyMOL para la visualización de estructuras de proteínas. 2. Comparar la estructura tridimensional de proteínas mediante el servidor

TopMatch. Marco teórico PDB (Protein Data Bank): una base de datos de estructura de proteínas. La base de datos PDB es el repositorio mundial de libre accesso que contiene estructuras tridimensionales de moléculas biológicas tales como proteínas y ácidos nucleicos. Aquí se pueden encontrar moléculas provenientes de organismos tan diversos como bacterias, hongos, plantas, mosca y ratón, así también como de humanos. Entender la estructura o ‘forma’ tridimensional de una molécula, ayuda a comprender como ésta funciona. Esta base de datos fue constituída en 1971 en el Laboratorio Nacional de Brookhaven, Estados Unidos, y en su inicio contenía sólo siete estructuras. En 1998, la RCSB (Research Collaboratory for Structural Bioinformatics) se hace responsable del manejo y mantención del PDB. Actualmente, el PDB crece constantemente. Actualmente 2014, existen más de 100,000 estructuras determinadas experimentalmente, las que fueron depositadas por científicos de todo el mundo. Además del número creciente de estructuras disponibles, la complejidad de las estructuras también ha aumentado, por ejemplo, hoy es posible encontrar la estructura completa de grandes máquinas macromoleculares. Asociada con cada estructura presente en el PDB, se encuentra disponible una variedad de información adicional, la que incluye detalles de secuencia, coordenadas atómicas, condiciones de cristalización, distintos datos geométricos, factores estructurales, imágenes tridimensionales y gran cantidad de enlaces a otros recursos. Todos los archivos son depositados por la comunidad científica internacional y mantenidos por el equipo del RCSB.

Búsqueda de estructuras

Los servicios ofrecidos por PDB incluyen un portal web, una base de datos en la cual se pueden realizar diversas búsquedas, información resumida de datos actualizados, programas de código abierto, un foro de discusión, enlaces de ayuda y recursos educacionales.

Cada día más de 10,000 científicos, estudiantes y docentes de todo el mundo visitan este portal web. En promedio, 2.2 estructuras son descargadas cada segundo. Estos datos son utilizados para investigación principalmente en biología, medicina, ingeniería y ciencias de la computación.

Figura 1: Págna inicial del portal web de PDB (ver texto).

Si accedes al portal web del PDB (http://www.pdb.org) aparecerá la página inicial mostrada en la Figura 1. En la columna izquierda (Figura 1A) encontrarás un detallado menú con información relacionada con el portal y enlaces a distintos recursos, tales como tutoriales, programas para análisis de estructuras moleculares, estadística general acerca de las distintas estructuras depositadas en la base de datos, información acerca de los distintos formatos de archivo utilizados, etc. Si estás interesado, y a modo de introducción, te recomendamos navegar este menú para que familiarices aún más con PDB, sus términos y conceptos.

Este portal es un sitio que se encuentra en constante actualización. Se destaca

especialmente la sección “Molecule of the Month” (Figura 1B), que como su nombre lo indica, de todas las estructuras depositadas durante un mes, se elige una de ellas, dada su

A

B

D C

relevancia, pues por ejemplo, se trata de una nueva estructura, que revela una nueva función o muestra un mecanismo bioquímico que era desconocido. Por otro lado, también es posible conocer en línea el número de estructuras depositadas en la base de datos (Figura 1C), el que va en aumento día a día.

Para realizar búsqueda de estructuras utilizaremos el campo de búsqueda rápida

que se encuentra en la parte superior del portal (Figura 1D). Alternativamente, se pueden llevar a cabo búsquedas por tópicos, accediendo a la pestaña “Search” de la columna de la izquierda (Figura 1A).

Haremos una búsqueda simple (investiga cómo se lleva a cabo una búsqueda avanzada presionando en el enlace “Advanced Search” mostrado en la Figura 1D). Para ello escribe la palabra “rubisco”1 y presiona “Site Search”. En la sección principal de la página aparecerán los resultados de esta búsqueda (Figura 2).

Figura 2. Resultados de la búsqueda del término “rubisco” (ver texto).

Según los resultados de nuestra búsqueda (Figura 2A), el sistema encontró el término “rubisco” asociado a 60 estructuras, a 29 publicaciones científicas donde se hace mención a las 60 estructuras, a 23 ligandos, sustratos o grupos prostéticos encontrados

1 RUBISCO es la enzima más abundante en la naturaleza. Esta enzima se encuentra en los organismos fotosintetizadores y es la encargada de fijar el dióxido de carbono atmosférico en moléculas orgánicas.

B C D

A

junto a las 60 estructuras y a 29 páginas web del portal del PDB donde aparece el término “rubisco”.

Los resutados mostrados en la Figura 2 corresponden al enlace “60 Structure Hits” (Figura 2A). Por defecto, el sistema muestra sólo 10 resultados por página, por lo que para ver las otras estructuras es necesario ir a las siguientes páginas (Figura 2B).

Los paneles C y D de la Figura 2, destacan la primera estructura de los 60 resultados obtenidos al buscar el término “rubisco”. En C se indica el Código PDB (o PDB ID) de la estructura (código único alfanumérico de cuatro caracteres que identifica a cada estructura presente en la base de datos), que en este caso es “1EJ7”, y su representación gráfica. Por otro lado, en D se muestra información general acerca de la estructura. En este caso, vemos que la estructura fue depositada en el año 2000, que fue resuelta por difracción de rayos-‐X con una resolución de 2.45 Å, que se trata de una enzima de la familia de las liasas, etc.

En estos resultados busca la estructura cuyo código PDB es 1RXO y luego presiona sobre su representación gráfica (la estructura mostrada en el panel C de la Figura 2). El sistema en este caso, te llevará a una página como la mostrada en la Figura 3.

Figura 3. Información detallada acerca de la estructura cuyo código PDB es 1RXO.

En primer lugar aparecen nuevos enlaces en el menú de la izquierda (investiga de qué se tratan)(Figura 3A) y el sistema nos muestra más detalles acerca de la estructura elegida. Por defecto, la información mostrada es la correspondiente al enlace “Structure

A

C

B

Summary” del panel B de la Figura 3. Averigua y explora el tipo de información mostrada en esta sección (si no conoces algunos términos dirígete al enlace de ayuda “Help” a la izquierda del panel B de la Figura 3 o simplemente búscalos en Google). En la sección “Biology & Chemistry” encontrarás detalles como la fórmula química de la estructura, su peso, los ligandos involucrados, etc.; en “Material & Methods” se muestran las condiciones experimentales y parámetros utilizados para la obtención de la estructura, por ejemplo, vemos que se trabajó a pH 7.8 y 0.2 M NaCl; en la sección “Sequence Details” encontrarás información a nivel de secuencia. Para el caso de esta estructura (1RXO) vemos que la unidad dimérica básica (repetida 4 veces en total) de esta proteína está representada por las cadenas L y S; la cadena L tiene 475 residuos, dos dominios, 23 α–hélices y 20 hojas-‐β; mientras que la cadena S posee 123 residuos, los cuales forman un sólo dominio que tiene 2 α–hélices y 6 hojas-‐β. En “Geometry” encontrarás datos estadísticos acerca de las longitudes de enlace, ángulos de enlace y ángulos de torsión, por ejemplo, vemos que el número de enlaces Cα-‐Cβ en la cadena L es 284 con una longitud de enlace promedio de 1.54 Å.

El panel C de la Figura 3 contiene dos íconos: el de la izquierda permite descargar un archivo de texto en formato especial (llamado “archivo PDB”) que contiene información sobre la estructura respectiva y las coordenadas tridimensionales de cada átomo que la compone; al presionar el ícono de la derecha se muestra el contenido de este archivo en una ventana nueva del navegador. Si no te has dado cuenta, estos dos íconos también se encuentran en los resultados mostrados en la Figura 2. Descarga el archivo PDB presionando el ícono de la izquierda del panel C, guárdalo en tu computador, ábrelo y explóralo con algún editor de texto (por ejemplo, el block de notas o notepad) y confróntalo con la sección que sigue a continuación. Software de visualización molecular (PyMOL)

Una herramienta muy útil y necesaria para trabajar en el análisis de estructuras de proteínas corresponde a los programas de visualización molecular. En términos simples, estos programas leen un archivo de datos (usualmente en formato de texto como el PDB) donde se almacenan las coordenadas atómicas de los átomos que conforman una biomolécula. Estos programas no sólo se utilizan para ver y trabajar con estructuras de proteínas, sino que también son utilizados para ver otro tipo de biomoléculas como ácidos nucleicos o combinaciones de ambas (complejos proteína-‐ADN).

Nos enfocaremos en una herramienta de visualización llamada PyMOL, puesto que es ampliamente utilizada y además existe en versiones gratuitas para uso libre. Adicionalmente se caracteriza porque es una herramienta altamente configurable y con una calidad de representación bastante alta. De hecho, PyMOL puede generar imágenes de alta calidad, como las que se requieren normalmente en la publicación de artículos científicos.

Para continuar con el aprendizaje de PyMOL, descarga los siguientes videos disponibles en: http://protein.bio.puc.cl/cardex/bio141c/Tutorial-‐PyMOL-‐Parte1.mp4 http://protein.bio.puc.cl/cardex/bio141c/Tutorial-‐PyMOL-‐Parte2.mp4 La relación secuencia-‐estructura en proteínas

En el año 1986 un experimento bioinformático realizado por Chothia y Lesk, permitió dar con un principio clave en lo referente a la relación secuencia/estructura en proteínas. Ellos pudieron demostrar que la estructura de una proteína es más conservada que su secuencia. Lo anterior quiere decir que es posible encontrar pares de proteínas cuyas secuencias sean altamente divergentes (porcentaje de identidad menor a 30%), sin embargo su estructura está altamente conservada.

Para demostrar este principio Chothia y Lesk utilizaron una herramienta muy útil en bioinformática llamada alineamiento estructural.

A continuación revisaremos algunos conceptos básicos sobre alineamientos estructurales, así como la utilización de una herramienta particular para la construcción de estos alineamientos (TopMatch).

Conforme se fueron depositando más estructuras en la base de datos del PDB, fue

necesario diseñar métodos que permitieran comparar geométricamente estas moléculas, pues pronto se hizo evidente que la organización tridimensional contenía información relevante que podía ser interpretada a nivel bioquímico en relación a la función que puede cumplir una proteína, así como en términos de sus relaciones evolutivas. Definición de un alineamiento estructural. Un alineamiento estructural viene a resolver el problema de comparar a nivel estructural dos proteínas cuya organización tridimensional es conocida de manera previa por métodos experimentales (cristalografía de rayos X o resonancia nuclear magnética). El propósito de todo alineamiento estructural es identificar los residuos de una proteína que tienen un rol estructural equivalente en ambas estructuras, que se enuncia como aminoácidos estructuralmente equivalentes (Hendrickson, 1979).

Los alineamientos estructurales son especialmente útiles cuando se quiere explorar proteínas que se encuentran distantemente relacionadas en término de sus secuencias. Una forma de mejorar la calidad del alineamiento de secuencias es emplear un alineamiento estructural, obtenido a partir de la previa superposición óptima de estructuras. La razón por la que estos alineamientos son más exactos es un efecto de la conservación de aminoácidos importantes para la estabilidad termodinámica, plegamiento y función de la proteína.

Los alineamientos de secuencias principalmente consideran la optimización de

identidades de aminoácidos sin considerar la información estructural. Esto puede generar resultados que cuando se examinan en la perspectiva estructural, carecen de todo sentido (Figura 4). Si se trata entonces de determinar qué aminoácidos cumplen el mismo rol en ambas estructuras, desde luego hay que considerar su ubicación espacial. En este sentido el ejemplo mostrado en la Figura 4 es categórico. Aquí, se comparan los resultados de una alineamiento de secuencias y uno de estructuras. Ambos alineamientos son graficados en la forma de una superposición estructural y de un alineamiento de secuencias. En el caso del alineamiento de secuencia, que optimiza una función que es dependiente del tipo de aminoácido, se obtienen pobres relaciones estructurales. En efecto, en este ejemplo los segmentos alineados tampoco son similares en su composición de estructura secundaria. Por otra parte, incorporar la información estructural (i.e. alineamiento estructural), permite identificar no sólo la real relación entre las estructuras comparadas, sino que además se puede incrementar la relación ruido-‐señal en alineamientos de secuencia.

Este tipo de ejemplo es típico de proteínas que tienen bajos porcentajes de identidad de secuencia entre ellas, donde se sabe que los métodos basados en el uso exclusivo de esta información generan alineamientos defectuosos (Pei, 2008). Sin embargo, es posible utilizar la información estructural para generar alineamientos de mejor calidad en proteínas distantemente relacionadas (i.e. alineamientos estructurales). Es interesante considerar que el proceso de construcción de alineamientos estructurales en algunos algoritmos no considera el tipo de aminoácido que se está alineando, sino que se basan de manera exclusiva en el uso de la información de coordenadas atómicas (Ortiz et al., 2002).

Figura 4. Comparación entre un alineamiento de secuencias y un alineamiento estructural y los efectos observados cuando se realizan sobre proteínas distantemente relacionadas. En la figura se compara el alineamiento de secuencias con el alineamiento estructural. Se estudia un par de proteínas distantemente relacionadas a nivel de sus secuencias. Las proteínas se encuentran coloreadas en azul (polimerasa Dpo4, código PDB 2iwm) y verde (polimerasa iota, código PDB 2wtf) tanto en la estructura como en sus secuencias. En el panel A, se muestra la construcción de alineamiento de secuencias (base de la figura) y cómo queda representado éste desde el punto de vista estructural. En el alineamiento de secuencias se destacaron en rojo para la secuencia azul y en naranjo para la estructura verde, los aminoácidos alineados según un algoritmo de alineamiento de secuencias. Esos mismos aminoácidos fueron utilizados para generar una superposición óptima de ambas estructuras que se encuentran representadas en la modalidad de cartoons (el mismo código de colores utilizado en la secuencia se aplica acá). En el panel B, se muestra una un alineamiento estructural del mismo par de proteínas. La superposición óptima las estructuras se encuentran en color azul y verde, y los aminoácidos identificados como estructuralmente equivalentes según el algoritmo de alineamiento estructural se encuentran en rojo para la estructura azul y naranjo para la estructura verde. Posteriormente dicho alineamiento estructural se representó en la forma de un alineamiento de secuencias. Los códigos de colores que se aplican son los mismos que los descritos anteriormente. Ingresando a TopMatch A continuación revisaremos de manera breve el uso de TopMatch para la obtención de alineamientos estructurales. Este software desarrollado por Manfred Sippl en la Universidad de Salzburgo en Austria, tiene la ventaja de ser sencillo de utilizar pues existe una versión disponible en formato web. Además TopMatch ha demostrado producir alineamientos estructurales de alta calidad cuando ha sido comparado contra diferentes estándares de comparación en alineamientos estructurales. En primer lugar accederemos a la web de TopMatch en la dirección web https://topmatch.services.came.sbg.ac.at. Este sitio requiere tener un plugin de Java instalado en el computador. Una vez que accedamos, podremos ver la pantalla general, que describiremos:

Figura 5. Pantalla de inicio de TopMatch

En la figura 5 tenemos una vista de la pantalla de inicio de TopMatch. Todo alineamiento estructural requiere una proteína que denominaremos Query y una segunda llamada Target. En los cuadros 1 y 2 se debe ingresar un código que representa a la Query y Target respectivamente. El código deriva de un código PDB, que es un identificados alfanumérico para referenciar a alguna estructura de proteína en la base de datos del PDB. Ejemplos de cómo de escriben estos códigos y que significan se muestran en la siguiente tabla: Código Significado 1bl0 Toma como query o target a la estructura

1bl0 completa con todas sus cadenas 1bl0,A Toma como query o target a la cadena A de

la estructura 1bl0 1bl0,A(10:25) Toma como query o target a los residuos 10

a 25 de la cadena A de la estructura 1bl0 1bl0,A(10:25)A(60:80) Toma como query o target a los residuos 10

a 25 y 60 a 80 de la cadena A de la estructura 1bl0

Esto es muy importante, pues TopMatch nos permite alinear: varias cadenas de

proteínas de forma simultánea, cadenas completas y fragmentos de esas cadenas.

Construcción de un alineamiento estructural con TopMatch

Tomaremos un ejemplo para ver como se realiza e interpreta un alineamiento estructural en TopMatch. Para ello revisa el video disponible en la página web. En este video revisaremos paso a paso la construcción de un alineamiento estructural y se explorarán algunas opciones y detalles con respecto a TopMatch. Es muy importante que lo revisen, pues es parte del estudio.

Conceptos claves

1. Pares de aminoácidos estructuralmente equivalentes: son aminoácidos que cumplen el mismo rol estructural en un par de proteínas distintas.

2. Aminoácidos alineados estructuralmente: son aminoácidos estructuralmente equivalentes que han sido superpuestos óptimamente. En TopMatch se representan en color naranjo en la estructura query y en rojo en la estructura target. La totalidad de los aminoácidos alineados estructuralmente dará origen a un alineamiento estructural.

3. Superposición óptima: es el proceso mediante el cual una estructura proteica se acomoda sobre otra buscando maximizar el número de aminoácidos estructuralmente equivalentes. Permite evaluar la similitud de dos estructuras proteícas.

4. Alineamiento de secuencias, derivado de la estructura: es la representación del alineamiento estructural utilizando la secuencia de aminoácidos de ambas proteínas (esto es, es una representación 1D de la similitud 3D de un par de proteínas). La información que se observa ahí se obtiene a partir de todos los aminoácidos alineados estructuralmente y, no maximiza el número de “identidades”.

A continuación revisa un ejemplo interactivo de cómo funciona TopMatch, visita el

siguiente link para ver el video: http://protein.bio.puc.cl/cardex/bio141c/TopMatch-‐Example-‐480p.mp4

En este ejemplo trabajarás con dos códigos de proteínas 1HUO que corresponde a una polimerasa de ADN de la familia X, y 1XSL que correponde a una polimerasa de ADN de la familia Y. Códigos de ejemplo: Query: 1huo,A(152:262) Target: 1xsl,A(386:494)

guía+bioinformatica+2

Documents