todo proteinas

43
PROTEINAS Hoy en día se acepta la idea de 3 reinos: Bacteria, Archaea y Eukaryota. Existen características comunes entre Bacteria y Archae y entre Eukaryota y Archaea. En la actualidad, para realizar estudios filogenéticos de diversas especies y distintos linajes se usan secuencias conservadas a través del tiempo y las cuales tienen una función similar en cada especies: por ejemplo el ARN 16S. También se usan diversos genes, principalmente los que están involucrados en los procesos de replicación, transcripción y traducción del DNA genómico, ya que corresponden a segmentos conservados que tienen que expresarse con una gran exactitud ya que están involucrados en una gran cantidad de procesos metabólicos. Existen técnicas que nos sirven secuenciar los genomas de distintos organismos. Y además, diversas bases de datos, con las cuales nosotros podemos mapear algún genoma que estemos estudiando y agruparla a alguna especie ya conocida. Sin embargo, por ejemplo es una limitancia el hecho de que es muy difícil promover el crecimiento de bacterias en una placa de cultivo, incluso las bacterias tienen una cultivabilidad menor al 1 %, por lo tanto, si no pueden cultivar, no pueden aislar, no pueden identificar la secuencia genómica. Para esto hay técnicas de deep secuency donde ustedes cultivan y secuencian un grupo de bacterias “a mango” de toda la mezcla que luego se mapea con una base de datos para identificar las especies contenidas en dicha mezcla. Craig Venter fue uno de los fundadores de Celera Genomics y también de uno de los creadores de la técnica Shot Gun Secuency, la cual ha aportado una gran cantidad de proteínas a la base de datos a nivel de secuencias. Hoy en día se conocen más de 8 millones de secuencias de proteínas. Aquí en la figura podemos ver una célula eucariota ciliada del epitelio terminal. La

Upload: carolina-cabalin

Post on 02-Jul-2015

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TODO PROTEINAS

PROTEINAS

Hoy en día se acepta la idea de 3 reinos: Bacteria, Archaea y Eukaryota. Existen características comunes entre Bacteria y Archae y entre Eukaryota y Archaea.

En la actualidad, para realizar estudios filogenéticos de diversas especies y distintos linajes se usan secuencias conservadas a través del tiempo y las cuales tienen una función similar en cada especies: por ejemplo el ARN 16S. También se usan diversos genes, principalmente los que están involucrados en los procesos de replicación, transcripción y traducción del DNA genómico, ya que corresponden a segmentos conservados que tienen que expresarse con una gran exactitud ya que están involucrados en una gran cantidad de procesos metabólicos.

Existen técnicas que nos sirven secuenciar los genomas de distintos organismos. Y además, diversas bases de datos, con las cuales nosotros podemos mapear algún genoma que estemos estudiando y agruparla a alguna especie ya conocida. Sin embargo, por ejemplo es una limitancia el hecho de que es muy difícil promover el crecimiento de bacterias en una placa de cultivo, incluso las bacterias tienen una cultivabilidad menor al 1 %, por lo tanto, si no pueden cultivar, no pueden aislar, no pueden identificar la secuencia genómica. Para esto hay técnicas de deep secuency donde ustedes cultivan y secuencian un grupo de bacterias “a mango” de toda la mezcla que luego se mapea con una base de datos para identificar las especies contenidas en dicha mezcla.

Craig Venter fue uno de los fundadores de Celera Genomics y también de uno de los creadores de la técnica Shot Gun Secuency, la cual ha aportado una gran cantidad de proteínas a la base de datos a nivel de secuencias. Hoy en día se conocen más de 8 millones de secuencias de proteínas.

Aquí en la figura podemos ver una célula eucariota ciliada del epitelio terminal. La celula NO es una bolsa llena de agua. Por el contrario, contiene ademas de una estructura o esqueleto (conocido como citoesqueleto) una compleja red de organelos que cumplen diversas funciones. En el caso de las celulas eucarioticas destaca la presencia del nucleo, donde se almacena toda la informacion genetica. Las células eucariotas tienen toda una compartimentalización y organización, además esta célula tiene una dominancia apical y una dominancia basolateral. En la mayoría de los procesos involucrados en una célula, las proteínas son de gran importancia, ya sea de transporte, estructural, etc.

Page 2: TODO PROTEINAS

Aquí podemos ver el flujo de información genética de los seres vivos.

Los procesos claves de flujo de información en seres vivos son la replicación, transcripción y traducción. Estos procesos permiten que la información genética (genotipo) de una célula se exprese mediante la construcción de moléculas complejas (proteínas) que dan lugar a la forma, apariencia, funcionalidad y adaptación al medio ambiente de esta (fenotipo).

El ADN se duplica mediante un proceso de autocopiado semiconservativo conocido como replicación. En este proceso intervienen una serie de enzimas y

factores proteicos. Algunos virus de ARN también son capaces de replicar su material genético. El ARN se sintetiza a partir del ADN a través de un proceso que se conoce como transcripción. El proceso de síntesis proteica se basa en la información contenida en el ARN y se conoce como traducción. La transformación de información contenida en moléculas de ARN a moléculas proteicas se basa en la utilización del código genético. El proceso de síntesis de ADN basado en moléculas de ARN es utilizado por los retrovirus y se conoce como transcripción reversa.

Sin embargo, aún no se conoce un proceso inverso que se dirija desde proteína a RNA, el cual sería muy costoso energéticamente.

Hoy en día se conocen los priones, el cual no son copias de síntesis, pero si son proteínas transmisibles que son capaces de inducir cambios en otras proteínas, y éstas a su vez, en otras proteínas y así sucesivamente. Además, éstas pueden agregarse y sedimentar, afectando diversos procesos celulares. Por ejemplo, estos son los causantes del mal de las vacas locas, que van afectando las neuronas, y su posterior muerte celular.

Si ustedes toman el ADN de cada una de todas sus células y lo estiran, la longitud que alcanza el total es una vuelta a la vía láctea. Ese dato es para que tomen una idea de lo compactado que se encuentra el ADN. Proteínas llamadas histonas y diversas enzimas ayudan a su compactación.

Page 3: TODO PROTEINAS

ARN: hebra simple

ADN: hebra doble (excepto en los procesos de duplicación y transcripción)

Se ha visto en distintas bases de datos, que no todos los ARN siguen el modelo de Watson y Crick, ya que estructuralmente no sólo se establecen interacciones entre las bases nitrogenadas que todos conocemos (Adenina, Citosina, Guanina, Timina, Uracilo). Y que también existen otras bases que son termodinámicamente

estables, pero no tanto como las que siguen el modelo estructural de Watson y Crick.

Aquí tenemos a la molécula energética por excelencia: el ATP. Catalizador y componente esencial del flujo energético. (Aprender estructura de memoria para metabolismo)

Page 4: TODO PROTEINAS

El codón del ARN mensajero se acopla al anticodón del ARN de transferencia. Hay enzimas que reconocen específicamente este ARNt y lo cargan con el aminoácido correspondiente para su secuencia (anticodóncodón). Una mutación de esta secuencia causaría un error en la traducción de la proteína que se está codificando. Estas enzimas que son específicas para el ARNt son las aminoacil ARNt transferasas. Esta síntesis proteica ocurre en el ribosoma, donde se van agregando los ARNt, y va ocurriendo la formación de la proteínas a través de la formación de enlaces peptídicos entre los aminoácidos que se van agregando a medida que ribosoma se va “deslizando” a través de la secuencia del ARNm.

Proteínas.

Las proteínas tienen distintos niveles de estructuras moleculares.

A nivel de síntesis, la proteína es una gran polipéptido formado de aminoácidos.

Los aminoácidos están formados por un grupo amino, un grupo carboxilo, un carbono alfa y una cadena lateral. Típicamente este carbono alfa tiene 4 sustituyentes distintos, resultando un carbono asimétrico (a excepción del aminoácido Glicina), dando una quiralidad a la molécula, dando mezclas racémicas.

El grupo R son distintos grupos químicos funcionales que le dan una identidad a cada uno de los 20 aminoácidos. (hay más, pero solo nos referiremos a estos 20).

Page 5: TODO PROTEINAS

El enlace peptídico es una reacción por deshidratación de tipo amida. Aquí tenemos un ejemplo de la formación de enlaces peptídicos para dar un polipéptido.

Hay muchas formas de clasificar los aminoácidos. Análisis de algunos aminoácidos:La lisina es una aminoácido con un grupo que tiene amina con un pK del orden de 9,5 entonces a pH fisiológico presentan una carga positiva.Por otro lado, el ácido aspártico y el ácido glutámico tienen grupos carboxilatos en su cadena lateral, lo que les confiere un pK del orden de 4, por lo tanto a pH fisiológico están desprotonados y presentan una carga negativa.La histidina es un aminoácido especial ya que tiene un pK del orden de 6, lo que está muy cerca del pH fisiológico, por lo que a veces lo podemos encontrar con carga y a veces sin carga. IMPORTANTE: Los pK de cada aminoácido puede ser modulados (variar) según el contexto en que se encuentre, ya sea según el medio o los aminoácidos adyacentes.También hay aminoácidos con grupos polares sin carga, serina, treonina, etc.También hay con grupos hidrofóbicos, generalmente son cadenas alifáticas, que no están cómodas en agua. Finalmente, hay un grupo especial de aminoácidos: tenemos a la Glicina, el cual su grupo R es un H, En la prolina, su cadena lateral está unida covalentemente al nitrógeno del grupo amino de la cadena principal (dándole rigidez al aminoácido, en la cisteína hay un grupo sulfhidrilo capaz

Page 6: TODO PROTEINAS

de establecer enlaces disulfuro (covalentes) con otros aminoácidos cisteínas (dándole más estabilidad a la proteína y su plegamiento).

Al ver las cadenas laterales de los aminoácidos, podemos ver que algunos son isómeros, como leucina e isoleucina, por lo tanto, al tener una mutación, y en vez de tener una isoleucina, tengo leucina, será menos grave, de que si tuviera por ejemplo tirosina, en vez de glicina. Y quizás el impacto sea también menor en la estructura y funcionalidad de la proteína.

En la proteína existe un grupo amino terminal y un grupo carboxilo terminal, la cantidad de enlaces peptídicos estará dada por la expresión N – 1, donde N es el número de aminoácidos que formen la proteína.

Los átomos de la cadena principal de un aminoácido corresponden al N del grupo amino, C alfa y al C del grupo carboxilo. Mientras que el grupo R corresponde a las cadenas laterales de cada aminoácido y se unen al C alfa de la cadena principal. Generalmente los grupos R en una proteína, se van alternando hacia arriba y hacia abajo, dando la conformación trans. Sin embargo, puede ocurrir que glicina con otro aminoácido con cadena lateral pequeña puede dar la conformación cis. (Prolina puede dar un porcentaje más alto en conformación cis).

Típicamente, el codón de inicio para la síntesis proteica es AUG (revisar código genético). Hay muchas secuencias de proteínas que no empiezan con AUG ¿por qué ocurre eso? Porque luego de la síntesis de la proteína, esa parte del péptido es removida.

Podemos ver que hay 4 más codones que dan Leucina, por lo tanto, una mutación en alguna de las bases para esta mutación no va a tener ningún impacto. Por eso también decimos que el código genético es degenerado (redundante).

La determinante para la frecuencia de codones en una

proteína es la velocidad con que sintetizan la proteína. Por ejemplo si se sintetiza una proteína a partir de ARNt no abundante, su síntesis va a ser más lenta. La zona de codones que se utilizan más para la síntesis de proteínas son “codón ussage”. Estos “codón ussage” son distintos para cada especie.

Page 7: TODO PROTEINAS

El proceso de transcripción en los eucariotas es similar a los de los procariotas, existen sin embargo algunas diferencias. Los genes eucariotas no se agrupan en operones como los de los procariotas. Cada gen eucariota se transcribe separadamente, con un control transcripcional independiente para cada gen. Si bien los procariotas tienen un solo tipo de ARN polimerasa para todos los tipos de ARN, los eucariotas tienen una para cada tipo. Una para el mARN, una para los rARN largos y una tercera para los rARN cortos y los tARN. En procariotas la traducción comienza inclusive antes que la transcripción haya terminado, mientras que en eucariotas tenemos dos procesos separados en tiempo y localización (recordar la existencia de una envoltura nuclear). Luego que en el núcleo de la célula eucariota se transcribe un ARN, el ARN transcripto es extensamente modificado antes de ser exportado al citoplasma. Se le agrega 7-metilguanina (una base inusual) al extremo 5' del mARN; y esto resulta esencial para el pegado del mARN al ribosoma. Una ristra de adeninas (tanto como 200 nucleótidos conocido como poli-A) se agrega al extremo 3' del mARN luego de la transcripción. La función de esta "cola" de poli A no se conoce, pero puede usarse para capturar mARN para estudios. Los intrones se cortan y los exones se colocan juntos antes que el mARN deje el núcleo Existen muchos ejemplos de mensajes idénticos procesados por diferentes métodos, a veces los intrones se tornan exones y viceversa.Moléculas de proteínas se pegan al mARN y luego se exportan del núcleo formando partículas llamadas ribonucleoproteínas (mRNPs) que parecen ayudar en el transporte por los poros nucleares y también en el pegado a los ribosomas.

Page 8: TODO PROTEINAS

También existen otras moléculas importantes como los polisacáridos, lípidos, etc.El glicógeno es un polisacárido que permite almacenar energía (fuente de glucosa). También tenemos fosfolípidos, que actúan en las membranas plasmáticas.

Mediante reacciones metabólicas, los seres vivos van degradando macromoléculas (proteínasaminoácidos, polisacáridosmonosacáridos, lípidosácidos grasos, ácidos nucleicosDNA y RNA) y mediante reacciones anabólicas se va generando las Biomoléculas y moléculas energéticas necesarias para dicho organismo, que serán utilizadas según las necesidades de éste. En el metabolismo, es necesaria la acción enzimática, para que todos estos procesos sean viables.

Los aminoácidos esenciales son aquellos que debemos ingerir por medio de nuestra dieta, mientras que los aminoácidos esenciales son aquellos que somos capaces de producir.

Aquí tenemos una reacción que es parte del metabolismo celular:

La serotonina es un neurotransmisor que se asocia a la molécula de la felicidad. Se han descrito polimorfismos en las enzimas responsables de la síntesis de esta molécula, y se han determinado personas que producen menos serotonina, lo que se asocia a depresión. Incluso personas que se han suicidado, por una depresión endógena muy fuerte.También hay que considerar que existen muchos factores ambientales capaces de producir depresión, no tan sólo depende del aspecto genético.El efecto que tienen algunas drogas, como el éxtasis, es bloquear la recaptura de la serotonina a las neuronas, quedando en el

espacio interneuronal.

Page 9: TODO PROTEINAS

ANEXOS CLASE 1

Mutación: alteración genética poco frecuente en una población. (Anemia falciforme y Fibrosis Quística son causadas por mutaciones)

Polimorfismo: cambio genético frecuente en una población y corresponde a un cambio en cada individuo por separado.

SNIP: variaciones en secuencias de 1 sola letra.

Exón: segmento del DNA que va a formar parte del RNA maduro y puede o no ser codificante.

- La hebra 5’3’ puede ser designada con el signo (+), o puede llamarse hebra Forward, o hebra Watson.

- La hebra 3’5’ puede ser designada con el signo (-), o puede llamarse hebra Reverse, o hebra Crick.

ORF (Open Reading Frame) = CDS (Secuencia Codificante)

Existe un proceso llamado splicing alternativo, en el cual, pueden conservarse en el ARNm, segmentos de intrones, o también zonas parciales de exones, o su totalidad. Pueden haber aproximadamente hasta 12 tipos de exones entre total y parcialmente codificantes.

Hay genes que están en la hebra Watson y hay genes que están en la hebra Crick. El hecho de que hay genes acoplados en la secuencia de un organismo constituye una desventaja ya que al tener una mutación en esa zona, puede significar una alteración en la expresión de ambos genes, porque el impacto es doble.

La fibrosis quística es una enfermedad genética recesiva más frecuente en la raza blanca. Producida por una mutación en el gen CGTR. Hay 1100 mutaciones distintas para este gen.

UTR: zonas del ARNm que se encuentran al inicio y al final del segmento que participan en la regulación de su expresión. Son regiones que no se traducen.

El RNA se puede plegar y formar puentes de hidrógeno.

Page 10: TODO PROTEINAS

1.- Levadura: Modelo para el estudio, por su importancia a nivel industrial, por su simpleza y por ser eukarionte.

12megas = 12 millones de nucleótidos. b) Genoma Humano tiene 3000millones.

2.- Aún no se conocen todos los genes. Se cree que tiene 7000.

3.- Si tengo los datos del genoma ¿Cómo anotar genes, “que es lo que harían ustedes”?

Comparar con otras bases de datos. Bien, pero imaginemos que no tenemos internet b) Ver los ATG’s (posiciones de inicio putativas) y ver si existe TAA (u otro stop) “en fase”

o sea que estén en multiplos de 3 nucleótidos. 4.-Problemas:

Intrones: Pueden haber intrones, que no sean multiplos de 3nucleótidos, y “desarmen” el marco de lectura que habíamos pensado. En levadura hay pocos genes con intrones (<500)

b) ¿Cómo saber cual ATG que marca el inicio del gen?También puede haber metioninas internas.

5.- Otra solución: Para tener mayor certeza, conviene tener c’DNA y secuenciarlo. Luego alinearlo contra el genoma.

Puedo encontrar los Genes, intrones y exones.6.-Transcriptoma: RNA que puede ser codificante o no.

7.-Proteoma: Es tan complejo que ni siquiera en levadura se conoce.

Francisco Melo, BIO257C, PUC. 45

Ejemplo de complejidad celular (levadura): genoma, transcriptoma, proteoma

• Genoma:– 16 crosomomas nucleares– 1 cromosoma mitocondrial– 1 plasmido– ~ 12.1 millones de nucleotidos– ~ 7000 genes ?

• Transcriptoma:– ~ 6500 mRNAs– 27 rRNAs– 299 tRNAs– ~ 80 other RNAs

• Proteoma:– ?

• Metaboloma:– ?

http://www.yeastgenome.org/cache/genomeSnapshot.html

Page 11: TODO PROTEINAS

8.-Metaboloma: Enzimas del metabolismo primario son las más conocidas, sin embargo las del metabolismo secundario se sabe muy poco.

1.- Hay tantas secuencias. En tantas bases de datos, que si quieres agregar una secuencia nueva, se compara con las ya existentes y puedes definir un umbral 99.% de identidad de secuencias, para asumir que son distintas. Ej. Todas las lisozima variantes, mutantes, etc no se consideran sólo existe una secuencia de ácidos nucleicos de lisozima Secuencia consenso.

2.- Conviene comenzar en SwissProt: Hay un montón de información para “humanos”, pero tiene muy pocas secuencias anotadas

3.- Estructuras: Con difracción de rayos X, o con resonancia magnética nuclear.(mucho mas caro $ )

4.-CATH y SCOP: 2 bases de datos, de superposición óptima de estructuras. Puedo ver cuánto se parecen 2 estructuras de proteinas. Por ejemplo: Mioglobina y hemoglobina tienen distinta secuencia, pero estructuras muy similares.

Page 12: TODO PROTEINAS

1.-Archivo de texto, donde puedo escribir secuencias para Proteinas, nucleótidos. Lo malo es que no identifica secuencias circulares de nucleótidos.

2.- >Encabezamiento para humanos: Puede ser de donde es, de que especie, o un codigo 1p2q etc… y luego la secuencia que usan los software.

3.- Multifasta: Una extensión de fasta. No es mas que un sólo archivo con un montón de secuencias de pretinas diferentes.P.e.j. El transcriptora humano, está en formato multifasta, hay 30000 fasta’s.

4.- En Windows se debe usar Wordpad.

Page 13: TODO PROTEINAS

1.- Emerge como un sustituto al fasta. Tiene Palabra clave: DC y RC son muy importantes para identificar cadenas lineales nucleotídicas de plasmidios.

Para conocer sitios de restricción en un plasmidio.

Mucho más complicado que el FASTA y el PIR: son los formatos para secuencias de acidos nucleicos:

Puede ser ADN, RNA de cualquier tipo.

Francisco Melo, BIO257C, PUC. 49

• Este es un formato bastante similar al formato FASTA y contiene una primeralinea descriptiva (que comienza con el simbolo ‘>’) y luego una palabra clave queespecifica el tipo de secuencia, seguida de un punto y coma ‘;’• En la segunda linea viene una descripcion de la secuencia (nombre o ID normalmente).• Finalmente viene la secuencia misma, la cual se debe terminar con un asterisco ‘*’

• Palabras claves: P1 (proteina), F1 (fragmento de proteina), DL (DNA lineal), DC (DNA circular), RL (RNA lineal), RC (RNA circular), N3 (tRNA), N1 (otro tipo de RNA).

>P1;FOSB_MOUSEFOSB_MOUSE 338 bases MFQAFPGDYD SGSRCSSSPS AESQYLSSVD SFGSPPTAAA SQECAGLGEMPGSFVPTVTA ITTSQDLQWL VQPTLISSMA QSQGQPLASQ PPAVDPYDMPGTSYSTPGLS AYSTGGASGS GGPSTSTTTS GPVSARPARA RPRRPREETLTPEEEEKRRV RRERNKLAAA KCRNRRRELT DRLQAETDQL EEEKAELESEIAELQKEKER LEFVLVAHKP GCKIPYEEGP GPGPLAEVRD LPGSTSAKEDGFGWLLPPPP PPPLPFQSSR DAPPNLTASL FTHSEVQVLG DPFPVVSPSY

TSSFVLTCPE VSAFAGAQRT SGSEQPSDPL NSPSLLAL*

Formato PIR

Francisco Melo, BIO257C, PUC. 50

LOCUS: Short name for this sequence (Maximum of 32 characters). DEFINITION: Definition of sequence (Maximum of 80 characters). ACCESSION: accession number of the entry. VERSION: Version of the entry. DBSOURCE: Shows the source, the date of creation and last modification of db entry. KEYWORDS: Keywords for the entry. AUTHORS: Authors for the work. TITLE: Title of the publication. JOURNAL: Journal reference for the entry. MEDLINE: Medline ID. COMMENT: Lines of comments. SOURCE ORGANISM: The organism from which the sequence was derived. ORGANISM: Full name of organism (Maximum of 80 characters). AUTHORS: Authors of this sequence (Maximum of 80 characters). ACCESSION: ID Number for this sequence (Maximum of 80 characters). FEATURES: Features of the sequence. ORIGIN: Beginning of sequence data. // End of sequence data.

Formato GenBank

Page 14: TODO PROTEINAS

Es un ARN’m de la proteina fosB de mus musculos(raton)

Aparecen el aceso (código interno), el organismo y toda su taxonomia, los autores y el paper donde se publicó, los “ CDS ”( Region codificante). -> entre 1202 y el 2218, están los codones. OJO 1202 y 2218, no cuentan.

Noten que el mensajero tiene 4145 pares de bases, pero tiene solo 1014 codones codificantes.

Page 15: TODO PROTEINAS

¿Qué puede ser ese otro?, no es ni A, ni T, ni C, ni G. -> cuando se secuencia, con los floróforos, se observa intensidad de los colores que representan cada nucleótido. Pueden haber quedado errores experimentales, de la polimerasa por ejemplo.

SwisProt: Mucha información para humanos, acerca de muy pocas proteinas.

Ideas interesantes: CC comentarios para humanos, (con quien interactúa,subunidades hubicación, ) muy importante para construir hipótesis.

Francisco Melo, BIO257C, PUC. 52

Formato GenBank (continuacion)BASE COUNT 960 a 1186 c 1007 g 991 t 1 others ORIGIN

1 ataaattctt attttgacac tcaccaaaat agtcacctgg aaaacccgct ttttgtgaca 61 aagtacagaa ggcttggtca catttaaatc actgagaact agagagaaat actatcgcaa

121 actgtaatag acattacatc cataaaagtt tccccagtcc ttattgtaat attgcacagt 181 gcaattgcta catggcaaac tagtgtagca tagaagtcaa agcaaaaaca aaccaaagaa 241 aggagccaca agagtaaaac tgttcaacag ttaatagttc aaactaagcc attgaatcta 301 tcattgggat cgttaaaatg aatcttccta caccttgcag tgtatgattt aacttttaca 361 gaacacaagc caagtttaaa atcagcagta gagatattaa aatgaaaagg tttgctaata 421 gagtaacatt aaataccctg aaggaaaaaa aacctaaata tcaaaataac tgattaaaat 481 tcacttgcaa attagcacac gaatatgcaa cttggaaatc atgcagtgtt ttatttaaga 541 aaacataaaa caaaactatt aaaatagttt tagagggggt aaaatccagg tcctctgcca 601 ggatgctaaa attagacttc aggggaattt tgaagtcttc aattttgaaa cctattaaaa 661 agcccatgat tacagttaat taagagcagt gcacgcaaca gtgacacgcc tttagagagc 721 attactgtgt atgaacatgt tggctgctac cagccacagt caatttaaca aggctgctca 781 gtcatgaact taatacagag agagcacgcc taggcagcaa gcacagcttg ctgggccact 841 ttcctccctg tcgtgacaca atcaatccgt gtacttggtg tatctgaagc gcacgctgca 901 ccgcggcact gcccggcggg tttctgggcg gggagcgatc cccgcgtcgc cccccgtgaa 961 accgacagag cctggacttt caggaggtac agcggcggtc tgaaggggat ctgggatctt

1021 gcagagggaa cttgcatcga aacttgggca gttctccgaa ccggagacta agcttccccg 1081 agcagcgcac tttggagacg tgtccggtct actccggact cgcatctcat tccactcggc 1141 catagccttg gcttcccggc gacctcagcg tggtcacagg ggcccccctg tgcccaggga 1201 aatgtttcaa gcttttcccg gagactacga ctccggctcc cggtgtagct catcaccctc 1261 cgccgagtct cagtacctgt cttcggtgga ctccttcggc agtccaccca ccgccgccgc 1321 ctcccaggag tgcgccggtc tcggggaaat gcccggctcc ttcgtgccaa cggtcaccgc 1381 aatcacaacc agccaggatc ttcagtggct cgtgcaaccc accctcatct cttccatggc 1441 c//

Page 16: TODO PROTEINAS

Al final aparece la secuencia de la proteina.

Francisco Melo, BIO257C, PUC. 53

Formato SwissPROTID FOSB_MOUSE STANDARD; PRT; 338 AA. AC P13346; DT 01-JAN-1990 (Rel. 13, Created) DT 01-JAN-1990 (Rel. 13, Last sequence update) DT 15-JUN-2002 (Rel. 41, Last annotation update) DE Protein fosB. GN FOSB. OS Mus musculus (Mouse). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OX NCBI_Taxid=10090; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=89251612; PubMed=2498083; RA Zerial M., Toschi L., Ryseck R.-P., Schuermann M., Mueller R., RA Bravo R.; RT "The product of a novel growth factor activated gene, fos B, interacts RT with JUN proteins enhancing their DNA binding activity."; RL EMBO J. 8:805-813(1989). RN [2] RP SEQUENCE FROM N.A. RX MEDLINE=92158623; PubMed=1741260; RA Lazo P.S., Dorfman K., Noguchi T., Mattei M.-G., Bravo R.; RT "Structure and mapping of the fosB gene. FosB downregulates the RT activity of the fosB promoter."; RL Nucleic Acids Res. 20:343-350(1992). CC -!- FUNCTION: FOSB INTERACTS WITH JUN PROTEINS ENHANCING THEIR DNA CC BINDING ACTIVITY. CC -!- SUBUNIT: HETERODIMER (BY SIMILARITY). CC -!- SUBCELLULAR LOCATION: NUCLEAR. CC -!- INDUCTION: BY GROWTH FACTORS. CC -!- SIMILARITY: BELONGS TO THE BZIP FAMILY. FOS SUBFAMILY.

Francisco Melo, BIO257C, PUC. 54

Formato SwissPROT (continuacion)CC --------------------------------------------------------------------------CC This Swiss-Prot entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation –CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See http://www.isb-sib.ch/announce/ CC or send an email to [email protected]). CC --------------------------------------------------------------------------DR EMBL; X14897; CAA33026.1; -. DR EMBL; AF093624; AAD13196.1; -. DR PIR; S04108; TVMSFB. DR PIR; S35477; S35477. DR HSSP; P01100; 1FOS. DR TRANSFAC; T00291; -. DR MGD; MGI:95575; Fosb. DR InterPro; IPR000837; Leuzip_Fos. DR InterPro; IPR004827; TF_bZIP. DR Pfam; PF00170; bZIP; 1. DR PRINTS; PR00042; LEUZIPPRFOS. DR SMART; SM00338; BRLZ; 1. DR PROSITE; PS00036; BZIP_BASIC; 1. KW Nuclear protein; DNA-binding. FT DNA_BIND 161 179 BASIC MOTIF. FT DOMAIN 183 211 LEUCINE-ZIPPER. SQ SEQUENCE 338 AA; 35976 MW; E9D031A4BEAE48EC CRC64; MFQAFPGDYD SGSRCSSSPS AESQYLSSVD SFGSPPTAAA SQECAGLGEM PGSFVPTVTA ITTSQDLQWL VQPTLISSMA QSQGQPLASQ PPAVDPYDMP GTSYSTPGLS AYSTGGASGS GGPSTSTTTS GPVSARPARA RPRRPREETL TPEEEEKRRV RRERNKLAAA KCRNRRRELT DRLQAETDQL EEEKAELESE IAELQKEKER LEFVLVAHKP GCKIPYEEGP GPGPLAEVRD LPGSTSAKED GFGWLLPPPP PPPLPFQSSR DAPPNLTASL FTHSEVQVLG DPFPVVSPSY TSSFVLTCPE VSAFAGAQRT SGSEQPSDPL NSPSLLAL //

Page 17: TODO PROTEINAS

En formato PBD, se puede ver mucha información: Se muestra la GFP, expresada en E.coli, el paper, si hubo ingeniería genética o no etc... Resolución es muy buena(1,9Angstrom).

Después se ve que la proteina tiene 2 cadenas.

Francisco Melo, BIO257C, PUC. 55

Formato PDB (Protein Data Bank)HEADER FLUORESCENT PROTEIN 23-AUG-96 1GFL TITLE STRUCTURE OF GREEN FLUORESCENT PROTEIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: GREEN FLUORESCENT PROTEIN; COMPND 3 CHAIN: A, B; COMPND 4 ENGINEERED: YES; COMPND 5 MUTATION: Q80R SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: AEQUOREA VICTORIA; SOURCE 3 EXPRESSION_SYSTEM: ESCHERICHIA COLI; SOURCE 4 EXPRESSION_SYSTEM_PLASMID: PTU58 KEYWDS FLUOROPHORE GREEN FLUORESCENT PROTEIN, LUMINESCENCE EXPDTA X-RAY DIFFRACTION AUTHOR F.YANG,L.G.MOSS,G.N.PHILLIPS JR. REVDAT 2 17-FEB-04 1GFL 1 AUTHOR JRNL LINK CONECT REVDAT 2 2 1 MASTER REVDAT 1 11-JAN-97 1GFL 0 JRNL AUTH F.YANG,L.G.MOSS,G.N.PHILLIPS JR. JRNL TITL THE MOLECULAR STRUCTURE OF GREEN FLUORESCENT JRNL TITL 2 PROTEIN JRNL REF NAT.BIOTECHNOL. V. 14 1246 1996 JRNL REFN ASTM NABIF9 US ISSN 1087-0156 2119 REMARK 1 REMARK 1 REFERENCE 1 REMARK 1 AUTH A.B.CUBITT,R.HEIM,S.R.ADAMS,A.E.BOYD,L.A.GROSS, REMARK 1 AUTH 2 R.Y.TSIEN REMARK 1 TITL UNDERSTANDING, IMPROVING AND USING GREEN REMARK 1 TITL 2 FLUORESCENT PROTEINS REMARK 1 REF TRENDS BIOCHEM.SCI. V. 20 448 1995 REMARK 1 REFN ASTM TBSCDB NE ISSN 0376-5067 0946 REMARK 2 REMARK 2 RESOLUTION. 1.9 ANGSTROMS. REMARK 3

Francisco Melo, BIO257C, PUC. 56

Formato PDB (continuacion)SEQRES 1 A 238 ALA SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO SEQRES 2 A 238 ILE LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS SEQRES 3 A 238 PHE SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR TYR SEQRES 4 A 238 GLY LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS SEQRES 5 A 238 LEU PRO VAL PRO TRP PRO THR LEU VAL THR THRSEQRES 1 B 238 ALA SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO SEQRES 2 B 238 ILE LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS SEQRES 3 B 238 PHE SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR TYR SEQRES 4 B 238 GLY LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS SEQRES 5 B 238 LEU PRO VAL PRO TRP PRO THR LEU VAL THR THRHELIX 1 1 GLU A 5 PHE A 8 5 HELIX 2 2 TRP A 57 PHE A 64 5 HELIX 3 3 GLN A 69 PHE A 71 5 HELIX 4 4 ASP A 76 HIS A 81 5 HELIX 5 5 PHE A 83 SER A 86 1 HELIX 6 6 LYS A 156 LYS A 158 5 SHEET 1 A12 HIS A 25 ASP A 36 0 SHEET 2 A12 VAL A 11 VAL A 22 -1 N VAL A 22 O HIS A 25 SHEET 3 A12 THR A 118 ILE A 128 1 N LEU A 119 O LEU A 15 SHEET 4 A12 ASN A 105 GLU A 115 -1 N GLU A 115 O THR A 118 SHEET 5 A12 TYR A 92 PHE A 100 -1 N ILE A 98 O TYR A 106 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.011207 0.000000 0.000000 0.00000 SCALE2 0.000000 0.011207 0.000000 0.00000 SCALE3 0.000000 0.000000 0.008349 0.00000 MTRIX1 1 -0.950278 0.287772 0.118992 7.36697 1 MTRIX2 1 0.294841 0.708504 0.641164 13.04218 1 MTRIX3 1 0.100202 0.644367 -0.758123 -38.10565 1

Page 18: TODO PROTEINAS

Se ve la estructura 3D. Para cada átomo excepto los hidrógenos.

Px, py, pz corresponden a los puntos en el espacio, la densidad es el radio de vander walls. Mide la rigidez

El numero entre pZ, y densidad.-> Es la “ocupancia”, cuantas veces se vió el átomo en ésa posición. -> La proteina respira, y se mueve un poco, puede vibrar entre 2 conformaciones muy similares y muy estables.

Francisco Melo, BIO257C, PUC. 57

ATOM 1 N ALA A 1 -14.093 60.494 -9.249 1.00 42.10 N ATOM 2 CA ALA A 1 -14.989 61.651 -8.981 1.00 41.80 C ATOM 3 C ALA A 1 -14.809 62.769 -10.006 1.00 41.60 C ATOM 4 O ALA A 1 -15.790 63.397 -10.384 1.00 41.20 O ATOM 5 CB ALA A 1 -14.760 62.190 -7.570 1.00 42.30 C ATOM 6 N SER A 2 -13.573 62.992 -10.472 1.00 41.10 N ATOM 7 CA SER A 2 -13.364 63.821 -11.651 1.00 40.30 C ATOM 8 C SER A 2 -12.245 63.347 -12.591 1.00 39.80 C ATOM 9 O SER A 2 -11.264 62.734 -12.155 1.00 39.50 O ATOM 10 CB SER A 2 -13.236 65.292 -11.216 1.00 39.90 C ATOM 11 OG SER A 2 -12.004 65.880 -11.497 1.00 39.90 O ATOM 12 N LYS A 3 -12.516 63.462 -13.894 1.00 38.90 N ATOM 13 CA LYS A 3 -11.712 62.828 -14.936 1.00 38.10 C ATOM 14 C LYS A 3 -10.271 63.331 -14.956 1.00 37.00 C ATOM 15 O LYS A 3 -10.026 64.469 -14.615 1.00 37.20 O ATOM 16 CB LYS A 3 -12.368 63.066 -16.294 1.00 38.50 C ATOM 17 CG LYS A 3 -12.827 61.783 -16.993 1.00 58.60 C ATOM 18 CD LYS A 3 -12.215 61.615 -18.373 1.00 61.90 C ATOM 19 CE LYS A 3 -11.968 62.958 -19.039 1.00 78.10 C ATOM 20 NZ LYS A 3 -11.573 62.819 -20.468 1.00 94.10 N ...TERATOM 1827 N ALA B 1 37.642 45.936 6.027 0.44 43.40 N ATOM 1828 CA ALA B 1 38.888 46.634 6.471 0.44 43.30 C ATOM 1829 C ALA B 1 38.955 46.782 7.996 0.44 43.10 C ATOM 1830 O ALA B 1 40.033 46.670 8.583 0.44 43.00 O ATOM 1831 CB ALA B 1 38.997 48.009 5.802 0.44 43.60 C ATOM 1832 N SER B 2 37.813 47.023 8.639 0.44 42.70 N ...TEREND

Px PyPz

Densidad electrónica

Page 19: TODO PROTEINAS

Estabilidad termodinámica: La estructura más estable es la estructura nativa. Tienen por lo general un core hidróbóbico y lo que está en contacto con el solvente es polar. La cadana lineal, determina la estructura.

En la secuencia semuestran 6 aa lejanos

Francisco Melo, BIO257C, PUC. 1

Plegamiento de proteinas

Francisco Melo, BIO257C, PUC. 2

Relación secuencia/estructura/función en proteínas

Page 20: TODO PROTEINAS

Plegamiento->Estructura nativa. Convergen los aa, y se forma el sitio activo, que es un sitio de reconocimiento de la adenilato ciclasa. Puente de hidrógeno, puente salino.

Casi es un ejemplo de llave cerradura.

Por convención el N- terminal va a la izquierda, y el COOH a la derecha. Para P.Melo: Es la cadena lineal de aa, mas las cisternas que forman puente disulfuro. Muestra todos los aminoácidos, y el orden en que aparecen desde el N al C

Francisco Melo, BIO257C, PUC. 4

Estructura primaria en proteinas

Page 21: TODO PROTEINAS

“Patrones conformacionales recurrentes”, que llamaron la atención La punta de la flecha, marca la dirección hacia el extremo carboxilo terminal.

Se forma por un ataque nucleofílico del Nitrogeno sobre el Carbono Carbonílico. Rxn de deshidratación.

Francisco Melo, BIO257C, PUC. 5

Estructura secundaria en proteinas:Existen dos tipos: alfa helice y hoja beta

Francisco Melo, BIO257C, PUC. 6

Estructura secundaria en proteinas:Enlace peptidico: se forma entre dos aminoacidos

Page 22: TODO PROTEINAS

ω: No tiene libre rotación->pero, es una estructura resonante. Por lo tanto sólo puede estar trans o cis. 99,9% mas favorecido en trans. Con la excepción de la prolina ( 20% cis, 80% trans).

Francisco Melo, BIO257C, PUC. 7

Estructura secundaria en proteinas:Enlace peptidico: resonancia

Puede rotar

No puede rotar

N: sp3

C: sp2

Page 23: TODO PROTEINAS

Distancia enlace C-N normal: 1,46 A Enlace amida: 1.33 A Enlace peptídico es tiene menor distancia.-> tiene características de

doble enlace. No es que sea plano, si no que el enlace peptidido define un plano.La cadena principal es

una colección de planos, entonces si conozco el ángulo entre los planos, puedo definir la estructura de la cadena principal

Francisco Melo, BIO257C, PUC. 8

Estructura secundaria en proteinas:Enlace peptidico: mas corto que un enlace simple

Francisco Melo, BIO257C, PUC. 11

Estructura secundaria en proteinas:Cadena peptidica: angulo omega (cis o trans)

Hay que fijarse en el Hidrógeno del Nitrogeno y el Oxigeno del Carbonilo.

Page 24: TODO PROTEINAS

o ω: tiene solo 2 grados de libertad ( cis/trans)

Ángulos de torsión: o ω: tiene solo 2 grados de libertad ( cis/trans)o φ: Mide la rotación a travéz del enlace N-C

o ψ: Rotación a travéz del C-C(carbonilo).

o Los demás dependen de la resolución.a 10°->Se tendrían 36 posibilidades para cada angulo. -> Un montón de libertad y de posibilidades de conformeros para la cadena principal.

¿Cómo se calculan?: “yo me paro sobre un plano perpendicular al enlace, y se proyecta desde ahí una luz en cada plano y se mide eso”

Francisco Melo, BIO257C, PUC. 10

Estructura secundaria en proteinas:Cadena peptidica: angulos phi, psi

y libertad conformacional

Page 25: TODO PROTEINAS

Francisco Melo, BIO257C, PUC. 13

Estructura secundaria en proteinas:Angulo de torsion (o diedro)

Page 26: TODO PROTEINAS

Un científico hizo el siguiente experimento: realizó un gráfico de dos dimensiones. En el eje X puso como variable el ángulo phi y en el eje Y puso como variable el ángulo psi. Los angulos de los aminoácidos se pueden medir de 0 a 360º. Sin embargo, por convención se usa entre -180 a 180º. Por lo tanto, si está a la derecha decimos que son angulos positivos, si está a la izquierda son ángulos negativos. Este gráfico representa en realidad a una esfera.

Entonces, lo que hicieron estos investigadores, tomaron un conjunto de proteínas que se encontraban en bases de

datos, y para cada aminoácido intermedio (excepto los N-terminal y C-terminal) midieron los ángulos phi y psi. Entonces se obtuvo un blot, donde cada punto representaba un aminoácido, y esta conformación se obtiene de proteínas nativas (termodinámicamente estables con minimos de energía libre accesible). Por lo tanto, aquí podemos ver cuáles son las conformaciones accesibles de estas proteínas, pero sólo de su cadena principal, no de las cadenas laterales. Entonces una primera conclusión sería que existen conformaciones de la cadena principal que son termodinámicamente más estables. Además, podemos concluir que las proteínas nativas sólo adquieren un 25% del espacio disponible (1 de un total de 4 cuadrantes) para formar distintas conformaciones de su cadena principal (por formación de puentes de hidrógeno). Las zonas rojas corresponden a zonas donde se obtuvieron muchos puntos, a su vez, en las zonas amarillas también se obtuvieron muchos puntos pero en menor cantidad, y ya en la zona blanca se observaron muy pocos puntos. NOTA: ESTE EXPERIMENTO NO NECESARIAMENTE NOS DICE QUE LA CONFORMACIÓN BETA-PLEGADA ES MÁS ESTABLE QUE ALFA-HÉLICE. Más bien nos dice que en beta plegada, la tolerancia del ángulo de rotación es mayor que en alfa-hélice.

“Este gráfico permite también, aproximar a priori cual será la estructura secundaria del péptido, ya que existen combinaciones de ángulos típicas para cada estructura (α- hélice y hojaβ).La conformación de los péptidos se define mediante la asignación de valores para cada par de esquinas Φi, Ψi para cada aminoácido. En el segundo cuadrante se hallan las combinaciones de la hojaβ, en el tercer cuadrante se hallan la hélice α derecha y los giros (loops); en el primer cuadrante las combinaciones de la hélice α izquierda.”

Page 27: TODO PROTEINAS

¿A qué se debe que estas conformaciones sean tan abundantes?

Se debe a la formación de puentes de hidrógeno.

En alfa-hélice, las cadenas laterales quedan “mirando” hacia afuera de la estructura. Y si éstas son afines pueden interactuar sin impedimento estérico, estableciendo moléculas de gran estabilidad. Los puentes de hidrógeno que se van formando en una estructura de alfa hélice son puentes de hidrógenos locales. Porque dos aminoácidos que están cercanos en términos de secuencia van a formar puentes de hidrógeno entre sí. Entonces cuando se está sintetizando una proteína a partir del ribosoma, rápidamente puede ir adoptando esta conformación, ya que sólo necesita 4-5 aminoácidos para comenzar a formarse en alfa-hélice. Por lo tanto, las alfa-hélices son las primeras estructuras que se puedan considerar en plegamiento, pero eso no quiere decir, que luego vayan a cambiar de conformación. (Cada 4 aminoácidos se forma un puente de hidrógeno en alfa-hélice)

Las cadenas laterales pueden darle propiedades anfipáticas a la estructura, ya que hacia un lado pueden encontrarse grupos R polares y hacia el otro lado grupos R no polares, orientando a la estructura según afinidad con la misma proteína y/o con el ambiente.

Además, hay muchas proteínas nativas que solo tienen alfa-hélice en su estructura, como las globinas, algunos factores de transcripción que reconocen secuencias específicas del ADN que generalmente tienen cadenas laterales cargadas positivamente, citokinas e interleukinas que participan en el sistema inmune,etc.

Otro elemento recurrente que se ve en la estructura secundaria es la hebra beta. Es un segmento altamente estirado, cuando tienen dos hebras betas, también se pueden establecer puentes de hidrógeno entre los carbonilos y los grupos NH de la cadena principal, estabilizando la estructura. Cuando se tienen 2 o más hebras betas cercanas en el espacio forman lo que se conoce como planos beta u hojas beta (beta sheet). Aquí, los puentes de hidrógenos son no locales, ya que se pueden establecer entre aminoácidos que están muy lejanos en la secuencia, por lo tanto, esta estructura requiere un plegamiento mucho mayor que alfa-hélice.

Hay dos tipos de hojas beta. Están las beta-paralelas y las beta-antiparalelas. Las hebras beta se dibujan con una flecha donde la punta representa el C-terminal y la base el N-terminal. De este modo, cuando estos vectores se encuentran en el mismo sentido, se forma la hoja beta paralela. Y cuando los vectores se encuentran en sentidos opuestos, se forma la hoja beta antiparalela.

La gracia de las hojas betas, si ustedes lo giran, las cadenas laterales se alternan sobre y bajo el plano (trans), de modo que no hay impedimento estérico, e incluso algunas de estos grupos R interactúan entre sí, confiriéndole mayor estabilidad a la estructura.

Con estas conformaciones se pueden formar las beta sándwich y las beta barril. Las beta sándwich dirigen sus grupos R según su afinidad de lo que envuelven y en el medio en que se encuentran, incluso pueden contener un ligando, que se une a lo que la proteína transporta.

Page 28: TODO PROTEINAS

El Beta barril son puras hojas beta antiparalelas, contituyen a las porinas, que son proteínas de membrana de bacterias que controlan el paso de sustratos. Como actúan a nivel de membrana, sus grupos R que se orientan hacia el exterior de la proteína son hidrofóbicos (inverso al beta sándwich), es decir, se orientan hacia la misma membrana celular.

Estructura terciaria: estructura en la cual se conoce la posición espacial de cada átomo de la proteína en el espacio.

Estructura cuaternaria: se obtiene por la interacción de más de una cadena proteica, de sus estructuras terciarias.

NOTA: HEMOGLOBINA TIENE ALFA-HELICE Y BETA-PLEGADA.

¿Qué fuerzas estabilizan la estructura de las proteínas?

Hydrogen Bonding:

Polypeptides contain numerous proton donors and acceptors both in their backbone and in the R-groups of the amino acids. The environment in which proteins are found also contains the ample H-bond donors and acceptors of the water molecule. H-bonding, therefore, occurs not only within and between polypeptide chains but with the surrounding aqueous medium.

Page 29: TODO PROTEINAS

Hydrophobic Forces:

Proteins are composed of amino acids that contain either hydrophilic or hydrophobic R-groups. It is the nature of the interaction of the different R-groups with the aqueous environment that plays the major role in shaping protein structure. The spontaneous folded state of globular proteins is a reflection of a balance between the opposing energetics of H-bonding between hydrophilic R-groups and the aqueous environment and the repulsion from the aqueous environment by the hydrophobic R-groups. The hydrophobicity of certain amino acid R-groups tends to drive them away from the exterior of proteins and into the interior. This driving force restricts the available conformations into which a protein may fold.

Electrostatic Forces:

Electrostatic forces are mainly of three types; charge-charge, charge-dipole and dipole-dipole. Typical charge-charge interactions that favor protein folding are those between oppositely charged R-groups such as K or R and D or E. A substantial component of the energy involved in protein folding is charge-dipole interactions. This refers to the interaction of ionized R-groups of amino acids with the dipole of the water molecule. The slight dipole moment that exist in the polar R-groups of amino acid also influences their interaction with water. It is, therefore, understandable that the majority of the amino acids found on the exterior surfaces of globular proteins contain charged or polar R-groups.

Van der Waals Forces:

There are both attractive and repulsive van der Waals forces that control protein folding. Attractive van der Waals forces involve the interactions among induced dipoles that arise from fluctuations in the charge densities that occur between adjacent uncharged non-bonded atoms. Repulsive van der Waals forces involve the interactions that occur when uncharged non-bonded atoms come very close together but do not induce dipoles. The repulsion is the result of the electron-electron repulsion that occurs as two clouds of electrons begin to overlap. Although van der Waals forces are extremely weak, relative to other forces governing conformation, it is the huge number of such interactions that occur in large protein molecules that make them significant to the folding of proteins. La distancia depende del radio de las moléculas.

Page 30: TODO PROTEINAS

- El agua es lo que dicta principalmente el plegamiento de la proteína.- Las fuerzas electrostáticas se mueven de acuerdo a la Ley de Coulomb.

De esto sabemos poco. El equilibrio se desplaza hacia la derecha ya que se ocupan muchas menos moléculas de agua para solvatar moléculas anfipáticas. Y termodinámicamente es más estable.

Page 31: TODO PROTEINAS

La secuencia primaria determina la estructura terciaria. Y la estructura nativa determina la funcionalidad de dicha proteína, dependiendo de los aminoácidos, su catálisis, etc. Si usted tiene una proteína o le hace una mutación a esta proteína, de manera que va a tener dos conformaciones alternativas de similar estabilidad y no hay barreras cineticas para pasar entre una y otra, usted va a tener una proteína que va a estar oscilando entre las dos proteínas.

En general, las proteínas nativas están en torno a una sola conformación. Y eso es porque es mucho más estable que las demás conformaciones.

Luego, la proteína se pliega, para reconocer específicamente su sustrato. Esto quizás se debió a la selección natural.

La estructura tiene mucho más información que la secuencia.

• Aminoácidos no-locales en la secuencia convergen en la estructura (3D). Por lo tanto, la estructura determina la función de una proteína en mayor grado que su secuencia.

• La evolución opera directamente sobre la función de la proteína. Por tanto, la evolución opera en mayor grado sobre la estructura que sobre la secuencia de una proteína.

• La estructura de una proteína tiene mucha más información que su secuencia.

Al final, la evolución va a elegir por función. No obstante, determinar la estructura 3D de una proteína es caro.

¿De qué manera podemos inferir qué aminoácidos son importantes dentro de una proteína?

Supongamos que tenemos la estructura primaria de esa proteína. Lo primero que hago es blaestar mi proteína con las bases de datos. Es común encontrar zonas de aminoácidos muy conservadas, que se esperan que tengan funcionalidad similar en especies muy distintas.

También pueden modelar a partir de cero, identificando aminoácido por aminoácido.

Page 32: TODO PROTEINAS

Experimento de Christian Anfinsen con Ribonucleasa (1961)

El estaba trabajando con una proteína, y tomo páncreas, y de allí extrajo la ribonucleasa.

La proteína fue reducida por betamercaptoetanol, que cuando tenemos los puentes disulfuros, los va a hidrogenar, separando estos puentes. Luego usó urea para remover las moléculas de agua y abrir la conformación de la proteína. Osea, la proteína ya no está inmersa en el agua. Y Luego midió la actividad enzimática.

Luego removíó la urea por medio de diálisis. Y esperaba que la proteína se replegara a su estado nativo. Y luego se oxido, se espero que se formaran los puentes disulfuro.

Sin embargo, faltaba el control negativo. ¡¿Por qué control negativo?? Para corroborar que la proteína se pliega sola y no por algún factor externo..

Se le reclamó al experimento que nunca se demostró que tan denaturada estaba la proteína, por lo que pudo haber estado un poquito denaturada y luego que se replegara a su forma nativa fue algo trivial.

Para hacer el control negativo, invirtió el orden de los dos pasos finales. Primero oxidó para formar los puentes disulfuro entre las cisteínas libres en forma al azar. Pero no se vieron los mismos puentes disulfuros, sólo se vio un 2% de puentes disulfuros nativos.

La gran conclusión de este experimento es que la secuencia de aminoácidos determina la estructura tridimensional de la proteína.

Ab initio: Modelación de estructuras de proteínas nativas.

El ab initio presenta dos problemas:

- No cuenta con la energía real de la naturaleza.- Edifica el mínimo de energía.

Page 33: TODO PROTEINAS

“Anfinsen demostró a finales de los 60' que al desplegar la enzima ribonucleasa A con urea y mercaptoetanol aumentaba su volumen aparente y desaparecían sus propiedades catalíticas. Al dializar la proteína volvía a plegarse. El plegamiento de las proteínas no está inducido por la célula sino que es el resultado de la interacción de la secuencia polipeptídica con el agua. Toda la información necesaria para adquirir su estructura tridimensional está presente en la secuencia de aminoácidos por lo que algún día se podrá predecir.

Dada la flexibilidad de los polipéptidos el número de conformaciones posible de una proteína es enorme. Levinthal planteó la paradoja que lleva su nombre: si una proteína se pliega explorando al azar todas las conformaciones posibles tardará mucho más que la edad que tiene el Universo. Como las proteínas se pliegan muy deprisa (típicamente en milisegundos o segundos) está claro que no exploran todas las conformaciones al azar.”

Experimento de Chotia y Lesk

Luego hay un segundo hallazgo importante. Unos investigadores británicos compararon la relación secuencia- estructura de las proteínas nativas.

Ustedes pueden alinear secuencias de manera optima, con bases de datos, identificando secuencias idénticas. Otra forma es identificar la similitud tridimensional de estructuras proteicas a través de softwares.

Para cada comparación que se tiene un valor de identidad de secuencia y de similitud estructural. En el eje X tenemos porcentaje de similitud de secuencia. En el eje Y tenemos similitud de estructura. La curva es hiperbólica. Eso implica que la estructura es más conservada que la secuencia. Podemos ver que al principio de la curva, si la secuencia se parece poco, la estructura se parece poco. Lo que vemos al final de la curva también es obvio, mientras mayor sea la similitud de la secuencia, esperamos que se parezcan mucho en estructura. Sin embargo, esto no baja linealmente. O sea yo puedo ir agregando mutaciones y mantener la misma estructura de la proteína, hasta que llega un punto de inflexión donde la proteína cambia de estructura. (Cuando

es menos del 30% de similitud de secuencia). Esto es bueno para gente que trabaja con proyección de proteínas, ya que si tengo una secuencia, y la blasteo y encuentro otra secuencia con un 70% de identidad con mi secuencia, eso significa que puedo asumir que mi proteína va a adoptar una conformación similar a la de la base de datos. Esto llevó a las bases de la segunda técnica para detección de

estructura de proteínas basada en computador que se llama Comparative Modelling o Comparación por Homología. Eso se parece a calcar una estructura.

Page 34: TODO PROTEINAS

Tipos de Comparative Modelling

Uno puede pensar que el truco está en la identidad de secuencia. Resulta que tengo Valina, leucina y citosina que son aminoácidos similares, osea yo los puedo cambiar y aun asi mantener las características físico químicas y el orden de la proteína.

NOTA: ESTO ES PARA PROTEÍNAS NATIVAS DEL PDB. NO EXTRAPOLAR ESTO A TODAS LAS PROTEINAS.

Hay que tener en cuenta que también hay proteínas que ustedes pueden cambiar un solo aminoácido y cambia toda la estructura proteica.

¿Cómo explican que dos proteínas que son idénticas en secuencia en 100% pueden tener 50% de similitud de estructura?

Esto se puede deber al medio ambiente y los dominios que se expresan en distintas condiciones ambientales y las interacciones de la proteína.

Experimento de Holm y Sander.

Estos dos científicos automatizaron el experimento anterior, usando internet. Cada estructura nueva que llegaba al PDB se blasteaba con toda la base de datos. De manera de actualizar esta relación de identidad de secuencia-estructura. A pesar de que la mayoría caía en esta curva, empezaron a surgir nuevos puntos en este espacio.

Los puntos nuevos aparecieron al comienzo de la curva, en la parte inferior, es decir, proteínas con bajo porcentaje de identidad de secuencia, y por lo tanto, con bajo similitud estructural. También se encontraron casos de proteínas que tenían baja identidad de secuencias y una similitud estructural muy alta. Esto se pudo haber debido a evolución convergente ya que se trata de proteínas con funciones y secuencias distintas pero con estructuras muy similares.

Page 35: TODO PROTEINAS

Esto permitió determinar el número de pliegues de las proteínas. No todas las estructuras son posibles y esto es por la restricción cinética y termodinámica, y esto hace que ciertas estructuras comiencen a repetirse. De manera que yo puedo predecir las estructuras de proteínas.

Este hallazgo sentó las bases para la tercera técnica de determinación de estructuras de proteínas por computador que es el Fold Recognition.

¿Cómo identificar la similitud de secuencias entre proteínas que no tienen el mismo tamaño?

Se sacan promedios, dividiendo por uno de los dos tamaños. Si divides por el tamaño de la proteína mas corta, se evalúan las similitudes locales. Si divides por el tamaño más largo, se están identificando las similitudes globales.

¿Qué pasa si hay un loop entremedio?

En la identidad de secuencias, esos segmentos son gaps. Es decir, cuando tu comparas 2 proteínas con 100% de identidad de secuencias pero una tiene un loop, eso el programa no lo considera. Ya que los loops se forman en zonas de la proteína que están expuestas a solvente y no modifican la estructura de la proteína propiamente tal.

Entonces, si yo tengo una proteína y encuentro que tienen una identidad de secuencia del 30% o más yo asumo la estructura y utilizo Modelado Comparativo.

Si tiene menos del 30% de identidad de secuencia, yo no puedo asumir identidad estructural. Pero pudiera ser que se aplica Fold Recognition. Esta técnica consiste en dejar mi secuencia para la estructura predicha y usamos y se van prediciendo a medida que se evalúa la estabilidad y afinidad de cada plegamiento. Esta técnica no es tan precisa como el Modelado Comparativa.

Ahora si no puedo utilizar ninguna de estas técnicas, uso ab initio. Y Empezar a modelar la proteína desde cero y buscando los minimos de energía.

La estructura terciaria de las cadenas proteicas se organiza en dominios. Una cadena proteica puede estar constituida por uno o más dominios (ej. en la figura la cadena tiene 4 dominios, cada uno ilustrado en color diferente). Los dominios pueden ser continuos o bien estar constituidos por más de un segmento (ej. dominio en color rojo en la figura). La definición más aceptada de dominio consiste en aquella región de una proteína que es capaz de plegarse por si sola a una única estructura tridimensional estable (ej. estructura nativa). No necesariamente quiere decir que cada dominio tiene una función distinta, pero generalmente es así.