· conjunto de todas las secuencias de nucleotídicas de mrna probabilísticamente posibles, es...

14
57 UNIVERSITAS SCIENTIARUM Revista de la Facultad de Ciencias Vol. 10, 57-69 IDENTIFICACIÓN DE CRITERIOS PARA LA SELECCIÓN NATURAL DE RNA MENSAJEROS J. González 1 , F. Novoa 2 , O. Acevedo 3 , L. Lareo 1 1 Departamento de Nutrición y Bioquímica 2 Departamento de Matemáticas , 3 Departamento de Física . Facultad de Ciencias, Pontificia Universidad Javeriana, Cra. 7ª Nº 43-82. Bogotá, Colombia [email protected] RESUMEN Para el estudio de la evolución biológica, se debió que establecer una correspondencia entre dos polímeros, que permitiera el entendimiento de cómo la información almacenada en los ácidos nucleicos daba lugar a proteínas específicas. Actualmente se sabe que las tripletas del código genético de mRNA establecen la correspondencia entre los polímeros y que la función de traducción es realizada por el tRNA asociado al ribosoma; sin embargo, el mecanismo por el cual una “frase” del “lenguaje” del código de los nucleótidos es escogido entre todos los arreglos posibles, para ser traducido es aún desconocido. El presente estudio asume que debido a la naturaleza de transferencia de información del proceso de codificación es posible que uno de los parámetros con los que se han caracterizado dichos fenómenos sea relevante para la selección. De esta forma se generará un modelo teórico que permita seleccionar entre una serie de factores de la teoría de información calculados in silico y estimación de algunos parámetros fisicoquímicos para el conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos presentes en la secuencia de una proteína en particular, permitirá identificar el o los que regulan que sólo una de esas secuencias de mRNA sea la traducida en la naturaleza. Palabras clave: modelos, mRNA, nucleótidos, simulación, selección natural. ABSTRACT For the study biological evolution, it is necessary to determine a correspondence between two polymers that make it possible to understand how the information stored in a nucleotide string codes for a specific protein. At the moment it is known that the triplets of the genetic code establish the correspondence among the polymers and that the translation function is carried out by the tRNA associated with the ribosome. However, the mechanism by which a sentence of the language of the code of the nucleotides code is chosen from among all the possible arrangements, for translation still unknown. The present study assumes that due to the nature of information transfer via the coding process, it is possible that one of the parameters among these which have characterized those phenomena would be relevant to the selection process. In this way a theoretical model will be generated that allows for selection among a series of factors

Upload: others

Post on 10-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

57

julio-diciembre de 2005UNIVERSITAS SCIENTIARUM

Revista de la Facultad de CienciasVol. 10, 57-69

������������� �� �������� ����

�� ������� ������� �� ��� ��� �����

J. González1, F. Novoa2, O. Acevedo3, L. Lareo1

1 Departamento de Nutrición y Bioquímica2 Departamento de Matemáticas,

3 Departamento de Física. Facultad de Ciencias, Pontificia Universidad Javeriana, Cra. 7ª Nº 43-82. Bogotá, Colombia

[email protected]

RESUMEN

Para el estudio de la evolución biológica, se debió que establecer una correspondencia entre dos polímeros,que permitiera el entendimiento de cómo la información almacenada en los ácidos nucleicos daba lugara proteínas específicas. Actualmente se sabe que las tripletas del código genético de mRNA establecen lacorrespondencia entre los polímeros y que la función de traducción es realizada por el tRNA asociado alribosoma; sin embargo, el mecanismo por el cual una “frase” del “lenguaje” del código de los nucleótidoses escogido entre todos los arreglos posibles, para ser traducido es aún desconocido. El presente estudioasume que debido a la naturaleza de transferencia de información del proceso de codificación es posibleque uno de los parámetros con los que se han caracterizado dichos fenómenos sea relevante para laselección. De esta forma se generará un modelo teórico que permita seleccionar entre una serie de factoresde la teoría de información calculados in silico y estimación de algunos parámetros fisicoquímicos para elconjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todasaquellas derivadas de las combinaciones entre los codones de los aminoácidos presentes en la secuencia deuna proteína en particular, permitirá identificar el o los que regulan que sólo una de esas secuencias demRNA sea la traducida en la naturaleza.

Palabras clave: modelos, mRNA, nucleótidos, simulación, selección natural.

ABSTRACT

For the study biological evolution, it is necessary to determine a correspondence between two polymersthat make it possible to understand how the information stored in a nucleotide string codes for a specificprotein. At the moment it is known that the triplets of the genetic code establish the correspondence amongthe polymers and that the translation function is carried out by the tRNA associated with the ribosome.However, the mechanism by which a sentence of the language of the code of the nucleotides code ischosen from among all the possible arrangements, for translation still unknown. The present studyassumes that due to the nature of information transfer via the coding process, it is possible that one of theparameters among these which have characterized those phenomena would be relevant to the selectionprocess. In this way a theoretical model will be generated that allows for selection among a series of factors

Page 2:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

58

Universitas Scientiarum Vol 10, 57-69

from information theory calculated in silico and the prediction from some physico-chemical parametersfor the group of all the possible mRNA sequences, that is to say, all those derived of the combinationsamong the codons will allow the identification of the or those that regulate the selection of a uniquesequence for those mRNA’s that are translated in nature.

Key words: models, mRNA, nucleotides, natural selection, simulation.

INTRODUCCIÓN

La transferencia de información surgiócomo un principio universal, ayudando adeterminar por medio de códigos especia-les, modelos de pensamiento humano. Ésta,se convirtió en un concepto científico cuan-do se iniciaba la era de la comunicaciónelectrónica. Un mensaje sólo transmite in-formación cuando existe algún grado deincertidumbre, en el receptor, acerca de loque el mensaje contendrá. Cuanto mayorsea la incertidumbre, mayor será el conte-nido de información transmitida. Estos con-ceptos genéricos se pueden aplicar a latransferencia de información genética. Paraéste, el material consiste en un número re-ducido de símbolo simbolizados por cua-tro letras: A (adenina), G (guanina), C(citosina) y T (timina) o U (uracilo). Estesistema de representación se asemeja alcódigo binario de Shannon (Shannon,1948) que sólo consiste en los dos dígitos0 ó 1. Las teorías de información han sidodesarrolladas para este tipo de lenguajesbinarios y con esto se facilita aplicar los prin-cipios de esas teorías y establecer modelospara predecir y conocer cuánta informaciónestá contenida en una molécula de ADN.

La teoría de información de Shannon sepuede aplicar a cualquier tipo de sistemainformativo en que se envíen mensajes deuna fuente a un receptor. Las secuenciasde nucleótidos que constituyen el mRNAson consideradas en este estudio como lafuente del mensaje, y las cadenas deaminoácidos que conforman las proteínasy se encuentran en el extremo del “canal decomunicaciones” como receptor. En esta

teoría, una buena comunicación en el men-saje debe estar codificado antes del envíoy debe incluir cierto nivel de redundanciaen el mensaje. Shannon demostró, en susegundo teorema para los ruidos de las se-ñales, la existencia de códigos que mantienenun orden dentro del desorden general.

Actualmente es claro que las tripletas delcódigo genético de mRNA establecen unacorrespondencia entre los ácidos nucleicosy las proteínas; sin embargo, aún es desco-nocido el mecanismo por el cual una “fra-se” del “lenguaje” del código de losnucleótidos es escogido para ser traducidoentre todos los arreglos posibles. En el pre-sente estudio se asume que dada la natura-leza de la transferencia de información esposible que uno de los parámetros con losque se han caracterizado dichos fenóme-nos sea relevante para la selección. Conbase en este concepto se propone un mode-lo teórico para seleccionar factores de lateoría de información, como la entropía, elcontenido de información según Shannony según Chaitin-Kolmogorov, factoresbioquímicos como los contenidos demononucleótidos y dinucleótidos, las ener-gías de formación y la estimación in silicode algunos parámetros fisicoquímicos. Es-tos procesos se realizaron para todas lassecuencias de mRNA probabilísticamenteposibles para cada una de las proteínas quese emplearon en la generación del modelo.

Antecedentes

De acuerdo con Lagerkvist (Lagerkvist1980), no existe complementariedad quí-mica conocida entre el triplete de un codón

Page 3:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

59

julio-diciembre de 2005

y el aminoácido correspondiente. Entre losprimeros autores sobre el origen del códi-go genético, Crick (1968) sugirió que éstesurgió gradualmente, en escalones, deacuerdo con la utilidad del producto de latraducción o proteínas primitivas. Crick,adicionalmente, aplicó el principio Darwi-niano, de selección natural, a las interaccionesácido nucleico - péptido. De acuerdo con estepunto de vista, la acumulación de un péptidoespecífico habría llevado a la acumulación demás oligonucleótidos específicos.

Una posible asignación al azar podría haberdado lugar a aminoácidos codificados pormúltiples tripletes no relacionados; el codónXYN; donde X y Y son bases fijas y N cual-quiera de las cuatro bases; con frecuenciacodifica un solo aminoácido, es decir, loscodones para cada uno de estos aminoáci-dos tienen la misma base en cada una de lasdos primeras posiciones (glicina, alanina,valina, prolina y treonina). Cuatro de los seiscodones para serina y leucina también pre-sentan esta característica. Cuando N es res-tringido a U ó C, el codón XYN codifica unsólo aminoácido en cada uno de los casos.Así, parece que las dos bases inicialesdel código pudieron haberse decidido enprimer lugar en la evolución (Brener etal., 1976).

Otro aspecto que puede explicar la noaleatoriedad de la selección tiene que vercon la similaridad química entre aminoá-cidos relacionada con codones similares,lo cual, puede indicar que el reconoci-miento de clases de aminoácidos pudohaber precedido al reconocimiento de unaminoácido individual. Una explicación ala transformación de las interacciones pri-mitivas oligonucleótido-oligopéptido enun sistema de traducción funcional estáen la actualidad sujeto a discusión.

Algunos autores han sugerido que losaminoácidos se asociaron al principio con suscodones o con sus anticodones, a través deun ajuste estereoquímico o compartiendootras propiedades de complementariedadcomo hidrofobicidad o hidrofilicidad (Jungck1987). Strickberger (1993) ha postulado unahipótesis alternativa, que sugiere que launiversalidad del código genético es con-secuencia de la supervivencia de solo unode todos los posibles códigos ensayadosen el pasado. Esta hipótesis implica que lasrelaciones primitivas entre aminoácidos ycodones surgieron fundamentalmente al azar,y no por un apareamiento estereoquímicoestricto. Esto implica que se deben haberproducido un número elevado de códigosgenéticos iniciales, cada uno de ellos utili-zado por diferentes grupos. Sin embargo,con el paso del tiempo permaneció sólo unoy los otros acabaron extinguiéndose (Wong,1975) así el código acabó siendo establehasta entonces. Según Wong (1975), los in-dividuos portadores del código que acaba-ron imponiéndose debían tener una ovarias ventajas exclusivas, que les habríanproporcionado una superioridad competi-tiva importante. Una de estas ventajas po-dría haber sido el acoplamiento en fase entrela replicación del DNA y la división celular.

MÉTODOS

Para el presente estudio, se tomó unamuestra de 10 proteínas seleccionadasconsiderando como principal criterio sulongitud. La fuente de información paralas secuencias, de las proteínas seleccio-nadas, fue el GenBank del NCBI (http://www.ncbi.-nlm.nih.gov). Esta informaciónbásica de las secuencias seleccionadasse presenta en la tabla 1.

Page 4:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

60

Universitas Scientiarum Vol 10, 57-69

te de partición (logP). Estos cálculos fueronrealizados empleando el Software MolecularModeling Pro. (ChemSW, 2003).

Se realizó un estudio detallado del parámetrohidrofobicidad debido, básicamente, a lasdiferencias de valores encontradas previa-mente entre grupos de codones, lo cual, per-mitió generar algunas inferencias en cuantoa la asociación de los mismos con la posibleselección del codón. Los datos comparati-vos se tomaron de Black & Mould (Blacky Mould, 1991).

Posterior a la medición de los parámetrosfisicoquímicos se determinó la frecuenciarelativa de uso de codones de acuerdo conla base de datos Codon Usage de GenBankRelease 141.0 (May 11 2004).

Otro parámetro considerado correspondió alconteo de mononucleótidos y dinucleótidosde cada secuencia así como el uso decodones en ellas.

Todos los análisis estadísticos se realiza-ron con el programa estadístico R (REF.).

El conteo permitió la identificación de di-ferencias en cuanto a la probabilidad deaparición simultánea de mononucleótidosen cada secuencia, se tuvo como punto de

A cada una de estas secuencias proteicas seles realizó una traducción conceptual inver-sa, mediante el programa de Backtranslationdel servidor de análisis proteómico Expasy(http://www.expasy.ch) La generación de to-das las secuencias de mRNA probabilísti-camente posibles se realizó empleando elsoftware CoCoA System (Computation inCommutative Algebra) con base en el códigogenético universal.

Posteriormente se hicieron arreglos de lassecuencias obtenidas para representarlascon la tercera base en forma genérica (N) ytambién se hicieron transformaciones apurinas y pirimidinas. Estos dos procesos,que se realizan manualmente, tienen el pro-pósito de reducir el número de secuenciasposibles para facilitar los procesos de aná-lisis preliminares.

Propiedades fisicoquímicas

A todas las secuencias, antes de reducir eltamaño de muestra como se explicó anterior-mente, se le realizaron las estimaciones de lassiguientes propiedades fisicoquímicas: pesomolecular, punto isoeléctrico, volumen, den-sidad, proporción de área hidrofílica, propen-sión para la donación y aceptación depuentes de hidrógeno, momento dipolar, ca-pacidad calorífica, solubilidad y coeficien-

Tabla 1Identificación de proteínas de estudio

Organismo ID proteína ID nucleótido Longitud(aa)

Rana lessonae 20146864 20146863 19Gorrilla gorilla 20146866 20146865 19Branta leucopsis 20146890 20246889 19Homo sapiens 3002540 3002539 12Ovis aries 1364225 1354 27Sus scrofa 1377863 1377862 10Cervus nippon 4432903 303530 13Rattus norvegicus 5805063 5805062 15Amytornis striatus 45478443 45478442 17Neisseria gonorrhoeae 2662533 2662532 18

Page 5:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

61

julio-diciembre de 2005

referencia la probabilidad de aparición in-dependiente de cada base en la secuenciareal. En este punto cada frecuencia indivi-dual fue tomada para una secuencia simul-táneamente y posteriormente sometida a lacomparación con la secuencia real.

Obtención del conjunto de secuencias demRNA de trabajo

Para las diferencias en cuanto a la probabilidadde aparición simultánea de mononucleótidosde cada secuencia, se tuvo como punto dereferencia la probabilidad de aparición in-dependiente de cada base en la secuenciareal. En este punto, cada frecuencia indivi-dual fue tomada para una sola secuenciahipotética y posteriormente sometida a lacomparación con la secuencia real.

Las coincidencias en cuanto a esa mismaprobabilidad para el grupo de secuenciasposibles, permitió la identificación de se-cuencias equiprobables, simultáneamente,para cada nivel. Las secuencias homólogasen cuanto a la probabilidad con respecto a lareal fueron seleccionadas y caracterizadas.

Estas secuencias equiprobables identifica-das se sometieron a alineamientos múlti-ples con respecto a la secuencia realmediante el programa T-coffee (http://www.ch.embnet.org/software/TCoffee.html).

Finalmente, los datos fueron sometidos aun análisis de conglomerados mediante latécnica de redes neuronales del programaIBM DB2 Intelligent Miner for Data.

RESULTADOS Y DISCUSIÓN

De todos los parámetros intrínsecos de unamolécula, la energía es la que en formaintuitiva, es considerada a priori como unfactor de selección por parte de la naturale-za. En este trabajo se analizaron cálculos dela energía química para formar los enla-

ces, la energía potencial total y la ener-gía de enlace para identificar si éstos hansido un factor dominante en la selecciónde los codones que existen actualmenteen la naturaleza. Como variable depen-diente de estos factores se tendrá el usode codones en diferentes organismoscomo lo reporta la base de datos Kasuza(http://www.-kazusa.org.jp/codon) es de-cir, el conteo de codones de toda la se-cuencia genómica de los organismos yno sólo las regiones codificantes.

Los datos obtenidos corresponden a va-lores significativamente cercanos entrePurinas (A, G) y Pirimidinas (C, U) comose observa en la tabla 2, en donde, lasmás altas diferencias fueron consisten-temente evidenciadas en codones conbaja relación estructural.

La anterior suposición es coherente con larelación de estos codones (codones sinóni-mos) que contienen las mismas bases en lasposiciones primera y segunda paraaminoácidos particulares y por consiguientetienen valores cercanos para los parámetrosenergéticos calculados.

Los datos de las variables fisicoquímicas,que son consistentemente similares paragrupos de codones, permiten suponer laelevada similitud entre las secuencias demRNA codificantes teóricamente para lamisma proteína, limitando de esta manerala elección de dichas variables como factorregulador o controlador de la elección deuna o un grupo de secuencias codificantespara una misma proteína.

Tabla 2Energía de enlace

Base Costonitrogenada energético Kj/mol

Adenina 34.144Guanina 34.103Citocina 33.817Uracilo 33.103

Page 6:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

62

Universitas Scientiarum Vol 10, 57-69

En el análisis de las posibles relaciones en-tre la energía total y el uso de codones enlos organismos considerados no se encon-tró ninguna correlación significativa que in-dique que la naturaleza empleó esteparámetro energético, al menos para los queexisten actualmente, como se puede ver enla figura 1. Tampoco se evidenció ningu-na relación significativa entre los valoresenergéticos de los codones es estrecho(promedio = -102,05 Kcal/mol, desviaciónestándar = 3,26), aún si se considera lavariabilidad por estar constituidos porpurinas y pirimidinas. Por el contrario el

Figura 1.Relación entre la energía deformación y el uso de codonesen diferentes organismos dedonde provienen las proteínasdel estudio

uso de codones presenta un amplio rangoaun dentro de los mismos codones en losorganismos considerados y entre codonesdentro del mismo organismo.

De acuerdo con los datos obtenidos paralas propiedades calculadas, los grupos decodones (sinónimos) muestran marcadastendencias de similitud de acuerdo con laspropiedades determinadas, estas tendenciaspermiten evidenciar un claro patrón de dis-tribución en todos los casos para elparámetro de energías.

Dada la selección separada de cada pro-piedad fisicoquímica, se puede inferirque el patrón de asignación de codonesa aminoácidos puede estar estrechamen-te relacionado con la energía, dadas lastendencias intergrupos y la similitud intragrupos de tripletes sinónimos codificantespara un aminoácido en particular; sin em-bargo, dada esta similitud intragrupos noes posible determinar como factorescontroladores o condicionantes, de la se-lección entre los codones de un mismogrupo, a los factores energéticos.

De acuerdo con los patrones presenta-dos de distribución de uso de codones

se observa que los codones sinónimosno son usados en la misma proporción.Los resultados muestran una frecuenteelección de codones con una preferen-cia general A, T ó G, C lo que sugiereque hay una selección determinada encodones que son traducidos más eficien-te, rápida y certeramente.

Los conteos para cada una de las secuen-cias, demuestran que la secuencia real tie-ne un contenido más elevado de las basesGC con respecto a las demás. Para este pun-to se puede afirmar que las letras del tercercodón son casi invariantemente G ó C. Unasituación igual se presenta para la primera

Page 7:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

63

julio-diciembre de 2005

posición del codón, el cual, presentareiterativamente las mismas bases, mientrasque GC se conserva relativamente baja parala segunda posición.

Para revelar si el contenido de GC es unavariable que afecta el uso de aminoácidosse acudió a las tablas estandarizadas porNakamura (1997), las cuales, aparentemen-te no muestran una correlación significati-va en cuanto al contenido genómico de GC,así, una acumulación de GC en el tercercodón parece no tener un gran efecto en eluso de aminoácidos dado el grado de re-dundancia del codón.

Se realizó el estudio de la distribución de fre-cuencias de mononucleótidos y dinucleóti-dos en cuanto al contenido de purinas ypirimidinas y de las duplas G+C y A+T; sinembargo, los datos no arrojaron resultadoscontundentes respecto a la definición de unpatrón que permita la distinción de la secuen-cia real respecto a las demás posibilidades,para el caso de mononucleótidos y conteni-do de purinas (G+A) y pirimidinas (C+T).

Para el caso del contenido de A+T y G+C,para cada una de las secuencias, se evi-dencia una distinción clara de la secuen-cia real en cada uno de los casos, lo cual,puede obedecer a que las mutaciones deA ó T, G ó C ocurren más frecuentementeque en cualquier otra dirección. Entregenes codificantes de proteínas, la tercerabase del codón es aquella cuyo contenidode G+C tiene la correlación más alta.

El estudio del conjunto de datos con res-pecto a los conteos generados, permitióestablecer una clara distribución diferen-te de las probabilidades de cada secuen-cia, asignando varias posibilidades a unconjunto de mensajes posibles (grupo demRNAs para cada secuencia), en donde,claramente se observa que la redundan-cia hace desiguales las probabilidades,en lugar de emparejarlas sobre toda la

gama de posibilidades que permite dis-criminar y caracterizar los subgrupos quecomparten las probabilidades simultá-neamente para cada mononucleótido.

En la tabla 3, se muestra el número desecuencias que comparten valores deprobabilidad para cada mononucleó-tido con respecto a la secuencia real-mente traducida en cada uno de loscasos estudiados.

Las coincidencias en cuanto a esa mismaprobabilidad para el grupo de secuenciasposibles permitió la identificación de secuen-cias equiprobables (igual probabilidad) paracada nivel simultáneamente.

Las secuencias equiprobables identifica-das correspondieron a grupos significati-vamente reducidos. De acuerdo con laalineación de cada uno de ellos con res-pecto a la secuencia real, se encuentra alpatrón de redundancia como uno de losfactores determinantes de la selección delcódigo de información.

Para los grupos estudiados, se observa cla-ramente que las mutaciones en la primerabase son muy ocasionalmente neutralescomo el caso de UUA?CUA, las cuales, co-difican para leucina. Las mutaciones en latercera base son frecuentemente neutrales.

Tabla 3Secuencias de mRNA totales y

equiprobables para cada proteína en el estudio

Secuencias Teóricamente Simultáneamenteprobables equiprobables

U1 384 11U2 9216 79U3 258 5U4 16 2U5 16 2U6 96 6U7 96 5U9 1152 11

Page 8:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

64

Universitas Scientiarum Vol 10, 57-69

De acuerdo con los alineamientos nooptimizados para los grupos de secuenciasque comparten probabilidad de ocurrenciaen cada caso estudiado, se observa que laprimera posición del codón muestra la másbaja correlación seguida de la segunda po-sición y tercera de acuerdo con el grado deredundancia del codón. Esto es consisten-te con la idea de que los cambios mayor-mente probables recaen donde éstas sonneutrales así:

Tercera base ? Segunda base ? Primera base

Se evidencia adicionalmente, que lassustituciones en la tercera base tiendena ser transiciones preferiblemente quetransversiones, esto es que purinas tien-den a sustituirse por purinas y pirimidinaspor pirimidinas y que las bases preferible-mente seleccionadas por los grupos son G-C. De lo anterior es posible inferir que loscodones con contenido G-C en la tercerabase deben tener una alta probabilidadde traducción para una diversa gama deproteínas y por ende deben tener mayoracción génica.

Estos resultados han mostrado que esteefecto no es sólo una lejana posibilidadteórica y que puede ser demostrado (comoen este estudio) mediante el análisis delcontenido de información en secuencias deinterés; si no que, de acuerdo con lo ante-rior, es posible inferir que las característicasrelevantes de la redundancia correspon-den al número de mutaciones puntualesque la definen. Esta idea actualmente esapoyada por el hecho de que una fuertemutación combinada con la neutralidad de-jará a algunos codones completamente ocasi inutilizables (Epstein 1966, Woese yDugre 1966, Osawa et al., 1992).

A partir de la identificación de subgrupos(conjuntos de secuencias equiprobables),fue posible realizar un estudio detallado alfactor de hidrofobicidad, obteniéndose que

para los valores referidos (Black y Mould1991), se tienen dos subdivisiones binariascomo sigue: Purinas R=(A, G) y PirimidinasY=(C, U). De acuerdo con la propiedad dehidrofobicidad, los codones pueden sersubdivididos de la siguiente manera:

1. {RRR, RRY, YRR, YRY} (conjunto conbaja hidrofobicidad o conjunto hidrofílico)y

2. {RYR,RYY,YYR,YYY} (conjunto convalores altos de hidrofobicidad o conjuntohidrofóbico).

Aunque la diferencia relativamente es baja,es significante si se observa en asociacióncon las transiciones y transversiones paralos subgrupos de secuencias estudiadas, así,los valores varían de acuerdo con los cam-bios observados en los codones para lassecuencias equiprobables seleccionadas.

El estudio de los cambios de bases para lassecuencias equiprobables, muestra que lassustituciones se realizaron mayoritariamenteentre codones que tienen una composiciónigual en cuanto a contenido de purinas ypirimidinas, aunque, la composición de lasbases para los codones relacionados seadiferente, adicionalmente muestra que estassustituciones presentan una evidente ten-dencia hacia los cambios por codones quepresentan valores menores del parámetroevaluado (hidrofobicidad).

La figura 2, muestra algunas sustitucio-nes representativas, de acuerdo con losalineamientos generados para secuenciasequiprobables dadas, adicionalmente seevidencia que los cambios se realizan siem-pre hacia los codones con valores menoresde hidrofobicidad o en su defecto hacia unvalor igual para todos los casos.

El fenómeno presentado de acuerdo con losresultados, es apoyado por el hecho delsurgimiento de la vida en un ambiente acuá-

Page 9:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

65

julio-diciembre de 2005

tico, en el cual, la minimización del costoenergético pudo haber dado preferentemen-te una selección de sustancias que presen-tarán a su vez características que permitieranuna óptima asociación con el ambiente de

Esta tendencia, fue consistente cuando seanalizaron las medidas de polaridad pre-sentadas por Ardell (1998), el cual, asumeestas medidas (entre otros pará-metros)como unas de las fuerzas que pudieron ha-ber estandarizado el código genético dadasdiferencias en la fidelidad translacional porla posición del codón.

Comparación de los análisis con los valo-res de las secuencias de mRNA traducida.

El programa empleado (Intelligent Minerfor Data) busca las características quese dan con más frecuencia y agrupa losregistros relacionados de acuerdo conello. El resultado de la función de agru-pamiento muestra el número de conglo-merados detectados y las característicasque los const i tuyen. El porcentajepoblacional al que corresponde cadaconglomerado en cada uno de los casosse presenta en la tabla 4.

Figura 2.Alineamientos de las secuen-cias de mRNA equiprobables.

interacción. Aunque esto es muy probable,los estudios y las inferencias desarrolladasen este punto para el presente estudio re-quieren de verificación experimental.

Tabla 4Distribución poblacional de las

secuencias en cada conglomeradogenerado por minería de datos

Secuencia Conglomerado Tamaño. TamañoAbs (%)

U1 3 23 5.99U1 1 27 7.03U2 6 987 10.71U2 3 1193 12.94U3 8 24 9.49U3 5 48 18.97U4 8 2 12.50U4 6 4 25.00U5 0 8 50.00U5 5 4 25.00U6 6 12 12.50U6 7 6 6.25U7 2 12 12.50U7 8 10 10.42U8 6 121 10.50U8 3 134 11.63

Page 10:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

66

Universitas Scientiarum Vol 10, 57-69

Un análisis sistemático de la composiciónde los codones en diferentes grupos estable-ce y corrobora el hecho de que la tercera basedel codón marca una importante pauta parala selección del mismo en aminoácidos congrado de redundancia menor que seis. La dis-tribución porcentual de las posiciones de lasbases en los codones mutados refleja estasituación, dado el porcentaje mayoritario decambio en la tercera posición para cada caso.Es necesario anotar que las posiciones pri-mera y segunda para el codón que presentansignificancia estadística, corresponden es-trictamente a codones que presentan gradode redundancia igual a seis.

Este lenguaje usado que define la redundanciay es aplicado al código genético, permitió eneste trabajo la identificación de algunos patro-nes que regulan la selección de una secuenciacodificante entre todas las posibilidadesequiprobables teóricamente y permiten por ende,generar un modelo de posible selección así:

1. El cambio en la primera base es muyocasionalmente neutral.

2. Las mutaciones en la tercera base sonfrecuentemente neutrales, esto es, dichocambio es predominante y no altera la co-dificación para un aminoácido particularentre codones sinónimos.

3. La primera posición del codón muestrala más baja correlación seguida de la se-gunda posición y tercera de acuerdo con elgrado de redundancia del codón:

Tercera base >Segunda base >Primera base

4. Las sustituciones en la tercera base tien-den a ser transiciones preferiblemente quetransversiones.

5. Las sustituciones se realizan mayo-ritariamente entre codones que tienen unacomposición igual en cuanto a conteni-

do de purinas y pirimidinas aunque lacomposición de las bases para la sustitu-ción de los codones sea diferente.

6. Las bases preferiblemente selecciona-das para la tercera posición son G y C.

7. Invariantemente, el cambio en la terce-ra base se presenta si el grado de redundan-cia es menor o igual a 4.

8. El cambio en la primera, segunda y ter-cera posición del codón se presenta simul-táneamente en codones con grado deredundancia igual a 6.

La distribución de las bases y sus mutacio-nes según su posición en el codón se pre-sentan en la tabla 5.

∆ B1; B2; B3 si GR > 4

∆ B3 si GR < 4

Tabla 5Distribución Porcentual de bases según

su posición en el codón

Secuencia Conglomerado P1 P2 P3% % %

U1 3 14.2 14.2 71.4U1 0 14.2 14.2 71.4U2 6 10.0 0.0 90.0U2 3 10.0 0.0 90.0U3 8 14.2 28.5 57.1U3 5 14.2 28.5 57.1U4 8 28.5 28.5 42.8U4 6 28.5 28.5 42.8U5 0 28.5 28.5 42.8U5 5 28.5 28.5 42.8U6 6 28.5 28.5 42.8U6 7 28.5 28.5 42.8U7 2 28.5 28.5 42.8U7 8 14.2 28.5 57.1U8 6 11.1 22.2 66.6U8 3 11.1 11.1 77.7

Page 11:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

67

julio-diciembre de 2005

CONCLUSIONES

Aunque de manera extensa son conoci-dos los detalles bioquímicos en cuanto ala implementación del código genético,la aplicación del mismo para la selec-ción de una tripleta particular (de acuer-do con su grado de redundancia) quecodifique y por ende haga parte de lasecuencia de mRNA escogida por la na-turaleza, entre todas las posibilidadesprobables que será traducida, es escasa-mente entendido. En particular, es muypoco conocido si la asignación de ami-noácidos a tripletes es arbitraria o si son se-leccionadas debido a procesos evolutivos.

Parte de esta ignorancia es debida a laimagen persistente del código conge-l ado suge r ido por Cr i ck en 1968(Crick, 1968).

Este estudio argumenta que el cambioen el patrón de redundancia, mientras semantenga un conjunto de posibles ami-noácidos constantes, es un factor deter-minante de la selección del código deinformación para la traducción proteica.Muestra adicional-mente, cómo las pre-guntas concernientes al impacto de loscódigos para una única traducción tam-bién pueden ser cuestionadas en el con-texto de la Teoría de Informaciónmediante aplicaciones concretas de lamisma teoría con asociaciones al códigogenético definidas entre secuenciastetranarias y posibles valores de varia-bles involucradas en la definición de unaposible solución. La expectativa corres-pondió al código genético, en el cual,patrones cuidadosamente escogidoscomo la redundancia pueden emplearsepara generar un modelo.

Idealmente cada uno de los patrones deredundancia y el grado de neutralidaden la posición primera, segunda o terce-ra de cada base para la tripleta, podrían

utilizarse para mejorar el modelo de se-lección propuesto. Esto, sin embargo, esun largo proceso debido al elevado nú-mero de posibilidades en secuencias teó-ricamente equiprobables de mRNA. Enel presente estudio, se propone una dis-minución de datos mediante el cálculode probabilidad de aparición indepen-diente de mononucleótidos, definiendoasí un óptimo local cuando el símbolodel código (en el sentido definido ante-riormente) tiene una probabilidad mayorque todos los demás símbolos que pue-den alcanzarse por mutaciones puntua-les, así, fue posible contar el número deóptimos locales entre un conjunto desímbolos posibles. Tal posicionamientoconstituyó el resultado de una funciónparcial obtenida con el análisis del grupode símbolos posibles en posiciones no ar-bitrarias que corresponderán a las secuen-cias favorecidas con probabilidadsimultánea correlacionada con la secuen-cia finalmente traducida.

Los resultados obtenidos con el estudiode los valores de hidrofobicidad paracada sustitución dada entre codones paralas secuencias equiprobables, confirmanlos postulados anteriores dada una evi-dente tendencia hacia los cambios porcodones que presentan valores menoresdel parámetro evaluado (hidrofobici-dad). Este hecho adicionalmente es apo-yado por el hecho del surgimiento de lavida en un ambiente acuático, en el cual,la minimización del costo energéticopudo haber dado preferentemente una se-lección de sustancias que presentarán asu vez características que permitieranuna óptima asociación con el ambientede interacción. En la figura 3 se presentauna forma gráfica de visualizar los cam-bios de hidrofobicidad, siempre tratan-do de reducirla o al menos conservarla,con las mutaciones que se evidenciaroncomo criterio de selección con respectoa la tercera base del codón.

Page 12:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

68

Universitas Scientiarum Vol 10, 57-69

Estos resultados han mostrado que esteefecto no es sólo una lejana posibilidadteórica y que puede ser demostrado (comoen este estudio) mediante el análisis delcontenido de información en secuenciasde interés; así de acuerdo con lo anterior,es posible inferir que las características re-levantes de la redundancia correspondenal número de mutaciones puntuales que ladefinen. Esta idea actualmente es apoyadapor el hecho de que una fuerte mutacióncombinada con la neutralidad dejara a al-gunos codones completamente o casiinutilizables (Epstein, 1966; Woese yDugre, 1966; Osawa et al., 1992).

Los análisis sistemáticos de la composiciónde la tercera base en el codón puede ser unaherramienta muy útil para estudios genéticosrelacionados con estudios de prospectivafuncional. Sin embargo, las bases mecanicis-tas de las ventajas en cuanto al contenido de

GC en la tercera base del codón sigue siendoconjetural hasta el momento.

Dado que este estudio se desarrolló to-mando como muestras proteínas deneuropéptidos, se puede establecer unaclara relación en secuencias de longitu-des cortas usando información derivadade patrones de redundancia que puedeser necesaria en la predicción de frecuen-cias relativas de nucleótidos para la se-lección de secuencias con una al taprobabilidad de ser traducidas.

El modelo propuesto, genera evidencia táci-ta, en contra de la teoría de aleatoriedad enla selección de codones sinónimos para laselección de la secuencia de mRNAcodificante. Considerando las secuencias deestudio, se encuentra que el cambio en cadauna de las posiciones para las bases de latripleta representa un direccionamientocrucial en la definición de la secuenciacodificadora.

LITERATURA CITADA

ARDELL, D. 1998. On error minimization ina sequential origin of the standardgenetic code. J Mol Evol, 47: 1-13.

BLACK, S. y MOULD D. 1991. Developmentof hydrophobicity parameters toanalyze proteins which bear post orcotranslational modifications. AnalBiochem, 193: 207-209.

BRENER, A., CRICK, F. y KLUG, Y. 1976. Aspeculation on the origin of proteinsynthesis. Origins of life, 7: 389-397.

CRICK, F. 1968. The origin of the geneticcode. J Mol Evol, 38:367-379

CHEMSW. 2003. Molecular Modeling Pro.Version 5.2.4. Fairfield, CA 94534.

http//:www.expasy.orghttp://www.kazusa.or.jp/codon/h t tp / /www.ch .embne t .o rg / so f tware /

TCoffee.html.

Figura 3.Gráfica de la hidrofobicidad de los mRNAque han sido seleccionados por la naturale-za como codificantes en función de las mu-taciones en su tercera base.El valor de la hidrofobicidad se reduce yen los casos críticos se conserva en funcióndel tipo de base en la tercera posición.

Page 13:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos

69

julio-diciembre de 2005

JUNGCK, J. 1987. The genetic code as a periodictable. J Mol Evol, 11: 211-224.

EPSTEIN, C. 1966. Role of the amino acid“code” and of selection for conformationin the evolution of proteins. Nature, 210:25-28.

LAGERKVIST, U. 1980. Codon misreading,a restriction operative in the evolu-tion of the genetic code. Am Sci, 68:192-198.

NAKAMURA, Y., GOJOBORI, K. y IKEMURA, T.1997. Codon usage tabulated from theinternational dna sequence databases.Nucleic Acid Res, 25: 244-245.

OSAWA, S.; JUKES, T.; WATANABE, K. y MUTO, A.1992. Recent evidence for evolution

Recibido: 12-05-2005Aceptado: 12-09-2005

of the genetic code. MicrobiologicalReviews, 56: 229-264.

S H A N N O N, C. 1948. A mathemat ica ltheory of communication. The BellSystem Technical Journal, 27: 379-423, 623-656.

STICKBERGER, M. 1993. Evolution. Jones andBartlett Publishers, Inc. Boston.

WOESE, C. y DUGRE, H. 1966. The molecularbasis for the genetic code. Proc NatlAcad Sci USA, 55: 966-974.

WONG, J. 1975. A co-evolution theory of thegenetic code. Proc Natl Acad Sci, USA,72: 1909-1912.

Page 14:  · conjunto de todas las secuencias de nucleotídicas de mRNA probabilísticamente posibles, es decir, todas aquellas derivadas de las combinaciones entre los codones de los aminoácidos